当前位置: 首页>>建站开发>>正文


如何转储MediaWiki以供离线使用?

webfans 建站开发 去评论

问题描述

我希望能够每周制作一个MediaWiki网站的离线版本。

DumpHTML扩展实际上做了我想要的,因为它转储所有文章和媒体文件,但我看不到它已经转储的所有文章的索引,所以我无法在转储中导航。

阅读有关MediaWiki的XML dump功能,我想知道是否可以使用程序查看这些文件或者将它们转换为html?

或者是否有其他方法可以制作MediaWiki网站的离线版本?

最佳解决方法

您可以使用webcrawler工具将网站另存为HTML文件。所有链接都将被转换,因此您可以打开主页,比如说,然后单击链接并访问所有站点。

有许多这些工具可用。我使用wget,它是基于命令行的,有数以千计的选项,所以不太友好。然而它非常强大。

例如,这是我用来转储我自己的mediawiki站点的命令行。我建议您在使用之前了解每个选项:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki

次佳解决方法

您可以从Wikimedia dumps site获取-pages-articles.xml.bz2并使用WikiTaxi处理它们(在左上角下载)。 Wikitaxi Import工具将从.bz2文件中创建一个.taxi(维基百科大约15Gb)文件。 WikiTaxi程序将使用该文件来搜索文章。体验与浏览器体验非常相似。

或者您可以更快地使用Kiwix进行设置,因为它还提供已处理的转储(.zim文件)。由于评论指定为了使用其他MediaWiki网站kiwix mwoffliner可以使用,它可能无法与所有人一起工作,因为他们可能有自定义差异,但它是我遇到的唯一变种。

使用wget获取维基媒体的东西并不是一个好习惯。如果太多人会这样做,它可以充斥请求的网站。


稍后编辑您希望图像离线的情况:

XOWA Project

如果你想要一个完整的维基百科镜像(包括图像)full HTML formatting intact that will download in aprox 30 hours,你应该使用:

英语维基百科有很多数据。有1390多万页,20.0 + GB的文本,以及370多万缩略图。

XOWA

Setting all this up on your computer will not be a quick process… The import itself will require 80GB of disk space and five hours processing time for the text version. If you want images as well, the numbers increase to 100GB of disk space and 30 hours of processing time. However, when you are done, you will have a complete, recent copy of English Wikipedia with images that can fit on a 128GB SD card.

但离线版非常像在线版,包括照片等:(我完全离线测试了下面的文章)

mediawiki


如果以上都不适用,请稍后编辑:

如果维基不是维基媒体的一部分或者没有转储,那么github上有一个项目可以使用其API下载该维基:

WikiTeam – We archive wikis, from Wikipedia to tiniest wikis

参考资料

本文由朵颐IT整理自网络, 文章地址: https://duoyit.com/article/3045.html,转载请务必附带本地址声明。