我使用的是pywikibot-core,在另一个python包装器之前,我使用它作为Wikipedia.py (它有一个.HTML方法)。我转而使用pywikibot-core,因为我认为它有更多的特性,但我找不到类似的方法。(注意:我不是很熟练)。
发布于 2014-12-14 22:54:00
我将在这里发布user283120的第二个答案,比第一个更精确:
Pywikibot核心不支持任何直接(HTML)方式与Wiki交互,因此您应该使用API。如果需要,可以通过使用urllib2轻松地完成任务。
这是我用来获取commons页面的HTML的一个例子:import urllib2 ... url = "https://commons.wikimedia.org/wiki/" + page.title().replace(" ","_") html = urllib2.urlopen(url).read().decode('utf-8')
发布于 2014-12-12 12:04:22
SaveHTML.py下载文章和图像的HTML页面,并将有趣的部分保存到文件中,即文章文本和页脚
来源:https://git.wikimedia.org/blob/pywikibot%2Fcompat.git/HEAD/saveHTML.py
发布于 2014-12-12 23:34:39
一般来说,您应该使用pywikibot而不是wikipedia (例如,代替“导入wikipedia”,您应该使用“导入pywikibot"),如果您正在寻找wikipedia.py中的方法和类,它们现在是分开的,可以在pywikibot文件夹中找到它们(主要在page.py和site.py中)。
如果您想运行您用compat编写的脚本,可以在pywikibot中使用一个名为compat2core.py的脚本(在scripts文件夹中),并且有一个关于转换的详细帮助,名为README-Transsion.txt,仔细阅读它。
https://stackoverflow.com/questions/27442776
复制相似问题