我需要从维基百科在我的网站上使用我的国家的城市页面。例如,对于New York,将有一个关于这座城市的主页。那么如果我有一个城市列表,我该如何下载这些页面呢?
这将是1000个城市。
我还听说维基百科不喜欢机器人访问它的页面。我将按照知识共享许可使用这些信息。
如果我能用perl脚本编写代码,那就太好了。
发布于 2011-04-13 14:17:21
您可以使用WWW::Wikipedia
#!/usr/bin/env perl
use strict;
use warnings;
use WWW::Wikipedia;
my $wiki = WWW::Wikipedia->new();
my $entry = $wiki->search('New York');
binmode STDOUT, ':utf8';
print $entry->fulltext();阅读有关WWW::Wikipedia::Entry中的文本返回方法的信息
texttext_basicfulltextfulltext_basicraw发布于 2011-04-13 14:00:57
当维基百科免费提供数据供下载时,你不应该刮掉它:
http://en.wikipedia.org/wiki/Wikipedia:Database_download
以及如何使用它的提示:
http://en.wikipedia.org/wiki/Wikipedia:Database_download#Help_parsing_dumps_for_use_in_scripts
然后,您可以简单地使用已提供的工具:
http://search.cpan.org/dist/MediaWiki-DumpFile
或者,如果您确实只想要一个已知的、有限的子集,可以使用API:
http://www.mediawiki.org/wiki/API
要在perl中使用它,您可以开始查看LWP和JSON模块,或者再次利用CPAN:http://search.cpan.org/dist/MediaWiki-API
https://stackoverflow.com/questions/5644916
复制相似问题