Wiktionary是一个涵盖多种语言的维基字典。它甚至还有翻译功能。我对解析它和处理数据很感兴趣,以前有人做过这样的事情吗?有没有我可以使用的库?(最好是Python。)
发布于 2010-07-29 23:40:22
维基词典运行在has an API的MediaWiki上。
其中一个应用编程接口文档的子页是Client code, which lists some Python libraries。
发布于 2010-07-30 04:59:09
我曾经下载了一个维基词典转储,试图收集斯拉夫语言的单词和定义。我使用elementtree遍历作为转储的xml文件。我会避免尝试抓取或爬行站点,只下载wikimedia为wiktionary提供的xml转储。转到wikimedia downloads,查找英语维基词典转储(enwiktionary),然后转到最新的转储。您可能需要pages-articles.xml.bz2文件,它只是文章内容,没有历史记录或评论。用您喜欢的python中的任何xml处理库来解析它。我个人更喜欢elementtree。祝好运。
发布于 2012-03-16 17:51:06
wordnik在解析定义等方面做得很好,而且他们有一个great api
正如其他人所提到的,wiktionary是一个格式化灾难,并且不是为计算机可读而构建的
https://stackoverflow.com/questions/3364279
复制相似问题