我会第一个承认我不是世界上最聪明的人,但在这一点上我很困惑。
我想要访问的单词和每个单词的详细信息的英文维基词典项目。我看到他们做数据转储,非常兴奋。这持续了整整3秒。从那时起,我所做的一切就是在沮丧和恼怒中咒骂和吸烟。
我用的是windows7。
我已经安装了最新版本的xampp (64位,安装在根目录下)。
我已经安装了最新的Java DK。
我已经将Xampp和JDK设置为以管理员身份运行。
我已经抓取了文章页的文件。
我已经给他们解压了。
我使用过mwxml2sql工具。
我无法让它运行(无论我尝试了什么设置/标志)。
我使用的是mwxml2sql工具的图形用户界面版本。
它运行-然后在4300行出错。
该错误与name_title中的二重键有关。
我看过wikokit --但这似乎落后了几年。
我不知所措。
我已经查看了在出现dupe-key错误之前进入数据库的数据。
我可以看到一些Blob格式的数据。
我该如何通过php访问这些信息呢?
有没有一个像样的(就像“笨蛋”:D)这样的指南?
我真的需要抓取所有的文件,安装wiki,解析文件吗?
我该如何处理复制关键字问题(我不能打开sql文件并找到相关的行!)?
所以,求求你--有没有人做过或者知道有什么方法可以做?
我唯一能想到的就是尝试抓取这个网站--我不想这么做(维基小组也不会这么做)。
如果它是相关的-我特别关注词形,PoS,发音,定义,任何短语和相关的单词。像词源之类的东西会很好,但不是那么重要。
如果有人建议,是的,我已经查看了WordNet (设法找到了一个mysql转储,并使其正常工作)。我也看过像MRC和CMU dict这样的资源--但没有一个拥有正确的权限。这就是维基词典看起来如此吸引人的原因。但似乎格式/转储远不友好:(
那么,有什么帮助或想法吗?其他来源,指南,演练...所有这些都会有所帮助。
或者,如果你能告诉我是什么导致了这个错误,如何避免它,以及如何访问单词数据,那就太好了。
辛塞利你的-失意。
发布于 2015-10-12 17:12:21
我看过wikokit --但这似乎落后了几年。
不,维基项目仍在运行:)链接:https://github.com/componavt/wikokit
您可以下载解析后的English Wiktionary数据库:http://whinger.krc.karelia.ru/soft/wikokit/index.html将SQL dump文件上传到MySQL,并尝试从English Wiktionary中提取的定义、同义词和翻译。
https://stackoverflow.com/questions/33068572
复制相似问题