首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有人知道Wiktionary XML文件结构吗?

有人知道Wiktionary XML文件结构吗?
EN

Stack Overflow用户
提问于 2015-09-11 04:41:40
回答 1查看 556关注 0票数 3

我将解析多种语言(英语、日语等)的Wiktionary文件。从这里(Parse Wiktionary XML data dump into MySQL database using PHP)我看到了它的基本结构。但我的问题是,这些元素代表什么?

例如,我认为page元素下的title是词汇表中的一个单词。但是它在其他语言中的翻译在哪里呢?它的同义词在哪里?

EN

回答 1

Stack Overflow用户

发布于 2015-09-12 21:28:44

“其他语言中的...translation?它的同义词在哪里?”

对你来说有三个坏消息。

  1. 所有这些信息(翻译、同义词)都是维基词典文章的纯文本。
  2. 不同的维基百科有不同的字典文章结构。例如,比较维基词典中的文章结构和Russian Wiktionary.
  3. The中的文章结构,English Wiktioinary中的文章并没有出现在XML-file中,它只是一个简单的纯文本,请参见第1项。因此,您需要解析此文本以提取同义词或翻译。

欢迎阅读我关于将维基词典文章的文本转换(解析)为机器可读数据库的论文:http://arxiv.org/abs/1011.1368

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32511244

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档