我读过关于连续分析器和依赖分析器的文章。但搞不清楚哪一个是最好的选择。
我的任务是从英文维基百科文本中提取关系(其他来源也可能稍后包含)。我需要的是两个实体之间有趣的语义路径(只有最重要的信息)。例如,
形式文字:“在美国,糖尿病是一种常见病。”。
我需要信息:“糖尿病就是疾病”
您会建议哪种解析器的实现?斯坦福?马尔特解析器?还是其他的?
任何线索都很感激。
发布于 2012-06-20 17:14:31
你是说句法分析器还是依赖分析器?在线斯坦福分析器向您展示了这些解析是如何不同的。
句法分析
(ROOT
(S
(PP (IN In)
(NP (NNP America)))
(, ,)
(NP (NNP diabetes))
(VP (VBZ is) (, ,)
(PP (IN as)
(NP (NN everybody) (NNS knows)))
(, ,)
(NP (DT a) (JJ common) (NN disease)))))依赖性分析(折叠)
prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)它们实际上并没有太大的不同(更多细节见Collins的论文或Nieve的书),但我发现依赖分析更容易使用。正如你所看到的,你与糖尿病->疾病有着直接的关系。然后你就可以把它接上了。
发布于 2012-08-28 23:59:23
当然,像斯坦福依赖分析器这样的依赖解析器是正确的选择。我建议使用BLLIP重命名解析器和戴维·麦克洛斯基的生物医学模型来获取短语结构,然后用斯坦福属地转换为依赖项。这样,您将获得更好的依赖树/图形的生物医学文本。
https://stackoverflow.com/questions/11116508
复制相似问题