我有兴趣了解更多关于自然语言处理( Natural Language Processing )的知识,并好奇目前是否有任何策略可以识别文本中的专有名词,而不是基于字典识别?另外,有没有人可以解释或链接到解释当前基于字典的方法的资源?谁是自然语言处理方面的权威专家,或者在这个主题上的权威资源是什么?
发布于 2009-03-04 10:10:13
确定文本中单词的适当词性的任务称为Part of Speech Tagging。例如,Brill tagger混合使用字典(词汇)词和上下文规则。我认为这个任务的一些重要的初始字典单词是停用词。一旦你的单词有了(大部分是正确的)词性,你就可以开始构建更大的结构。This industry-oriented book区分了识别名词短语(NP)和识别命名实体。关于教科书:Allen's Natural Language Understanding是一本不错的书,但有点过时。Foundations of Statistical Natural Language Processing是对统计自然语言处理的一个很好的介绍。Speech and Language Processing更严格一些,可能也更权威。The Association for Computational Linguistics是一个领先的计算语言学科学社区。
发布于 2009-03-16 05:53:35
尝试搜索“命名实体识别”--这是NLP文献中用来描述这类事情的术语。
发布于 2009-03-04 00:21:36
这取决于你所说的基于字典是什么意思。
例如,一种策略是取字典中没有的东西,并尝试在假设它们是专有名词的基础上继续。如果这导致了合理的解析,请考虑临时验证的假设并继续进行,否则就得出结论说它们不是。
其他想法:
在主语位置上,任何没有限定词的简单主语在介词短语中都是一个很好的候选者;在任何位置上,所有格限定词的基础(例如candidate.
-- MarkusQ
https://stackoverflow.com/questions/608743
复制相似问题