我正在处理文本语料库中命名实体的注释任务。我在1999年命名实体识别任务定义文档中找到了指导方针。在该文件中,有关于个人头衔的准则,特别是以下准则:“先生”之类的头衔像“总统”这样的角色名称不被认为是人名的一部分。例如,在“哈里·谢勒先生”或“哈利·谢勒总统”中,只有哈利·谢勒才应该被标记为“人”。
然而,在斯坦福大学,有许多例子在人物标签中包括头衔(威斯顿上尉、佩里先生等)。参见这里,他们给出了一个公报的例子。在他们看来,即使是“贝茨夫人和贝茨小姐”也应该贴上“人”的标签。
问:什么是最普遍接受的准则?
发布于 2015-11-11 11:33:06
如果您从这里下载斯坦福CoreNLP 3.5.2:http://nlp.stanford.edu/software/corenlp.shtml
然后运行以下命令:
java -Xmx6g -cp "*:." edu.stanford.nlp.pipeline.StanfordCoreNLP -ssplit.eolonly -annotators tokenize,ssplit,pos,lemma,ner -file ner_examples.txt -outputFormat text(假设你在ner_examples.txt中放了一些例句,每行一句)
标记标记将显示在: ner_examples.txt.out中。
您可以尝试一些句子,看看我们当前的NER系统如何处理不同的情况。该系统是针对没有标题标记为PERSON的数据进行培训的,因此我们当前的系统一般不会将标题标记为PERSON。
https://stackoverflow.com/questions/33633874
复制相似问题