文章/答案/技术大牛

发布

社区首页 >问答首页 >斯坦福大学JavaNLP RegexNERAnnotator Apostrophe

问斯坦福大学JavaNLP RegexNERAnnotator Apostrophe
EN

Stack Overflow用户

提问于 2018-01-07 15:29:10

回答 1查看 55关注 0票数 0

RegexNERAnnotator似乎无法识别撇号.

    Properties properties = new Properties();
    properties.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,entitymentions,regexner,tokensregex");
    properties.put("regexner.mapping", "regexfile.txt");
    properties.put("regexner.ignorecase", "true");

    StanfordCoreNLP pipeline = new StanfordCoreNLP(properties);

在regexfile.txt中，

Bachelor of (Arts|Laws|Science|Engineering) DEGREE
Lalor   LOCATION    PERSON
Labor   ORGANIZATION

它能识别出文学学士学位。不幸的是，在我把它改成，

Bachelor's of (Arts|Laws|Science|Engineering)   DEGREE
Lalor   LOCATION    PERSON
Labor   ORGANIZATION

它将无法确定文学士学位。

任何帮助都将不胜感激。提前谢谢。:)

nlp

stanford-nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-03 15:45:49

RegexNERAnnotator需要令牌器才能工作。

考虑一个包含“文学士”字样的句子。标记化过程将把单身汉与撇号分开，创建两个不同的标记。

在选项卡分隔的文件regexfile.txt中，空格表示一个新的令牌。这意味着您的自定义规则将只匹配一个标记，这正是“单身汉”这个词。这将不会发生，因为令牌。

编写规则，您想要匹配的每个令牌都用空格分隔，一切都会正常工作。

Bachelor 's of (Arts|Laws|Science|Engineering)   DEGREE
Lil ' Jon    RAPPER

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48138642

复制

相似问题

问斯坦福大学JavaNLP RegexNERAnnotator Apostrophe
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问斯坦福大学JavaNLP RegexNERAnnotator ApostropheEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问斯坦福大学JavaNLP RegexNERAnnotator Apostrophe
EN