首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >斯坦福大学JavaNLP RegexNERAnnotator Apostrophe

斯坦福大学JavaNLP RegexNERAnnotator Apostrophe
EN

Stack Overflow用户
提问于 2018-01-07 15:29:10
回答 1查看 55关注 0票数 0

RegexNERAnnotator似乎无法识别撇号.

代码语言:javascript
复制
    Properties properties = new Properties();
    properties.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,entitymentions,regexner,tokensregex");
    properties.put("regexner.mapping", "regexfile.txt");
    properties.put("regexner.ignorecase", "true");

    StanfordCoreNLP pipeline = new StanfordCoreNLP(properties);

在regexfile.txt中,

代码语言:javascript
复制
Bachelor of (Arts|Laws|Science|Engineering) DEGREE
Lalor   LOCATION    PERSON
Labor   ORGANIZATION

它能识别出文学学士学位。不幸的是,在我把它改成,

代码语言:javascript
复制
Bachelor's of (Arts|Laws|Science|Engineering)   DEGREE
Lalor   LOCATION    PERSON
Labor   ORGANIZATION

它将无法确定文学士学位。

任何帮助都将不胜感激。提前谢谢。:)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-03 15:45:49

RegexNERAnnotator需要令牌器才能工作。

考虑一个包含“文学士”字样的句子。标记化过程将把单身汉与撇号分开,创建两个不同的标记。

在选项卡分隔的文件regexfile.txt中,空格表示一个新的令牌。这意味着您的自定义规则将只匹配一个标记,这正是“单身汉”这个词。这将不会发生,因为令牌。

编写规则,您想要匹配的每个令牌都用空格分隔,一切都会正常工作。

代码语言:javascript
复制
Bachelor 's of (Arts|Laws|Science|Engineering)   DEGREE
Lil ' Jon    RAPPER
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48138642

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档