在斯坦福nlp版本3.7.0和3.9.2之间,java的性能似乎有所下降。
我正在运行以下管道
props.put("annotators", "tokenize, ssplit, pos, ner, parse, sentiment");
和以下属性
props.put("ner.model",
"edu/stanford/nlp/models /ner/english.all.3class.distsim.crf.ser.gz");
props.put("ner.useSUTime", "false");
props.put("ner.applyNumericClassifiers", "false");当我从3.7.0版本升级到3.9.2版本时,我看到CPU峰值和性能下降。目前没有数字,但似乎慢了5倍左右。
我正在解析少量的文本。新闻网站上的一篇小文章。
也许我应该使用不同的模型?还有人注意到这个了吗?
编辑:我注意到3.9.2版本加载了RegexNERAnnotator的模型数据,但3.7.0没有,在日志中看到了这一点,不确定这是否有影响。
发布于 2019-02-02 07:26:58
是的,原因是基于规则的NER现在默认运行。
如果您不想要细粒度的命名实体,可以使用以下命令停用它
props.put("ner.applyFineGrained", "false");
https://stackoverflow.com/questions/54477292
复制相似问题