我正在尝试配置SUTime注释器(“ner”的一部分)来使用我自己的日期/时间规则文件,而不是位于斯坦福CoreNLP模型的分发JAR中的“model/sutime/”中的开箱即用的规则文件。
我这么做的原因是我想稍微修改一下SUTime规则正在做的事情。
根据官方的SUTime文档,它只需要以逗号分隔的文件路径的形式指定"sutime.rules“属性。
但在我这么做之后,CoreNLP似乎仍然接受开箱即用的规则文件:
Reading TokensRegex rules from edu/stanford/nlp/models/sutime/defs.sutime.txt
Reading TokensRegex rules from edu/stanford/nlp/models/sutime/english.sutime.txt
Reading TokensRegex rules from edu/stanford/nlp/models/sutime/english.holidays.sutime.txt我尝试了绝对路径和相对于我的项目根的路径--仍然是相同的效果。
与文档相反,"sutime.rules“属性似乎被忽略了。
任何帮助都将不胜感激。
更新:
采取以下形式的解决办法:
不管用。
管道运行,但功能不一样。需要使用"sutime“参数调用TimeAnnotator构造函数,以便使其功能与在"ner”步骤中调用的功能完全相同。
这似乎不能通过属性来完成。
发布于 2015-08-13 21:40:30
谢谢你让我们知道这不管用。我们将对此进行调查,并在下一个版本中修复它。如果您确实需要稍微更改规则文件,可以尝试将自己的edu/stanford/nlp/models/sutime/english.sutime.txt副本放在类路径中的CoreNLP模型jar之前。
发布于 2015-12-09 15:16:27
我也需要重写english.sutime.txt文件。我通过创建一个NERClassifierCombiner并在实例化NERCombinerAnnotator时使用它来实现这一点。伪码:
Properties nerProps = new Properties();
nerProps.put("sutime.rules", "your new comma separated file list");
Set<String> passDownProps = Generics.newHashSet();
passdownProps.addAll(NERClassifierCombiner.DEFAULT_PASS_DOWN_PROPERTIES);
passdownProps.add("sutime.rules");
NERClassifierCombiner combiner = NERClassifierCombiner.createNERClassifierCombiner("giveItAName", passdownProps, nerProps);
NERCombinerAnnotator nerAnnotator = new NERCombinerAnnotator(combiner, false);希望这能有所帮助。
https://stackoverflow.com/questions/31970286
复制相似问题