我有大约400万条短信要用斯坦福POS标签器来标注。如何禁用这些日志记录消息:
Reading POS tagger model from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger ... done [1,1 sec].我不需要在我的日志文件里有400万个这样的东西。
发布于 2017-05-19 16:25:34
StanfordNLP使用Redwood作为日志记录框架。您必须在初始化StanfordNLP管道之前禁用它。
import edu.stanford.nlp.util.logging.RedwoodConfiguration;
RedwoodConfiguration.current().clear().apply();
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);这对我很管用。在运行程序时,它不会在每一行显示冗长的信息消息。
参考: RedwoodConfiguratin Tutorial。
希望它能帮上忙!
发布于 2015-09-12 12:36:49
你能为我提供更多关于你是如何使用斯坦福CoreNLP的细节吗?看起来您正在为每个文档加载POS标记器,但您并不需要这样做。因此,您可以加载POS标记器一次(如果您有集群,则每个worker ),然后使用已经加载的标记器重新遍历文档。这也会加快你的处理速度!
https://stackoverflow.com/questions/32170746
复制相似问题