我需要把文本分成几个句子。我目前正在使用OpenNLP的句子检测器工具。我还听说过NLTK和斯坦福CoreNLP工具。目前最准确的英语句子检测工具是什么?我不需要太多的NLP特性--只需要一个很好的句子分割/检测工具。
我也听说过Lucene...but,这可能太多了。但是如果它有一个非常棒的句子检测模块,那么我就会使用它。
发布于 2011-03-15 12:20:50
NLTK包括一个在this paper中描述的Punkt标记器的实现。我不知道它是否绝对是最好的,但它非常非常好,它是轻量级的,易于使用,而且是免费的。
发布于 2011-03-15 04:39:29
检查lingpipe实现http://alias-i.com/lingpipe/docs/api/com/aliasi/sentences/IndoEuropeanSentenceModel.html
他们的模型非常强大,而且很容易实现-在任何可能的句子分割上检查一些前/后规则(也称为regexp),仅此而已。我发现它比GATE和OpenNLP工作得更好。
还有另一个开源项目支持这种启发式模型,例如http://code.google.com/p/graph-expression/wiki/SentenceSplitting
发布于 2011-03-15 10:37:22
Perl是一种文本处理语言,是一种优秀而简单的文本挖掘资源。它做句子切分绝对没有问题。
www.perl.org
https://stackoverflow.com/questions/5301655
复制相似问题