首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >最准确的句子分割开源工具是什么?

最准确的句子分割开源工具是什么?
EN

Stack Overflow用户
提问于 2011-03-15 00:48:17
回答 3查看 2.2K关注 0票数 8

我需要把文本分成几个句子。我目前正在使用OpenNLP的句子检测器工具。我还听说过NLTK和斯坦福CoreNLP工具。目前最准确的英语句子检测工具是什么?我不需要太多的NLP特性--只需要一个很好的句子分割/检测工具。

我也听说过Lucene...but,这可能太多了。但是如果它有一个非常棒的句子检测模块,那么我就会使用它。

EN

回答 3

Stack Overflow用户

发布于 2011-03-15 12:20:50

NLTK包括一个在this paper中描述的Punkt标记器的实现。我不知道它是否绝对是最好的,但它非常非常好,它是轻量级的,易于使用,而且是免费的。

票数 2
EN

Stack Overflow用户

发布于 2011-03-15 04:39:29

检查lingpipe实现http://alias-i.com/lingpipe/docs/api/com/aliasi/sentences/IndoEuropeanSentenceModel.html

他们的模型非常强大,而且很容易实现-在任何可能的句子分割上检查一些前/后规则(也称为regexp),仅此而已。我发现它比GATE和OpenNLP工作得更好。

还有另一个开源项目支持这种启发式模型,例如http://code.google.com/p/graph-expression/wiki/SentenceSplitting

票数 1
EN

Stack Overflow用户

发布于 2011-03-15 10:37:22

Perl是一种文本处理语言,是一种优秀而简单的文本挖掘资源。它做句子切分绝对没有问题。

www.perl.org

票数 -4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5301655

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档