文章/答案/技术大牛

发布

问使用OpenNLP进行句子检测
EN

Stack Overflow用户

提问于 2016-04-09 19:51:29

回答 2查看 1.1K关注 0票数 2

我正在试用OpenNLP句子检测工具。文本位于文件- file 3.txt中。内容：

Bob went to London Mary came from Paris Now everything is fine.

我使用以下命令运行此命令：

opennlp SentenceDetector ../models/en-sent.bin < para3.txt

我得到的输出如下：

Bob went to London Mary came from Paris Now everything is fine.

理想情况下，我会看到三个句子作为输出：

Bob went to London.
Mary came from Paris.
Now everything is fine.

现在，如果我尝试其他句子，其中存在“句号”或“句号”，句子检测发生得很好。人类可能会猜到文本中有3个句子，但OpenNLP如何做到这一点呢？NLP的哪些工具可以在这里提供帮助？句子检测的下一步是什么？

java

nlp

nltk

tokenize

opennlp

回答 2

Stack Overflow用户

发布于 2016-05-23 21:54:10

您应该训练您的模型来检测这些类型的句子，即文档中给出的句子检测器训练。创建训练文件en-sen.train:样本训练数据文件。唯一的要求是每个句子应该在训练文件中的单独一行上，如下所示。

句子1

句子2

句子3

……

然后使用命令行界面：

opennlp SentenceDetectorTrainer -model en-sent_trained.bin -lang en -data en-sent.train -encoding UTF-8

这将给出一个模型文件:en-senteed.bin

现在使用这个.bin文件，而不是en-sen.bin

希望这能有所帮助！

票数 2

Stack Overflow用户

发布于 2016-04-13 06:05:01

实际上，这似乎是一个格式错误的文本。你可以通过一些启发式的方法将信息分成几个句子。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36516363

复制

相似问题

问使用OpenNLP进行句子检测
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用OpenNLP进行句子检测EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用OpenNLP进行句子检测
EN