首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用OpenNLP进行句子检测

使用OpenNLP进行句子检测
EN

Stack Overflow用户
提问于 2016-04-09 19:51:29
回答 2查看 1.1K关注 0票数 2

我正在试用OpenNLP句子检测工具。文本位于文件- file 3.txt中。内容:

代码语言:javascript
复制
Bob went to London Mary came from Paris Now everything is fine.

我使用以下命令运行此命令:

代码语言:javascript
复制
opennlp SentenceDetector ../models/en-sent.bin < para3.txt

我得到的输出如下:

代码语言:javascript
复制
Bob went to London Mary came from Paris Now everything is fine.

理想情况下,我会看到三个句子作为输出:

代码语言:javascript
复制
Bob went to London.
Mary came from Paris.
Now everything is fine.

现在,如果我尝试其他句子,其中存在“句号”或“句号”,句子检测发生得很好。人类可能会猜到文本中有3个句子,但OpenNLP如何做到这一点呢?NLP的哪些工具可以在这里提供帮助?句子检测的下一步是什么?

EN

回答 2

Stack Overflow用户

发布于 2016-05-23 21:54:10

您应该训练您的模型来检测这些类型的句子,即文档中给出的句子检测器训练。创建训练文件en-sen.train:样本训练数据文件。唯一的要求是每个句子应该在训练文件中的单独一行上,如下所示。

句子1

句子2

句子3

……

……

然后使用命令行界面:

代码语言:javascript
复制
opennlp SentenceDetectorTrainer -model en-sent_trained.bin -lang en -data en-sent.train -encoding UTF-8

这将给出一个模型文件:en-senteed.bin

现在使用这个.bin文件,而不是en-sen.bin

希望这能有所帮助!

票数 2
EN

Stack Overflow用户

发布于 2016-04-13 06:05:01

实际上,这似乎是一个格式错误的文本。你可以通过一些启发式的方法将信息分成几个句子。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36516363

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档