我正在试用OpenNLP句子检测工具。文本位于文件- file 3.txt中。内容:
Bob went to London Mary came from Paris Now everything is fine.我使用以下命令运行此命令:
opennlp SentenceDetector ../models/en-sent.bin < para3.txt我得到的输出如下:
Bob went to London Mary came from Paris Now everything is fine.理想情况下,我会看到三个句子作为输出:
Bob went to London.
Mary came from Paris.
Now everything is fine.现在,如果我尝试其他句子,其中存在“句号”或“句号”,句子检测发生得很好。人类可能会猜到文本中有3个句子,但OpenNLP如何做到这一点呢?NLP的哪些工具可以在这里提供帮助?句子检测的下一步是什么?
发布于 2016-05-23 21:54:10
您应该训练您的模型来检测这些类型的句子,即文档中给出的句子检测器训练。创建训练文件en-sen.train:样本训练数据文件。唯一的要求是每个句子应该在训练文件中的单独一行上,如下所示。
句子1
句子2
句子3
……
……
然后使用命令行界面:
opennlp SentenceDetectorTrainer -model en-sent_trained.bin -lang en -data en-sent.train -encoding UTF-8这将给出一个模型文件:en-senteed.bin
现在使用这个.bin文件,而不是en-sen.bin
希望这能有所帮助!
发布于 2016-04-13 06:05:01
实际上,这似乎是一个格式错误的文本。你可以通过一些启发式的方法将信息分成几个句子。
https://stackoverflow.com/questions/36516363
复制相似问题