在用简单的示例训练摘录标记后,split(' ')标记单项名称。
我需要训练和识别包含空格的名字。我该如何训练识别器?
例如:“我看到了一棵大红苹果树。”--我如何标记训练,然后识别“大红苹果树”,而不是识别四个单独的单词?
这对培训数据有用吗?
I\tO
saw\tO
a\tO
Big Red Apple Tree\tMyName
.\tO来自识别器的输出是否与此相同?
FAQ中的培训部分说:“训练文件解析器并不是很宽容:您应该确保每一行只包含内容字段和制表符,空格不起作用。”
发布于 2017-09-25 09:31:01
你想要解决的问题属于短语识别。你可以用不同的方式给单词贴上标签。例如,您可以用IOB标记标记单词。将斯坦福纳模型训练到这些新创建的数据上。编写后处理步骤以连接预测的数据。
例如:
您的培训数据应该如下所示:
I\tO
saw\tO
a\tO
Big\tB-MyName
Red\tI-MyName
Apple\tI-MyName
Tree\tO-MyName
.\tO<br/>因此,基本上,您使用[ 0, B-MyName , I-MyName , O-MyName ]作为标记。我已经解决了类似的问题,而且效果很好。但要确保你有足够的数据来训练它。
https://stackoverflow.com/questions/40249793
复制相似问题