我正在尝试使用斯坦福CRF-NER来训练我自己的地址分类器模型,但是性能很低。我对我培训过的培训数据的格式感到困惑。培训数据通常是地区、城市、省份及其各自标签的列表。但是该模型并没有将相应的地址标记标记到其令牌上。
培训数据的格式如下:
这是一个csv格式的培训数据样本,有三个标签:省、摄政区和地区。
以下是标记标记的输出:

您可以将所有标记标记为“区域”,尽管我有“摄政”、“区”和“省”标签数据。
我想知道我的训练数据格式是否正确,因为我看到斯坦福大学NER 在句子级别上工作得很好,所以只对句子级的上下文数据起作用。
发布于 2019-10-25 20:00:37
既然你试图做一个地址分类器,我建议你用实际的(标记的)地址来训练你的模型,而不是一个字典,其中包含了摄政,区,省的列表。然后,CRF将能够在尝试标记它时考虑上下文信息,这取决于您配置的特性。
您使用CoNLL样式的数据来训练CRF。
-DOCSTART- O
5461 O
North O
Ave O
Miami DISTRICT
Florida PROVINCE
88754 O
8888 O
South O
Drive O
Miami DISTRICT
Florida PROVINCE
99965 O更恰当地使用该名单的地区、省份将作为公报。
https://stackoverflow.com/questions/56003441
复制相似问题