首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >斯坦福大学CRF分类器培训数据的格式应该是什么?

斯坦福大学CRF分类器培训数据的格式应该是什么?
EN

Stack Overflow用户
提问于 2019-05-06 10:34:34
回答 1查看 74关注 0票数 0

我正在尝试使用斯坦福CRF-NER来训练我自己的地址分类器模型,但是性能很低。我对我培训过的培训数据的格式感到困惑。培训数据通常是地区、城市、省份及其各自标签的列表。但是该模型并没有将相应的地址标记标记到其令牌上。

培训数据的格式如下:

  • 巴拉特省
  • 马鲁古省
  • 马鲁古省
  • 卡布平摄政
  • SIMEULUE摄政
  • 卡布平摄政
  • 亚齐摄政

这是一个csv格式的培训数据样本,有三个标签:省、摄政区和地区

以下是标记标记的输出:

您可以将所有标记标记为“区域”,尽管我有“摄政”、“区”和“省”标签数据。

我想知道我的训练数据格式是否正确,因为我看到斯坦福大学NER 在句子级别上工作得很好,所以只对句子级的上下文数据起作用。

EN

回答 1

Stack Overflow用户

发布于 2019-10-25 20:00:37

既然你试图做一个地址分类器,我建议你用实际的(标记的)地址来训练你的模型,而不是一个字典,其中包含了摄政,区,省的列表。然后,CRF将能够在尝试标记它时考虑上下文信息,这取决于您配置的特性。

您使用CoNLL样式的数据来训练CRF。

代码语言:javascript
复制
-DOCSTART-    O 

5461    O
North   O
Ave     O
Miami   DISTRICT
Florida PROVINCE
88754   O

8888    O
South   O
Drive   O
Miami   DISTRICT
Florida PROVINCE
99965   O

更恰当地使用该名单的地区、省份将作为公报。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56003441

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档