我经常看到IOB标签方案的变体,例如IOB,BIO,IOBES在文献中提到的组块,NER等。我尝试在二进制分类设置中仅使用BI标签来检测语素边界(分割),并获得了高F1分数,而添加O标签的分数要低得多。只使用BI标签有什么缺点吗?为什么我看不到人们在使用它?
发布于 2018-12-04 05:36:55
BI或IO很容易实现,但对于NER任务来说应该比IOBES差。
您是否尝试过使用其他标记方案?直观地说,更精细的方案更适合于更长的序列。据报道,对于NER,BIO或IOBES可以达到显著更好的F1分数或良好的经验法则。您也可以尝试BILOU或BIL2,它们在SOV语言(日语、韩语、乌尔都语)上显示了良好的效果。
https://stackoverflow.com/questions/49116398
复制相似问题