我正在使用HMM bigram模型进行词性标注。我正在使用棕色语料库进行训练。我不清楚棕色语料库的不同标签。例如NN或NN-TL。
我感兴趣的问题类型..1. NN和NN-TL的区别是什么?2.我应该使用NN和NN-TL作为单独的标签来训练训练器,还是只删除TL并将两者视为相同的标签(意思是删除非常规标签并仅考虑常规标签)
发布于 2014-08-07 17:11:56
当单词出现在标题中时,将使用-TL后缀。对于特定的应用程序,简单地忽略这个后缀(以及类似的后缀,比如-HL)似乎是有意义的。
http://en.wikipedia.org/wiki/Brown_Corpus#Part-of-speech_tags_used对这些约定有一个简洁的总结。
显然,对于语料库的任何严肃的使用,你都应该仔细阅读它的完整手册。
https://stackoverflow.com/questions/25178370
复制相似问题