我正在建立一个NLP模型,它使用MEMM来标记词性的各个部分。
我的模型使用了前两个单词和标记的历史,以及下一个单词的历史,以及当前单词和标记的历史。我使用了这些值并创建了基本功能(f100-f107、大写字母和数字)。
我正试图找出更高级的二进制特性。当我测试这个模型时,它主要混淆了JJ和NN之间的关系。我怎样才能想到能够帮助我的模型检测这些POS,而不是混淆和切换它们的功能呢?
发布于 2022-11-22 14:55:13
JJ是形容词的缩写,NN代表名词。这些都很容易混淆,因为您使用的是窗口方法。另一个选项是使用依赖解析器来构造一个解析树,它为模型提供了更多关于语言结构的信息。
https://datascience.stackexchange.com/questions/116356
复制相似问题