我在我的文本语料库上做了一个am.doing分析。我的特征向量是一组预定义的bigram和unigram标记。
特征向量=(位置好、经验差、干净、不友好、整洁、优秀、美丽的地方)
我的文字:位置是好的,但不友好的工作人员。
清洁文字:位置好,不友好的工作人员。
我使用上面的字典创建了一个tdf,并清理了文本,但是“位置良好”的bigram并没有给出"1“。但是当我把干净的文字改成“好位置不友好的工作人员”时。在比格分析中,单词的顺序重要吗?为什么?还是我搞砸了密码?请澄清
“坏经验”“整洁”“干净”“好位置”“优秀”“漂亮”“地方”“不友好”
0 0 0 1-位置好但不友好的工作人员。
0 0 0 1 0 0 1 --位置好但不友好的工作人员。
发布于 2017-04-17 05:38:59
就我的经验而言,以n字数表示单词的顺序是至关重要的。你不会想把‘普京攻击’和‘攻击普京’这两个词看作是相同的,因为它们有着非常不同的上下文含义。
所以,不,你没有搞砸代码。你可能只想多做一些关于n-g模型的研究。第四章尤拉夫斯基和马丁的言语和语言处理可能是一个好的开端
https://stackoverflow.com/questions/43445481
复制相似问题