文章/答案/技术大牛

发布

社区首页 >问答首页 >双图分析与术语文档矩阵

问双图分析与术语文档矩阵
EN

Stack Overflow用户

提问于 2017-04-17 05:10:10

回答 1查看 701关注 0票数 0

我在我的文本语料库上做了一个am.doing分析。我的特征向量是一组预定义的bigram和unigram标记。

特征向量=(位置好、经验差、干净、不友好、整洁、优秀、美丽的地方)

我的文字：位置是好的，但不友好的工作人员。

清洁文字:位置好，不友好的工作人员。

我使用上面的字典创建了一个tdf，并清理了文本，但是“位置良好”的bigram并没有给出"1“。但是当我把干净的文字改成“好位置不友好的工作人员”时。在比格分析中，单词的顺序重要吗?为什么？还是我搞砸了密码？请澄清

“坏经验”“整洁”“干净”“好位置”“优秀”“漂亮”“地方”“不友好”

0 0 0 1-位置好但不友好的工作人员。

0 0 0 1 0 0 1 --位置好但不友好的工作人员。

n-gram

naivebayes

text-analysis

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-17 05:38:59

就我的经验而言，以n字数表示单词的顺序是至关重要的。你不会想把‘普京攻击’和‘攻击普京’这两个词看作是相同的，因为它们有着非常不同的上下文含义。

所以，不，你没有搞砸代码。你可能只想多做一些关于n-g模型的研究。第四章尤拉夫斯基和马丁的言语和语言处理可能是一个好的开端

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43445481

复制

相似问题

问双图分析与术语文档矩阵
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问双图分析与术语文档矩阵EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问双图分析与术语文档矩阵
EN