首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >双图分析与术语文档矩阵

双图分析与术语文档矩阵
EN

Stack Overflow用户
提问于 2017-04-17 05:10:10
回答 1查看 701关注 0票数 0

我在我的文本语料库上做了一个am.doing分析。我的特征向量是一组预定义的bigram和unigram标记。

特征向量=(位置好、经验差、干净、不友好、整洁、优秀、美丽的地方)

我的文字:位置是好的,但不友好的工作人员。

清洁文字:位置好,不友好的工作人员。

我使用上面的字典创建了一个tdf,并清理了文本,但是“位置良好”的bigram并没有给出"1“。但是当我把干净的文字改成“好位置不友好的工作人员”时。在比格分析中,单词的顺序重要吗?为什么?还是我搞砸了密码?请澄清

“坏经验”“整洁”“干净”“好位置”“优秀”“漂亮”“地方”“不友好”

0 0 0 1-位置好但不友好的工作人员。

0 0 0 1 0 0 1 --位置好但不友好的工作人员。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-17 05:38:59

就我的经验而言,以n字数表示单词的顺序是至关重要的。你不会想把‘普京攻击’和‘攻击普京’这两个词看作是相同的,因为它们有着非常不同的上下文含义。

所以,不,你没有搞砸代码。你可能只想多做一些关于n-g模型的研究。第四章尤拉夫斯基和马丁的言语和语言处理可能是一个好的开端

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43445481

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档