文章/答案/技术大牛

发布

社区首页 >问答首页 >如何对文本数据进行整数编码？

问如何对文本数据进行整数编码？
EN

Stack Overflow用户

提问于 2020-01-25 13:34:13

回答 1查看 27关注 0票数 0

我一直在研究如何为深度学习模型准备数据集。

如果我们有这样的数据，

data = [['this', 'is'], ['not', 'with']]

首先，他们在我们的语料库中获得单词的频率。基于单词频率，整数标签被分配给word。

频率较高的单词被分配为1，然后是2，等等。

我的问题是我们为什么要这么做？我们就不能随机分配单词的整数值吗。如果我们遵循这个规则，它会提高准确性吗？

python

tensorflow

text

deep-learning

nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-01-25 13:53:50

我怀疑它对准确性有什么影响，除非你以后在做一些不寻常的事情。

我可以看到它对：

性能:公共单词将聚集在一起(接近零索引)，因此很可能在缓存中一起结束-
人工解释/可读性:字符串/显示输出将趋向于“更整洁”，而普通单词需要更少的数字
很容易地处理罕见的单词；超过某个阈值的所有索引值都表明该单词是罕见的，可以映射到某个占位符/忽略(取决于模型如何处理)

。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59909741

复制

相似问题

问如何对文本数据进行整数编码？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何对文本数据进行整数编码？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何对文本数据进行整数编码？
EN