首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何对文本数据进行整数编码?

如何对文本数据进行整数编码?
EN

Stack Overflow用户
提问于 2020-01-25 13:34:13
回答 1查看 27关注 0票数 0

我一直在研究如何为深度学习模型准备数据集。

如果我们有这样的数据,

代码语言:javascript
复制
data = [['this', 'is'], ['not', 'with']]

首先,他们在我们的语料库中获得单词的频率。基于单词频率,整数标签被分配给word。

频率较高的单词被分配为1,然后是2,等等。

我的问题是我们为什么要这么做?我们就不能随机分配单词的整数值吗。如果我们遵循这个规则,它会提高准确性吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-01-25 13:53:50

我怀疑它对准确性有什么影响,除非你以后在做一些不寻常的事情。

我可以看到它对:

  • 性能:公共单词将聚集在一起(接近零索引),因此很可能在缓存中一起结束-
  • 人工解释/可读性:字符串/显示输出将趋向于“更整洁”,而普通单词需要更少的数字
  • 很容易地处理罕见的单词;超过某个阈值的所有索引值都表明该单词是罕见的,可以映射到某个占位符/忽略(取决于模型如何处理)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59909741

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档