我一直在研究如何为深度学习模型准备数据集。
如果我们有这样的数据,
data = [['this', 'is'], ['not', 'with']]首先,他们在我们的语料库中获得单词的频率。基于单词频率,整数标签被分配给word。
频率较高的单词被分配为1,然后是2,等等。
我的问题是我们为什么要这么做?我们就不能随机分配单词的整数值吗。如果我们遵循这个规则,它会提高准确性吗?
发布于 2020-01-25 13:53:50
我怀疑它对准确性有什么影响,除非你以后在做一些不寻常的事情。
我可以看到它对:
。
https://stackoverflow.com/questions/59909741
复制相似问题