“一袋袋话”通常描述文本编码，其中一个单词(或ngram)表示为一个变量(列)。这可以作为二进制编码或单词计数，通常称为单热编码。或者，您可以引入权重来表示文档中单词的频率，例如过渡联邦国防军。还请参阅这里中的sklearn实现。哈希本质上是一个“单词袋”，它使用散列技巧来处理一个语料库和一个大型(或不断增长的)语料库中以前看不见的单词。

在word2vec中，每个单词都由一个向量表示，向量表示一个单词与另一个单词的距离(这是经过预先训练的模型的结果)。您可以使用预先训练的word2vec模型，并通过比较两个(word)向量来评估单词的近距离，例如基于欧氏距离的向量。这些向量通过理解单词的经验共现(单热编码是不可能的)来帮助模型更好地理解某些文本的语义结构。

伯特甚至更进一步。在伯特的预训练中，句子中的一个词是“蒙面”，模型试图预测一个句子中的蒙面词。另外，“下一句预测”也被用来对伯特模型进行预处理。这样，伯特就能更好地理解文本中的语义关系。

票数 1

Data Science用户

发布于 2022-09-29 15:29:09

我相信“嵌入”只是“向量化”的一个子类型，你可以用神经网络来学习向量化。

正如彼得上面所述，你可以在没有深入学习的情况下将一篇文章向量化，但我想我还没有见过“嵌入”这个词在非深度学习中使用过。

因此，矢量化是指将文本或字符转换为向量表示的一般过程，而嵌入则是指通过深入学习(通常是通过嵌入层)学习向量化。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/109015

复制

相似问题

问词嵌入和词向量化的确切区别是什么？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词嵌入和词向量化的确切区别是什么？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词嵌入和词向量化的确切区别是什么？
EN