首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >词嵌入和词向量化的确切区别是什么?

词嵌入和词向量化的确切区别是什么?
EN

Data Science用户
提问于 2022-03-13 17:20:27
回答 2查看 2.2K关注 0票数 4

我在学NLP。我试图找出词嵌入和词向量化之间的确切区别。然而,似乎有些文章交替使用这些词。但我认为一定有不同之处。

在矢量化中,我偶然发现了这些矢量器:

CountVectorizer,HashingVectorizer,TFIDFVectorizer

而且,当我试图理解嵌入这个词的时候。我找到了这些工具。

单词袋,Word2Vec

请你简要地总结一下词嵌入和词向量化的区别和算法。非常感谢。

EN

回答 2

Data Science用户

回答已采纳

发布于 2022-03-13 21:59:18

一袋袋话”通常描述文本编码,其中一个单词(或ngram)表示为一个变量(列)。这可以作为二进制编码或单词计数,通常称为单热编码。或者,您可以引入权重来表示文档中单词的频率,例如过渡联邦国防军。还请参阅这里中的sklearn实现。哈希本质上是一个“单词袋”,它使用散列技巧来处理一个语料库和一个大型(或不断增长的)语料库中以前看不见的单词。

word2vec中,每个单词都由一个向量表示,向量表示一个单词与另一个单词的距离(这是经过预先训练的模型的结果)。您可以使用预先训练的word2vec模型,并通过比较两个(word)向量来评估单词的近距离,例如基于欧氏距离的向量。这些向量通过理解单词的经验共现(单热编码是不可能的)来帮助模型更好地理解某些文本的语义结构。

伯特甚至更进一步。在伯特的预训练中,句子中的一个词是“蒙面”,模型试图预测一个句子中的蒙面词。另外,“下一句预测”也被用来对伯特模型进行预处理。这样,伯特就能更好地理解文本中的语义关系。

票数 1
EN

Data Science用户

发布于 2022-09-29 15:29:09

我相信“嵌入”只是“向量化”的一个子类型,你可以用神经网络来学习向量化。

正如彼得上面所述,你可以在没有深入学习的情况下将一篇文章向量化,但我想我还没有见过“嵌入”这个词在非深度学习中使用过。

因此,矢量化是指将文本或字符转换为向量表示的一般过程,而嵌入则是指通过深入学习(通常是通过嵌入层)学习向量化。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/109015

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档