文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在NLP中选择合适的矢量化方法？

问如何在NLP中选择合适的矢量化方法？
EN

Data Science用户

提问于 2022-01-29 18:47:36

回答 1查看 86关注 0票数 0

假设我们有一个文本分类问题。

我们都知道，为了训练模型，我们必须将文本数据转换成向量。因此，有几种矢量化方法，如计数矢量化、Tf-以色列国防军法、词袋法等，那么从这几种向量化方法中，我们如何选择一种方法呢？是这样还是换一种方式，我们需要尝试所有的方法，训练模型，然后用每一种向量化方法来检查性能？

请分享你的想法，并帮助我正确理解这一点。

text-classification

python

classification

nlp

回答 1

Data Science用户

回答已采纳

发布于 2022-01-29 20:11:19

计数向量器是将给定的一组字符串转换为频率representation.Count向量的一种方法，它可以帮助理解文本的类型。但它的主要缺点是：

Its inability in identifying more important and less important words for analysis.
It will just consider words that are abundant in a corpus as the most statistically significant word.
It also doesn't identify the relationships between words such as linguistic similarity between words.

TF-以色列国防军比计数矢量更好，因为它不仅关注语料库中单词的出现频率，而且还提供了单词的重要性。然后，我们可以删除对分析不太重要的单词，从而通过减少输入维度使模型构建变得不那么复杂。

Even though TFIDF can provide a good understanding about the importance of words but just like Count Vectors, its disadvantage is:

It fails to provide linguistic information about the words such as the real meaning of the words, similarity with other words etc.

因此，您应该尝试使您的用例与上面提到的优点保持一致。此外，如果您希望向量具有上下文信息，我建议探索Word2vec和手套嵌入。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/107611

复制

相似问题

问如何在NLP中选择合适的矢量化方法？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在NLP中选择合适的矢量化方法？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在NLP中选择合适的矢量化方法？
EN