文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习算法是如何处理文本的？

问机器学习算法是如何处理文本的？
EN

Data Science用户

提问于 2022-09-06 10:50:55

回答 1查看 23关注 0票数 1

我在机器学习方面还是新手，我一直在努力扩大我对机器学习的认识。对于我的第一个项目，我想分类一个推特是自杀还是没有使用梯度提升算法。

我知道ml模型不能处理纯文本，这就是为什么我们必须将它们表示为数字。这些数值将是机器学习模型的输入特性(如果我错了，请纠正我)。

但我不明白的是，这些数字/向量是如何被模型处理来训练和预测的。

希望有人能解释纯文本是如何转换成文字的，以及当它们作为机器学习模型的输入时，内部发生了什么。

machine-learning

nlp

gradient-boosting-decision-trees

回答 1

Data Science用户

发布于 2022-09-08 11:29:08

这是文本表示的问题:如何将文本转换(简化)为数字特征，以尽可能保留含义并使其可用于ML。

目前文本的表现形式主要有两种:一种是传统的基于一种热编码的文本表示，另一种是基于词嵌入的文本表示。请注意，这些类型有许多变体，甚至还有其他类型。

我认为最直观的解释是研究传统的表示:在其最基本的形式中，整个语料库中的每个单词都指定一个固定的索引i，而每个文档(或句子)被表示为一个向量，其中每个位置的i值为1当且仅当相应的单词w_i存在于文档中。这样，学习算法就可以创建诸如“如果word w_i属于文档然后预测类X”这样的条件。其余的是通常的学习过程:该算法寻找统计模式，将特征/词与类连接起来，并生成一个利用这些模式的模型。

词嵌入提供了一个更微妙，但也更复杂的表达一个词的意义。每个维度都代表着某种特定的语义信息，但不能直接解释。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/114151

复制

相似问题

问机器学习算法是如何处理文本的？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习算法是如何处理文本的？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习算法是如何处理文本的？
EN