首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习算法是如何处理文本的?

机器学习算法是如何处理文本的?
EN

Data Science用户
提问于 2022-09-06 10:50:55
回答 1查看 23关注 0票数 1

我在机器学习方面还是新手,我一直在努力扩大我对机器学习的认识。对于我的第一个项目,我想分类一个推特是自杀还是没有使用梯度提升算法。

我知道ml模型不能处理纯文本,这就是为什么我们必须将它们表示为数字。这些数值将是机器学习模型的输入特性(如果我错了,请纠正我)。

但我不明白的是,这些数字/向量是如何被模型处理来训练和预测的。

希望有人能解释纯文本是如何转换成文字的,以及当它们作为机器学习模型的输入时,内部发生了什么。

EN

回答 1

Data Science用户

发布于 2022-09-08 11:29:08

这是文本表示的问题:如何将文本转换(简化)为数字特征,以尽可能保留含义并使其可用于ML。

目前文本的表现形式主要有两种:一种是传统的基于一种热编码的文本表示,另一种是基于词嵌入的文本表示。请注意,这些类型有许多变体,甚至还有其他类型。

我认为最直观的解释是研究传统的表示:在其最基本的形式中,整个语料库中的每个单词都指定一个固定的索引i,而每个文档(或句子)被表示为一个向量,其中每个位置的i值为1当且仅当相应的单词w_i存在于文档中。这样,学习算法就可以创建诸如“如果word w_i属于文档然后预测类X”这样的条件。其余的是通常的学习过程:该算法寻找统计模式,将特征/词与类连接起来,并生成一个利用这些模式的模型。

词嵌入提供了一个更微妙,但也更复杂的表达一个词的意义。每个维度都代表着某种特定的语义信息,但不能直接解释。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/114151

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档