我在机器学习方面还是新手,我一直在努力扩大我对机器学习的认识。对于我的第一个项目,我想分类一个推特是自杀还是没有使用梯度提升算法。
我知道ml模型不能处理纯文本,这就是为什么我们必须将它们表示为数字。这些数值将是机器学习模型的输入特性(如果我错了,请纠正我)。
但我不明白的是,这些数字/向量是如何被模型处理来训练和预测的。
希望有人能解释纯文本是如何转换成文字的,以及当它们作为机器学习模型的输入时,内部发生了什么。
发布于 2022-09-08 11:29:08
这是文本表示的问题:如何将文本转换(简化)为数字特征,以尽可能保留含义并使其可用于ML。
目前文本的表现形式主要有两种:一种是传统的基于一种热编码的文本表示,另一种是基于词嵌入的文本表示。请注意,这些类型有许多变体,甚至还有其他类型。
我认为最直观的解释是研究传统的表示:在其最基本的形式中,整个语料库中的每个单词都指定一个固定的索引i,而每个文档(或句子)被表示为一个向量,其中每个位置的i值为1当且仅当相应的单词w_i存在于文档中。这样,学习算法就可以创建诸如“如果word w_i属于文档然后预测类X”这样的条件。其余的是通常的学习过程:该算法寻找统计模式,将特征/词与类连接起来,并生成一个利用这些模式的模型。
词嵌入提供了一个更微妙,但也更复杂的表达一个词的意义。每个维度都代表着某种特定的语义信息,但不能直接解释。
https://datascience.stackexchange.com/questions/114151
复制相似问题