我正在研究word2vec模型,以便分析报纸语料库。我有一个csv,其中包含一些报纸,如日报,期刊,以及文章的内容。我知道如何训练我的模型,以便获得最相似的单词及其上下文。
然而,我想对此做一个情感分析。为了做到这一点,我找到了一些资源,但在示例中的所有测试或训练数据帧中,已经有一个列情感(0或1)。你是否有可能根据情感对文本进行自动分类?我的意思是将0或1赋给每个文本。我搜索了一下,但在word2vec或doc2vec文档中没有找到任何关于这方面的参考……
感谢您的支持!
发布于 2021-06-17 00:00:11
Word2Vec和Doc2Vec都只是将单词或单词列表转换为“密集”向量的方法。单独一人,他们不会告诉你情绪。
当你有一个文本并想要推断它属于哪个类别时,这就叫做‘文本分类’。具体地说,如果你只有两个类别(比如“积极情绪”和“负面情绪”,或者“垃圾邮件”和“非垃圾邮件”),那就叫做“二进制分类”。
Word2Vec或Doc2Vec模型的输出在这项任务中可能会有所帮助,但主要是作为其他一些选择的“分类器”算法的输入。而且,这样的算法需要每种文本的一些“带标签的例子”-在那里你提供正确的答案-才能工作。因此,你很可能不得不浏览你的报纸文章语料库,并在其中一大堆文章上标上你想要的答案。
您应该从使用scikit-learn的一些示例开始,这个最流行的Python库带有文本分类工具,即使一开始没有任何Word2Vec或Doc2Vec特性。例如,在它的文档中有一个简介:
只有在使用通用preprocess/feature-extraction/training/evaluation步骤设置了一些基本代码并查看了一些实际结果之后,才应该考虑添加一些基于Word2Vec或Doc2Vec的特性是否会有所帮助。
https://stackoverflow.com/questions/68004371
复制相似问题