文章/答案/技术大牛

发布

问情感分析训练数据
EN

Data Science用户

提问于 2022-05-07 12:01:21

回答 2查看 199关注 0票数 0

我正在对最近埃隆·马斯克收购Twitter的推文进行情绪分析。我有一个10,000个推特的语料库，我想使用机器学习方法，使用模型，如支持向量机和线性回归。我的问题是，当我想要训练模型时，我是否需要用正负两类手工标记收集到的10,000条推文中的很大一部分，才能正确地训练模型，或者我是否可以使用一些与此主题无关的其他tweet数据集来训练该模型以进行情感分析？谢谢你的回答！

linear-regression

svm

sentiment-analysis

回答 2

Data Science用户

发布于 2022-05-07 16:29:34

如果你训练一个模型，你训练它使它在更一般的情况下工作(例如，当你使用测试集，看不见的数据，评估你的模型，你只计算什么叫做泛化错误)。

你不需要训练一个模型只使用你训练过的数据，而是要很好地处理看不见的数据(否则就意味着你已经安装过了，所以这个模型是无用的)。

因此，您可以在一些tweet数据集上训练一个情绪分析模型(您可以在网上找到其中的很多，所有标签，这样您就可以用这些数据计算度量以确保其工作)，然后使用该模型对您自己的数据进行预测。它显然是一个没有监督的任务(我的意思是在你的10k推特上)，因为你没有标签(所以你不能计算度量)，但是如果模型是以正确的方式训练的，它就会工作。

票数 0

Data Science用户

发布于 2022-06-14 17:29:21

取决于您收集到的tweet的语言，以及是否有经过预先培训的这种语言的情感分析模型。

您应该针对在最相似的领域进行培训的模型，通常是使用社交媒体文本进行培训的模型，因为它与其他领域(例如，新闻或文章)非常不同。但是，由于您没有基本的真实数据，所以您在验证方面总是会遇到问题。

为了解决这个问题，您可以使用预先训练过的编码器(例如通用句子编码器或BERTweet)对tweet进行编码。然后对编码的tweet进行聚类。或者，您可以首先使用UMAP (更快)或the (大数据集效率较低)投射tweet。然后，您可以在每个生成的集群中标记少量的tweet，并为大多数类似的tweet传播标签。这种方法是可行的，因为所使用的编码器是为语义相似的任务训练的，所以他们将含义相似的tweet编码成相似的向量，然后UMAP投影进一步使相似的向量更接近(由于降维)。然后，您可以使用已传播的标签作为预测，将每个集群中少数标记的tweet用作基本真理。该方法已在NLP和计算社会科学文献中多次得到验证和应用。一个例子，这里。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/110740

复制

相似问题

问情感分析训练数据
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问情感分析训练数据EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问情感分析训练数据
EN