我正在对最近埃隆·马斯克收购Twitter的推文进行情绪分析。我有一个10,000个推特的语料库,我想使用机器学习方法,使用模型,如支持向量机和线性回归。我的问题是,当我想要训练模型时,我是否需要用正负两类手工标记收集到的10,000条推文中的很大一部分,才能正确地训练模型,或者我是否可以使用一些与此主题无关的其他tweet数据集来训练该模型以进行情感分析?谢谢你的回答!
发布于 2022-05-07 16:29:34
如果你训练一个模型,你训练它使它在更一般的情况下工作(例如,当你使用测试集,看不见的数据,评估你的模型,你只计算什么叫做泛化错误)。
你不需要训练一个模型只使用你训练过的数据,而是要很好地处理看不见的数据(否则就意味着你已经安装过了,所以这个模型是无用的)。
因此,您可以在一些tweet数据集上训练一个情绪分析模型(您可以在网上找到其中的很多,所有标签,这样您就可以用这些数据计算度量以确保其工作),然后使用该模型对您自己的数据进行预测。它显然是一个没有监督的任务(我的意思是在你的10k推特上),因为你没有标签(所以你不能计算度量),但是如果模型是以正确的方式训练的,它就会工作。
发布于 2022-06-14 17:29:21
取决于您收集到的tweet的语言,以及是否有经过预先培训的这种语言的情感分析模型。
您应该针对在最相似的领域进行培训的模型,通常是使用社交媒体文本进行培训的模型,因为它与其他领域(例如,新闻或文章)非常不同。但是,由于您没有基本的真实数据,所以您在验证方面总是会遇到问题。
为了解决这个问题,您可以使用预先训练过的编码器(例如通用句子编码器或BERTweet)对tweet进行编码。然后对编码的tweet进行聚类。或者,您可以首先使用UMAP (更快)或the (大数据集效率较低)投射tweet。然后,您可以在每个生成的集群中标记少量的tweet,并为大多数类似的tweet传播标签。这种方法是可行的,因为所使用的编码器是为语义相似的任务训练的,所以他们将含义相似的tweet编码成相似的向量,然后UMAP投影进一步使相似的向量更接近(由于降维)。然后,您可以使用已传播的标签作为预测,将每个集群中少数标记的tweet用作基本真理。该方法已在NLP和计算社会科学文献中多次得到验证和应用。一个例子,这里。

https://datascience.stackexchange.com/questions/110740
复制相似问题