我正在推特数据集(问题链接)上做情绪分析。我从tweet中提取了POS标签,并从POS标签中创建了tfidf载体,并将它们作为一个特征(准确率为65%)。但是我认为,我们可以用POS标签实现更多的目标,因为它们有助于区分一个词是如何在短语范围内使用的。我正在培训的模型是MultnomialNB()。
我想要解决的问题是找出像积极、消极或中立这样的推文的情绪。
数据集的


我从tweet中创建了tfidf向量,并将输入提供给我的模型:
tfidf_vectorizer1 = TfidfVectorizer(
max_features=5000, min_df=2, max_df=0.9, ngram_range=(1,2))
train_pos = tfidf_vectorizer1.fit_transform(train_data['pos'])
test_pos = tfidf_vectorizer1.transform(test_data['pos'])
clf = MultinomialNB(alpha=0.1).fit(train_pos, train_labels)
predicted = clf.predict(test_pos)用上面的代码,我得到了65%的准确性。而不是建立TF-以色列国防军矢量的POS,并使用它们作为模态输入。我想知道还有其他方法可以使用POS标签来提高模型的准确性吗?
https://datascience.stackexchange.com/questions/78161
复制相似问题