我有一个tweet的数据集,其中每个tweet都有一个平均置信度得分。例如
Tweet Average Confidence Standard Deviation
too much thoughts inside his headdd we can t even imagine 0.3 0.163951
His ass need to stay up 0.8 0.161962
First time I heard his name in camp, he seems amazing 0.19 0.181962
平均置信度是几个监督模型对特定实例预测的置信度的平均值,属于正类。
标准差是特定实例的置信度与平均置信度的标准差。
如果我将其视为回归任务,如何处理多标签数据
编辑

发布于 2020-01-12 23:43:58
我还不太理解你的问题,所以我认为最好的答案是:)
基本上,在情感分析中单独使用score (在您的情况下是average)来对好的-坏的句子(数据)进行分类,选择一个产生最佳分类结果的阈值,比如0.6
if score >= 0.6
classify as GOOD
else
classify as BAD我建议看看这个简单的方法是否足够满足您的需求。
如果你想使用更多的变量(信息)进行分类,比如“averageandstd`”,你可以使用另一个分类模型(比如logistic-regression,decision trees,svm等等)。
如果您想使用一些回归方法,我建议使用logistic regression (它非常简单)。
因为您当前的模型只包含两个变量average和std a svm,所以可能会提供更好的结果(基本上它将数据投影到更高的维度并在那里进行分类)
请记住,所有方法(可能除了决策树等)都会输出另一个分数,比如在0到1之间进行分类,因此在结束时必须始终应用阈值
https://stackoverflow.com/questions/59630544
复制相似问题