同时也能观察到任务稍微困难一点,比如Yelp-5(类目增多)和,LLM就比fine-tuned模型落后很多。 但是也能观察到任务稍微困难一点,比如Yelp-5(类目增多),LLM就比fine-tuned模型落后很多。
) | 4.78 (n = 20) | | Yelp-2 | 1.89 (n = 560k) | 2.50 (n = 20) | | Yelp
上面一张表分别展示了 UDA 算法在 IMDb,Yelp-2,Yelp-5,Amazon-2,Amzon-5 以及 DBpedia 这几个数据集上的实验结果。 对比 Random 在 Yelp-2 和 Yelp-5 上的表现,UDA 给模型带来的提升与数据集分布以及具体任务难度相关。
一种是检测细粒度的标签,称为Yelp-5。另一个预测负面和正面情绪,被称为“ Yelp评论极性”或“ Yelp-2”。 Yelp-5每个类别有650,000个训练样本和50,000个测试样本,Yelp-2包含560,000个训练样本和38,000个针对积极和消极类的测试样本。 IMDb。
Yelp-5用于细粒度情感多分类任务,包含650,000个训练文本和50,000测试文本。
其中,18 项任务创造了 SOTA 记录: 分类:GLUE (MNLI, QNLI, STS-B, MRPC, RTE, SST-2, WNLI), RACE, IMDB, Yelp-2, Yelp