— + — — — — — — — — — — — + | IMDb | 4.51 (n = 20k) | 4.78 (n = 20) | | Yelp
上面一张表分别展示了 UDA 算法在 IMDb,Yelp-2,Yelp-5,Amazon-2,Amzon-5 以及 DBpedia 这几个数据集上的实验结果。 对比 Random 在 Yelp-2 和 Yelp-5 上的表现,UDA 给模型带来的提升与数据集分布以及具体任务难度相关。 实验一:在 IMDb 数据集中混入 Yelp-2 数据 Yelp 数据集整理自 Yelp 网站(美国版大众点评)上的用户评论,其中的文本是与 IMDb 数据集类似的点评类短文本,区别在于二者所涉及的领域不太一样
另一个预测负面和正面情绪,被称为“ Yelp评论极性”或“ Yelp-2”。 Yelp-5每个类别有650,000个训练样本和50,000个测试样本,Yelp-2包含560,000个训练样本和38,000个针对积极和消极类的测试样本。 IMDb。
Yelp-2被用于消极和积极情绪分类任务,包括560,000个训练文本和38,000测试文本。 Yelp-5用于细粒度情感多分类任务,包含650,000个训练文本和50,000测试文本。
其中,18 项任务创造了 SOTA 记录: 分类:GLUE (MNLI, QNLI, STS-B, MRPC, RTE, SST-2, WNLI), RACE, IMDB, Yelp-2, Yelp