目前,NLP最先进的技术是在特定的任务上完善一个大型的预先训练的语言模型,如BERT/GPT等。这些语言模型是对大量数据进行预训练,然后根据为回答问题、机器翻译等。而发布的流行标记数据集进行基本评估。由于这些数据集已成为评估这些模型的事实上的缺省值,这些数据集已一次又一次地在各种网站上发布。因此,这些数据集(训练和测试数据)基本上包括分类任务中的标签或Q/A任务中的答案。所以现在,当训练一种新的大型语言模型(使用一种新的体系结构)时,它会被大量的文本数据所填充,而这些数据通常也是从互联网上刮来的。难道在这些LMs的培训阶段,网络已经看到了这些精确的数据(并了解了这些数据的共现性),而这些数据后来就被评估了吗?这将基本上违背评估的目的,因为测试数据已经泄漏到语言模型的预培训过程中。在预培训这些模型时是否有任何预过滤步骤,这样就不会发生这种情况?其次,即使网络已经看到了精确的测试数据,例如测试集question+answer,以及其他数十亿的文本数据,它会不会发现这一点,或者它只是太多的数据模型调整相应的权重和“记住”这些确切的数据点。
发布于 2022-10-21 15:34:12
大型的预先训练的语言模型在经验上是有用的。它们在预测已建立的NLP基准和新任务方面具有实际意义。由于这类模型是目前最适合在这一范围内进行预测的,因此不需要“预过滤步骤”,而且模型是否记住了以前看到的答案也不重要。
https://datascience.stackexchange.com/questions/115453
复制相似问题