在自然语言处理领域,基于阅读理解的问答是一项流行任务。它类似于标准化考试:给定一段文章及相关问题,目标是让机器学习模型像人一样,通过阅读文章找到答案。
近年来,问答模型取得了显著进展。在SQuAD 2.0等公开榜单上,模型的性能甚至超越了人类基准。但关键问题是:模型是真的学会了问答,还是仅仅学会在特定环境下有效的启发式方法?在论文《What do models learn from question answering datasets?》中对此进行了探究,并在自然语言处理实证方法会议(EMNLP)上展示。研究对基于流行BERT语言模型的问答模型进行了一系列简单而信息量充足的“攻击”,发现了以下可能动摇“模型性能超越人类”这一结论的短板:
一个擅长批判性阅读的学生应能回答关于各类文章的问题。同样,问答模型应在不同数据集上表现良好。然而,研究表明,在SQuAD数据集上表现优异的模型,在同样基于维基百科文章的Natural Questions数据集上表现却不佳。这暗示模型可能仅学会了解决特定数据集,而非掌握更广泛的阅读理解能力。
在评估模型时,我们通常假设高性能意味着对内容有良好理解。但测试本身可能存在缺陷。就像学生参加所有答案都是“C”的多选题考试一样,模型也可能利用测试问题中的偏差来获取正确答案,而无需进行真正的阅读理解。
为探究这一点,研究者进行了三项实验:
在所有实验中,模型都表现出可疑的鲁棒性,仍能返回正确答案。这意味着模型在训练时或测试时,都不需要通过阅读理解文章结构或理解完整问题来完成任务。原因在于,某些数据集中的部分问题可以通过简单规则回答。例如,实验中发现一个模型只是将所有“who”问题都用段落中的第一个专有名词来回答。这类简单规则几乎能达到当前模型基线性能的40%。
一个学生应能理解“When did William invade England?”、“When did William march his army into England?”和“When was England invaded by William?”是同一个问题。但模型在处理这类变体时仍有困难。
研究者进行了两项实验来测试模型对问题变体的处理能力:
实验表明,模型在学习捷径,而非执行真正的阅读理解。虽然这令人失望,但可以改进。遵循以下五项建议,有望在未来催生更好的问答数据集和评估方法:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。