构建更优AI评测基准：评价者数量多少算够？

文章来源：企鹅号 - 至顶科技

我们推出了一个基于"金标准"评分数据的机器学习模型评估框架，该框架优化了评测项目数量与每项评价者数量之间的权衡，为构建能够捕捉人类分歧细微差别的高度可重现AI基准提供了路线图。

机器学习中的可重现性

在机器学习领域，可重现性衡量的是使用相同代码、数据/分布和设置重复相同实验并获得相同结果的难易程度。高水平的可重现性能够在团队之间建立信任，并允许他们在彼此的进展基础上继续发展。

可重现性面临的挑战在于，基准真实数据通常依赖于人类；而人类与机器不同，他们从各种不同角度处理问题，往往在结果上存在分歧。令人惊讶的是，很少有研究关注有效忽略人类分歧的影响，这在AI基准测试中是一个常见的疏漏。缺乏相关研究的一个原因是，收集人工支持的评估数据预算有限，而为每个示例获取多个评价者的更多样本会大大增加单项标注成本。

使用多数票来表示多重评分会忽略变异性。上述两个例子都有相同的多数票，但后者更明显地倾向于"有毒"。

在"森林与树木：可重现机器学习评估中的(N,K)权衡"研究中，我们调查了被评价项目比例与每项人类评价者数量之间的可重现性权衡。是对许多项目使用较少评价者更好，还是对较少项目使用更多评价者更好？可以将此视为广度与深度之间的问题。广度（即森林）方法要求1000个不同的人每人在餐厅尝试一道菜来获得整体质量感受。深度（树木）方法要求20个人尝试相同的50道菜，揭示更多关于特定菜品的信息，这可能会影响整体评分。

从历史上看，AI评估倾向于森林方法。大多数研究者满足于每项1到5个评价者，假设这足以找到单一"正确"真相。我们的研究表明，这一标准往往不足以捕捉自然分歧，我们为构建更可靠和成本效益更高的AI基准提供了路线图。

主观性破坏实证基准测试

主观性破坏实证基准测试是可重现性的主要挑战。如果两个不同的研究者运行相同评估并获得不同结果，研究就不可重现。为了找到被评价项目数量与每项评价者数量之间的最佳平衡，我们基于涉及主观任务（如毒性和仇恨言论检测）的真实世界数据集开发了一个模拟器。

我们本质上进行了大规模"压力测试"，以找到花费给定研究预算（例如，以成本、时间等衡量）的最有效方式。我们改变了两个主要杠杆，看哪个产生最可靠的结果：

我们使用模拟器在各种规模下测试了数千种此类组合，看哪些配置在统计上最可靠（p < 0.05）——因此可重现。

为支持更广泛的社区，我们已在GitHub上开源了这个模拟器。

我们使用多个数据集，每个都包含各种类别，每项有多个响应：

使用这些数据集，我们还测试了数据"混乱"时会发生什么。例如，如果99%的邮件是垃圾邮件，只有1%是重要的（表明高数据倾斜），这是否会改变最佳评价者分布（广度vs深度）？此外，我们还探索了拥有更多数据类别的效果，例如毒性标签，如有毒、轻微冒犯、中性等。

关键发现

我们的研究揭示了三个挑战机器学习评估现状的重大洞察：

我们的结果显示，每项使用1、3或5个评价者的常见做法往往不足。这种"低评价者"方法既没有提供足够的广度来看到大局，也没有提供足够的深度来理解人类意见的细微差别。为了获得真正反映人类细微差别的可靠结果，实践者往往需要每项超过10个评价者。

每项拥有更多评价者会增加统计显著性，因为p值接近零。这意味着我们可以丢弃模型A和B表现同样好的零假设，模拟器确保情况并非如此。

没有"完美"比例。相反，最佳权衡完全取决于所测量的内容：

最令人鼓舞的发现是，一个人不需要无限预算。我们发现，通过基于选择的指标正确优化每项评分比例，可以用大约1000个总标注的适度预算实现高度可重现的结果。然而，选择错误的平衡可能导致不可靠的结论，即使增加研究预算也是如此。

对AI未来的影响

这项研究对可靠AI的未来至关重要。多年来，该领域一直在"单一真相"范式下运作——即对于每个输入，都有一个"正确"标签的想法。但即使存在单一基准真相，也可能无法测量它。当AI进入更主观的领域，如伦理学，识别有害意图或社交互动特征等主观概念时，这种范式就崩溃了。

通过远离"森林"并拥抱"树木"，我们可以构建真正反映复杂性和不同观点的基准，这些观点导致人类世界中发现的自然分歧。这个路线图允许实践者在不超支的情况下设计更好、更可重现的测试。最终，理解人类为什么分歧与知道他们在哪里达成一致同样重要，我们的研究提供了捕捉两者的数学工具。

这项工作很大程度上归功于我们的合作者——罗切斯特理工学院博士生Deepak Pandita和Christopher Homan教授。

Q&A

Q1：机器学习评估中为什么需要多个评价者？

A：因为基准真实数据通常依赖于人类，而人类与机器不同，他们从各种不同角度处理问题，往往在结果上存在分歧。使用单一评价者或很少评价者无法捕捉这种自然的人类分歧，影响评估结果的可重现性。

Q2：广度和深度方法在AI评估中有什么区别？

A：广度（森林）方法是对许多项目使用较少评价者，就像让1000个不同的人每人在餐厅尝试一道菜。深度（树木）方法是对较少项目使用更多评价者，就像让20个人尝试相同的50道菜，能揭示更多细节信息。

Q3：构建可重现AI基准需要多少预算？

A：研究发现，通过基于选择指标正确优化每项评分比例，可以用大约1000个总标注的适度预算实现高度可重现的结果。关键是找到项目数量与每项评价者数量之间的最佳平衡，而不是无限增加预算。

发表于: 2026-04-012026-04-01 14:08:15
原文链接：https://page.om.qq.com/page/ORRT-lRzCLAXyIcqKf1Vlkmg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

构建更优AI评测基准：评价者数量多少算够？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐