根据规模和复杂程度,这些任务可能由众包工作者在 MTurk 等平台上以及训练有素的标注人(如研究助理)执行。 结果发现,在五分之四的任务上,ChatGPT 的零样本准确率高于 MTurk。对于所有任务,ChatGPT 的编码器协议都超过了 MTurk 和训练有素的注释者。 此外在成本上,ChatGPT 比 MTurk 便宜得多:五个分类任务在 ChatGPT(25264 个注释)上的成本约为 68 美元,在 MTurk(12632 个注释)上的成本约为 657 美元。 对于 MTurk,研究的目标是选择最好的工作者群体,特别是通过筛选被亚马逊归类为「MTurk 大师」、好评超过 90% 且在美国的工作者。 与 MTurk 上高分标注人相比,ChatGPT zero-shot 的文本标注能力。ChatGPT 在五项任务中的四项中的准确性优于 MTurk。
根据任务的规模和复杂程度,这些任务可能由众包工作者在MTurk等平台上进行,也可能由经过培训的标注员,比如研究助理,来完成。 研究表明,ChatGPT的零样本分类在成本的一小部分下优于MTurk的标注。 对于MTurk,作者旨在选择高质量的众包工作者,尤其是筛选那些被亚马逊评为“MTurk大师”的工作者,他们的批准率超过90%,并且位于美国。 关于准确率,图1显示在这四个数据集中,ChatGPT在大多数任务上表现优于MTurk。平均而言,ChatGPT的准确率比MTurk高出约25个百分点。 相反,ChatGPT相对于MTurk的优势与经过训练的标注员的编码者一致性呈负相关,这可能表示对于更复杂的任务表现更为优越。
mturk:包含了设置 Mechanical Turk 的代码和作为样例的 MTurk 任务。 下面我们会更具体地说明每个目录,我们根据依赖项(dependency)来组织行文。 mturk 库包含以下目录和文件: core:该目录包含了设置支持 MTurk 聊天接口的 AWS 后端的核心代码,以及用于 HIT 创建和许可的代码。 tasks:该目录包含了两个第一版提供的示例 MTurk 任务。 运行 python run_mturk.py 添加你自己的 MTurk 任务和对话模型: 在 mturk/tasks 目录为你自己的任务创建一个新的文件夹 部署 task_config.py,至少在 task_config 在 run_mturk.py 文件中导入你的任务模块和代理类别,然后运行 python run_mturk.py 团队 ParlAI 目前由 Alexander H.
带着这个问题,「本文作者通过一种新颖的检测合成文本的方法,在MTurk上进行了一项基于案例研究的调查,以量化众包工作者使用LLM的情况」。 方法介绍 评估众包工作者在文本摘要任务中使用LLMs的程度的主要流程方法如下图所示: 其中,首先使用真正的人工编写的MTurk响应和基于LLMs编写的响应来训练特定地分类器;其次将这个分类器用于真实的 MTurk响应(工人可能依赖也可能不依赖LLMs),来估计LLMs使用的普遍性。 在此过程中,作者根据收集到的真实MTurk响应和鼠标按键记录进行事后分析来确定该方法的有效性。 具体的: 「本文摘要任务」 作者引入了一项基于MTurk的任务,旨在研究所谓的“电话效应”,即当信息在一个信息级联中从人传递到人时,信息会逐渐丢失或扭曲。
以往,这类工作都是交由人工处理的,比如说MTurk就是专门进行数据标注的一个众包平台。 在MTurk这类众包平台内部,还会有更加精细的分工,比如说会有经过专业训练的数据标注者以及众包工作者。 于是研究团队就开始着手研究大语言模型(LLM)在这方面的潜力,并且对比了没有额外训练(zero-shot)的ChatGPT(基于GPT-3.5)和MTurk在数据标注上的性能。 ChatGPT和MTurk分别将推文以“相关性、立场、主题、政策、实用性”这五种任务进行标注。 评估的标准有两条: 准确性:ChatGPT和MTurk众包工作者相较于正确标注的百分比; 编码者间的一致性信度:用ChatGPT、MTurk众包工作者以及专业数据标注者任意二者之间的一致性来计算; 结果呢也显而易见 ,在准确性上,ChatGPT有五分之四的任务都要优于MTurk众包工作者。
而这些任务通常是计算机和算法无法处理的,甚至,MTurk成为一些预算不够的科研人员和公司的「最佳选择」。 就连贝佐斯还将MTurk的众包工人戏称为「人工人工智能」。 除了MTurk,包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心,能够提供创建、标注和总结各种数据的方法,以便进行调查和实验。 具体来讲,研究人员首先使用真正由人类撰写的MTurk回应,和合成LLM生成的回应,来训练特定任务的「合成-真实分类器」。 其次,将这个分类器用于MTurk的真实回应(其中众包人可能使用,也可能没有依赖LLM),以估计LLM使用的普遍性。 最后,研究者确认了结果的有效性,在事后比较分析击键数据与MTurk的回应。 此外,研究人员用击键数据验证了结果,发现: - 完全在MTurk文本框中写的总结(不太可能是合成的)都被归类为真实的; - 在粘贴的总结中,提取式总结和LLM的使用有明显区别。
此外,研究人员还做了计算:ChatGPT 的每条注释成本不到 0.003 美元 —— 大约比 MTurk 便宜 20 倍。这些结果显示了大型语言模型在大幅提高文本分类效率方面的潜力。 实验中,研究者将任务作为零样本分类提交给 ChatGPT,并同时给 MTurk 上的众包工作者,然后根据两个基准评估了 ChatGPT 的性能:相对于众包平台上人类工作者的准确性,以及相对于研究助理注释者的准确性 结果发现,在五分之四的任务上,ChatGPT 的零样本准确率高于 MTurk。对于所有任务,ChatGPT 的编码器协议都超过了 MTurk 和训练有素的注释者。 此外在成本上,ChatGPT 比 MTurk 便宜得多:五个分类任务在 ChatGPT(25264 个注释)上的成本约为 68 美元,在 MTurk(12632 个注释)上的成本约为 657 美元。 与 MTurk 上高分标注人相比,ChatGPT zero-shot 的文本标注能力。ChatGPT 在五项任务中的四项中的准确性优于 MTurk。
MovieReviews(MTurk)数据集的训练结果。 ? 图 4. 学得的 b^r 参数和标注者的真实偏差之间的关系。 ? 表 3. CoNLL-2003 NER(MTurk)数据集的训练结果。
最近,一家以图像识别为基础,扫描图像数据来得出报告的公司Expensify,被指出将用户提供的数据转给了 Amazon 的 Mechanical Turk (MTurk) 众包平台上的工作人员。 将这项工作委托给 MTurk 的随机工作人员很不明智,毕竟客户的素材中可能包含隐私。Expensify 在此之后马上停止了这种做法。这个事件也表明了,人工智能服务背后的人类安全网络实际上非常普遍。 该公司使用 MTurk 的众包来识别对服装的主观评论数据,然后输入他们的模型。 MTurk 不是唯一的玩家。
(3)尝试使用Mechanical Turk(MTurk)众包注释,这是Amazon提供的一项服务,参与者可以执行简单的任务来换取金钱。 我们选择以下简单的严重等级: •1-轻度损坏 •2-中等/中度损害 •3-严重损坏 图4为 MTurk标注界面的示例。 图4:MTurk批注界面的示例。 即使进行三次实验迭代,工作人员仍在注释内容和注释方法上存在分歧。 图5:通过MTurk标注的图像的标注协议得分的分布。这显示了标记任务的高度主观性以及为什么众包困难。 结果:最终选择自己标记数据。 但是查看MTurk结果,就很清楚这并不是那么简单。即使为MTurk提供了非常详细的说明并提供了充分的示例,工人之间也几乎没有一致意见。
该表显示了结果数据集中的平均 MTurk 选择频率,以及与原始验证集相比模型准确率的平均变化。所有三个测试集的平均选择频率都超过 0.7,但模型准确率仍然相差很大。 相比之下,在 MTurk 实验中,原始 ImageNet 验证集的平均选择频率为 0.71。在 top-1 和 top-5 中,平均准确率的变化分别为 14%和 10%。 在 MTurk 工作人员最常选择图像的 TopImages 上,模型的性能比在原始测试集上提高了 2%。两个数据集的准确率都遵循线性函数规律,类似于图 1 中的 MatchedFrequency。
图注:我们在实验中使用的三个数据集分别是 UIDs、XiaoDu 和 MTurk。其中 UIDs 和 XiaoDu 是普通话数据集,MTurk 是英语数据集。 UIDs 和 MTurk 是独立于文本的数据集,XiaoDu 是依赖于文本的数据集——基于百度的唤醒词。
首次将感知、行动和使用自然语言交流达成目标结合在一起 实验中使用的街景地图数据,是MTurk众包手动收集的几个纽约市街区的360°视图。 实验中使用的自然语言数据,也是MTurk的真人对话,用几周时间收集,包含10k成功的导航对话。平均来说,人类需要超过62次行动(对话和走路)才能顺利到达目标地点。
rem rem $Id: setclasspath.bat 1202062 2011-11-15 06:50:02Z mturk $ rem ————————————————————————— ##
Mintaka是使用某众包平台(MTurk)构建的。首先,设计了一个任务来引出复杂但自然的问题。要求工作人员编写问题-答案对,并属于以下复杂度类型之一:计数(例如,Q:有多少宇航员曾当选为国会议员? A:安东尼·基迪斯结果为了了解Mintaka在自然度方面与先前QA数据集的比较,在某众包平台(MTurk)上进行了评估,比较了四个数据集:KQA Pro、ComplexWebQuestions (CWQ
Mechanical Turk 是 Amazon Web Service(AWS)的组成部分之一,是一个非常典型的众包平台,它的网址是 https://www.mturk.com/mturk/welcome
据报道,亚马逊土耳其机器人( Amazon Mechanical Turk,MTurk) 训练分布的人类基线是85%,但没有针对公开测试集的人类基线,不过我们已知的是,公开测试集更难,那么针对公开测试集的人类基线应该会更低 70% 的可能性:一个由3名顶尖ML工程师组成的团队,通过微调GPT-4o(包括 SFT 和 RL)、1000万美元的计算量和1年的时间,可以使用 GPT-4o 超越MTurk 85%的人类基线(简单训练集
新智元报道 来源:学术头条 编辑:好困 【新智元导读】最近,来自苏黎世大学的研究团队发现,ChatGPT在多个NLP标注任务上胜过众包工作者,具有较高一致性,且每次标注成本仅约0.003美元,比MTurk
在 MTurk 上进行的实验中,AI 税收政策提供了与 Saez 框架相似的平等 - 生产率权衡。同时具有较高的反收入加权社会福利。 为此,开发者在 Amazon Mechanical Turk(MTurk)平台上进行了实验,参与者来自美国。
参考资料: 1、Eigenface for Recognition:http://www.cs.ucsb.edu/~mturk/Papers/jcn.pdf 2、特征脸维基百科:http://zh.wikipedia.org