搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
ChatGPT要把数据标注行业干掉了？比人便宜20倍，而且还更准
根据规模和复杂程度，这些任务可能由众包工作者在 MTurk 等平台上以及训练有素的标注人（如研究助理）执行。结果发现，在五分之四的任务上，ChatGPT 的零样本准确率高于 MTurk。对于所有任务，ChatGPT 的编码器协议都超过了 MTurk 和训练有素的注释者。此外在成本上，ChatGPT 比 MTurk 便宜得多：五个分类任务在 ChatGPT（25264 个注释）上的成本约为 68 美元，在 MTurk（12632 个注释）上的成本约为 657 美元。对于 MTurk，研究的目标是选择最好的工作者群体，特别是通过筛选被亚马逊归类为「MTurk 大师」、好评超过 90% 且在美国的工作者。与 MTurk 上高分标注人相比，ChatGPT zero-shot 的文本标注能力。ChatGPT 在五项任务中的四项中的准确性优于 MTurk。
81320编辑于 2023-04-06
来自专栏DrugOne
PNAS | ChatGPT在文本标注任务中表现优于众包工作者
根据任务的规模和复杂程度，这些任务可能由众包工作者在MTurk等平台上进行，也可能由经过培训的标注员，比如研究助理，来完成。研究表明，ChatGPT的零样本分类在成本的一小部分下优于MTurk的标注。对于MTurk，作者旨在选择高质量的众包工作者，尤其是筛选那些被亚马逊评为“MTurk大师”的工作者，他们的批准率超过90％，并且位于美国。关于准确率，图1显示在这四个数据集中，ChatGPT在大多数任务上表现优于MTurk。平均而言，ChatGPT的准确率比MTurk高出约25个百分点。相反，ChatGPT相对于MTurk的优势与经过训练的标注员的编码者一致性呈负相关，这可能表示对于更复杂的任务表现更为优越。
52820编辑于 2023-09-09
来自专栏机器之心
资源 | Facebook开源人工智能框架ParlAI：可轻松训练评估对话模型
mturk：包含了设置 Mechanical Turk 的代码和作为样例的 MTurk 任务。下面我们会更具体地说明每个目录，我们根据依赖项（dependency）来组织行文。 mturk 库包含以下目录和文件： core：该目录包含了设置支持 MTurk 聊天接口的 AWS 后端的核心代码，以及用于 HIT 创建和许可的代码。 tasks：该目录包含了两个第一版提供的示例 MTurk 任务。运行 python run_mturk.py 添加你自己的 MTurk 任务和对话模型：在 mturk/tasks 目录为你自己的任务创建一个新的文件夹部署 task_config.py，至少在 task_config 在 run_mturk.py 文件中导入你的任务模块和代理类别，然后运行 python run_mturk.py 团队 ParlAI 目前由 Alexander H.
1.8K80发布于 2018-05-08
来自专栏自然语言处理(NLP)论文速递
重点关注！大语言模型(LLM)时代，众包数据变得不可靠，呼吁保持数据人性化！
带着这个问题，「本文作者通过一种新颖的检测合成文本的方法，在MTurk上进行了一项基于案例研究的调查，以量化众包工作者使用LLM的情况」。方法介绍评估众包工作者在文本摘要任务中使用LLMs的程度的主要流程方法如下图所示：其中，首先使用真正的人工编写的MTurk响应和基于LLMs编写的响应来训练特定地分类器；其次将这个分类器用于真实的 MTurk响应（工人可能依赖也可能不依赖LLMs），来估计LLMs使用的普遍性。在此过程中，作者根据收集到的真实MTurk响应和鼠标按键记录进行事后分析来确定该方法的有效性。具体的：「本文摘要任务」作者引入了一项基于MTurk的任务，旨在研究所谓的“电话效应”，即当信息在一个信息级联中从人传递到人时，信息会逐渐丢失或扭曲。
64840编辑于 2023-09-14
来自专栏量子位
ChatGPT标注数据比人类便宜20倍，80%任务上占优势 | 苏黎世大学
以往，这类工作都是交由人工处理的，比如说MTurk就是专门进行数据标注的一个众包平台。在MTurk这类众包平台内部，还会有更加精细的分工，比如说会有经过专业训练的数据标注者以及众包工作者。于是研究团队就开始着手研究大语言模型（LLM）在这方面的潜力，并且对比了没有额外训练（zero-shot）的ChatGPT（基于GPT-3.5）和MTurk在数据标注上的性能。 ChatGPT和MTurk分别将推文以“相关性、立场、主题、政策、实用性”这五种任务进行标注。评估的标准有两条：准确性：ChatGPT和MTurk众包工作者相较于正确标注的百分比；编码者间的一致性信度：用ChatGPT、MTurk众包工作者以及专业数据标注者任意二者之间的一致性来计算；结果呢也显而易见，在准确性上，ChatGPT有五分之四的任务都要优于MTurk众包工作者。
56720编辑于 2023-04-06
来自专栏新智元
GPT-5将死于GPT-4背刺？牛津剑桥研究警告：AI训AI成「剧毒」，会让模型崩溃！
而这些任务通常是计算机和算法无法处理的，甚至，MTurk成为一些预算不够的科研人员和公司的「最佳选择」。就连贝佐斯还将MTurk的众包工人戏称为「人工人工智能」。除了MTurk，包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心，能够提供创建、标注和总结各种数据的方法，以便进行调查和实验。具体来讲，研究人员首先使用真正由人类撰写的MTurk回应，和合成LLM生成的回应，来训练特定任务的「合成-真实分类器」。其次，将这个分类器用于MTurk的真实回应（其中众包人可能使用，也可能没有依赖LLM），以估计LLM使用的普遍性。最后，研究者确认了结果的有效性，在事后比较分析击键数据与MTurk的回应。此外，研究人员用击键数据验证了结果，发现： - 完全在MTurk文本框中写的总结（不太可能是合成的）都被归类为真实的； - 在粘贴的总结中，提取式总结和LLM的使用有明显区别。
51010编辑于 2023-08-05
来自专栏机器之心
7 Papers & Radios | GPT-4学会反思；ChatGPT数据标注比人便宜20倍
此外，研究人员还做了计算：ChatGPT 的每条注释成本不到 0.003 美元 —— 大约比 MTurk 便宜 20 倍。这些结果显示了大型语言模型在大幅提高文本分类效率方面的潜力。实验中，研究者将任务作为零样本分类提交给 ChatGPT，并同时给 MTurk 上的众包工作者，然后根据两个基准评估了 ChatGPT 的性能：相对于众包平台上人类工作者的准确性，以及相对于研究助理注释者的准确性结果发现，在五分之四的任务上，ChatGPT 的零样本准确率高于 MTurk。对于所有任务，ChatGPT 的编码器协议都超过了 MTurk 和训练有素的注释者。此外在成本上，ChatGPT 比 MTurk 便宜得多：五个分类任务在 ChatGPT（25264 个注释）上的成本约为 68 美元，在 MTurk（12632 个注释）上的成本约为 657 美元。与 MTurk 上高分标注人相比，ChatGPT zero-shot 的文本标注能力。ChatGPT 在五项任务中的四项中的准确性优于 MTurk。
81010编辑于 2023-04-06
来自专栏机器之心
学界 | 通过Crowd Layer，利用众包标注数据集进行深度学习
MovieReviews（MTurk）数据集的训练结果。 ? 图 4. 学得的 b^r 参数和标注者的真实偏差之间的关系。 ? 表 3. CoNLL-2003 NER（MTurk）数据集的训练结果。
2K60发布于 2018-05-08
来自专栏企鹅号快讯
号称要取代人类的AI技术真的省下了人力吗？
最近，一家以图像识别为基础，扫描图像数据来得出报告的公司Expensify，被指出将用户提供的数据转给了 Amazon 的 Mechanical Turk (MTurk) 众包平台上的工作人员。将这项工作委托给 MTurk 的随机工作人员很不明智，毕竟客户的素材中可能包含隐私。Expensify 在此之后马上停止了这种做法。这个事件也表明了，人工智能服务背后的人类安全网络实际上非常普遍。该公司使用 MTurk 的众包来识别对服装的主观评论数据，然后输入他们的模型。 MTurk 不是唯一的玩家。
73480发布于 2018-01-09
来自专栏深度学习和计算机视觉
自动路损检测器
（3）尝试使用Mechanical Turk（MTurk）众包注释，这是Amazon提供的一项服务，参与者可以执行简单的任务来换取金钱。我们选择以下简单的严重等级： •1-轻度损坏 •2-中等/中度损害 •3-严重损坏图4为 MTurk标注界面的示例。图4：MTurk批注界面的示例。即使进行三次实验迭代，工作人员仍在注释内容和注释方法上存在分歧。图5：通过MTurk标注的图像的标注协议得分的分布。这显示了标记任务的高度主观性以及为什么众包困难。结果：最终选择自己标记数据。但是查看MTurk结果，就很清楚这并不是那么简单。即使为MTurk提供了非常详细的说明并提供了充分的示例，工人之间也几乎没有一致意见。
1K20发布于 2020-07-28
来自专栏机器之心
ImageNet分类器可以泛化到ImageNet上吗？
该表显示了结果数据集中的平均 MTurk 选择频率，以及与原始验证集相比模型准确率的平均变化。所有三个测试集的平均选择频率都超过 0.7，但模型准确率仍然相差很大。相比之下，在 MTurk 实验中，原始 ImageNet 验证集的平均选择频率为 0.71。在 top-1 和 top-5 中，平均准确率的变化分别为 14％和 10％。在 MTurk 工作人员最常选择图像的 TopImages 上，模型的性能比在原始测试集上提高了 2％。两个数据集的准确率都遵循线性函数规律，类似于图 1 中的 MatchedFrequency。
1.1K20发布于 2019-03-12
来自专栏机器之心
业界 | 百度提出Deep Speaker：可用于端到端的大规模说话人识别
图注：我们在实验中使用的三个数据集分别是 UIDs、XiaoDu 和 MTurk。其中 UIDs 和 XiaoDu 是普通话数据集，MTurk 是英语数据集。 UIDs 和 MTurk 是独立于文本的数据集，XiaoDu 是依赖于文本的数据集——基于百度的唤醒词。
1.5K80发布于 2018-05-08
来自专栏新智元
两个Bot自创新语言！Facebook机器人纽约自由行导航定位碾压人类
首次将感知、行动和使用自然语言交流达成目标结合在一起实验中使用的街景地图数据，是MTurk众包手动收集的几个纽约市街区的360°视图。实验中使用的自然语言数据，也是MTurk的真人对话，用几周时间收集，包含10k成功的导航对话。平均来说，人类需要超过62次行动（对话和走路）才能顺利到达目标地点。
63000发布于 2018-07-31
来自专栏zhangdd.com
windows系统Tomcat启动过程中找不到JAVA_HOME解决方法
rem rem $Id: setclasspath.bat 1202062 2011-11-15 06:50:02Z mturk $ rem ————————————————————————— ##
99210发布于 2018-08-01
跨语言复杂问答数据集Mintaka发布
Mintaka是使用某众包平台（MTurk）构建的。首先，设计了一个任务来引出复杂但自然的问题。要求工作人员编写问题-答案对，并属于以下复杂度类型之一：计数（例如，Q：有多少宇航员曾当选为国会议员？ A：安东尼·基迪斯结果为了了解Mintaka在自然度方面与先前QA数据集的比较，在某众包平台（MTurk）上进行了评估，比较了四个数据集：KQA Pro、ComplexWebQuestions (CWQ
15710编辑于 2025-12-18
来自专栏灯塔大数据
每周学点大数据 | No.76 众包算法实践——认识 AMT
Mechanical Turk 是 Amazon Web Service（AWS）的组成部分之一，是一个非常典型的众包平台，它的网址是 https://www.mturk.com/mturk/welcome
2K90发布于 2018-04-03
来自专栏新智元
GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA
据报道，亚马逊土耳其机器人( Amazon Mechanical Turk，MTurk) 训练分布的人类基线是85%，但没有针对公开测试集的人类基线，不过我们已知的是，公开测试集更难，那么针对公开测试集的人类基线应该会更低 70% 的可能性：一个由3名顶尖ML工程师组成的团队，通过微调GPT-4o（包括 SFT 和 RL）、1000万美元的计算量和1年的时间，可以使用 GPT-4o 超越MTurk 85%的人类基线（简单训练集
34210编辑于 2024-06-27
来自专栏新智元
一次只要0.003美元，比人类便宜20倍！ChatGPT让数据标注者危矣
新智元报道来源：学术头条编辑：好困【新智元导读】最近，来自苏黎世大学的研究团队发现，ChatGPT在多个NLP标注任务上胜过众包工作者，具有较高一致性，且每次标注成本仅约0.003美元，比MTurk
67850编辑于 2023-04-01
来自专栏机器之心
Salesforce开发「AI经济学家」，用强化学习设计税收策略
在 MTurk 上进行的实验中，AI 税收政策提供了与 Saez 框架相似的平等 - 生产率权衡。同时具有较高的反收入加权社会福利。为此，开发者在 Amazon Mechanical Turk（MTurk）平台上进行了实验，参与者来自美国。
68441发布于 2020-08-28
来自专栏智能算法
人脸识别经典算法：特征脸方法（Eigenface）
参考资料： 1、Eigenface for Recognition：http://www.cs.ucsb.edu/~mturk/Papers/jcn.pdf 2、特征脸维基百科：http://zh.wikipedia.org
6.2K50发布于 2018-04-03

第 2 页第 3 页

点击加载更多

ChatGPT要把数据标注行业干掉了？比人便宜20倍，而且还更准

PNAS | ChatGPT在文本标注任务中表现优于众包工作者

资源 | Facebook开源人工智能框架ParlAI：可轻松训练评估对话模型

重点关注！大语言模型(LLM)时代，众包数据变得不可靠，呼吁保持数据人性化！

ChatGPT标注数据比人类便宜20倍，80%任务上占优势 | 苏黎世大学

GPT-5将死于GPT-4背刺？牛津剑桥研究警告：AI训AI成「剧毒」，会让模型崩溃！

7 Papers & Radios | GPT-4学会反思；ChatGPT数据标注比人便宜20倍

学界 | 通过Crowd Layer，利用众包标注数据集进行深度学习

号称要取代人类的AI技术真的省下了人力吗？

自动路损检测器

ImageNet分类器可以泛化到ImageNet上吗？

业界 | 百度提出Deep Speaker：可用于端到端的大规模说话人识别

两个Bot自创新语言！Facebook机器人纽约自由行导航定位碾压人类

windows系统Tomcat启动过程中找不到JAVA_HOME解决方法

跨语言复杂问答数据集Mintaka发布

每周学点大数据 | No.76 众包算法实践——认识 AMT

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

一次只要0.003美元，比人类便宜20倍！ChatGPT让数据标注者危矣

Salesforce开发「AI经济学家」，用强化学习设计税收策略

人脸识别经典算法：特征脸方法（Eigenface）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐