吴恩达倡导数据为中心的AI革命

原创

用户11764306

发布于 2026-05-06 23:16:39

700

IEEE Spectrum 2022年4月刊

Andrew Ng: Unbiggen AI

AI先驱表示，是时候为重大问题采用智能、小巧的“以数据为中心”的解决方案了。

Eliza Strickland 2022年2月9日 10分钟阅读

Andrew Ng 曾参与推动基于海量数据的大规模深度学习模型的兴起，但现在他正在倡导小数据解决方案。

Cate Dingley/Bloomberg/Getty Images

Andrew Ng 在人工智能领域拥有极高的声望。21世纪末，他与斯坦福大学的学生率先使用图形处理单元训练深度学习模型，共同创立了某机构大脑项目（2011年），随后在另一家大型机构担任了三年首席科学家，帮助其建立了AI团队。因此，当他指出人工智能下一个重大转变时，人们都会倾听。他在接受IEEE Spectrum的独家采访时表达了这一观点。

Ng 目前的精力集中在他的某平台公司上，该公司构建了一个名为某视觉平台的系统，旨在帮助制造商利用计算机视觉改进视觉检测。他还成为了他所称的“以数据为中心的 AI 运动”的倡导者。他认为，这一运动可以为AI中的重大问题（包括模型效率、准确性和偏见）提供“小数据”解决方案。

Andrew Ng 谈...

真正大型模型的下一步是什么
他没有听从的职业建议
定义以数据为中心的 AI 运动
合成数据
为什么某视觉平台要求客户自己完成工作

过去十余年深度学习的巨大进步，是由越来越大的模型处理越来越庞大的数据量所驱动的。有人认为这是一条不可持续的发展轨迹。您同意这种观点吗？

Andrew Ng：这是一个重要问题。我们已经在自然语言处理领域看到了基础模型。我对NLP模型变得更大感到兴奋，也对在计算机视觉中构建基础模型的潜力感到兴奋。我认为视频中仍有大量信号有待挖掘：由于计算带宽和处理视频的成本（与处理标记化文本相比），我们尚未能为视频构建基础模型。因此，我认为这种扩展深度学习算法的引擎（已经运行了大约15年）仍有动力。话虽如此，它仅适用于某些问题，还有另一类问题需要小数据解决方案。

当您说希望为计算机视觉建立基础模型时，具体指什么？

Ng：这是由某位专家和我在斯坦福大学的一些朋友创造的术语，指代那些在超大数据集上训练、并可针对特定应用进行调整的超大模型。例如，GPT-3 就是自然语言处理的一个基础模型。基础模型作为开发机器学习应用的新范式展现出了巨大前景，但也带来了挑战，即如何确保它们合理公平且没有偏见，尤其是当许多人将在其之上构建应用时。

要为一个视频构建基础模型，需要什么条件？

Ng：我认为存在可扩展性问题。处理大量视频图像所需的计算能力是巨大的，我认为这就是基础模型首先在自然语言处理领域出现的原因。许多研究人员正在致力于此，我认为我们已经在计算机视觉领域看到了此类模型开发的早期迹象。但我相信，如果某半导体制造商能给我们提供10倍的处理能力，我们就能轻松找到10倍的视频来为视觉构建这样的模型。

话虽如此，过去十年发生的许多事情是，深度学习首先在面向消费者、拥有庞大用户群（有时达数十亿用户）的公司中落地，因此它们拥有非常大的数据集。虽然这种机器学习范式在消费软件领域创造了巨大的经济价值，但我发现这种规模化的方法并不适用于其他行业。

听到您这么说很有趣，因为您早期的工作正是在一家拥有数百万用户的面向消费者的公司。

Ng：十多年前，当我提议启动“某机构大脑”项目，利用该机构的计算基础设施构建非常大的神经网络时，那是一个有争议的步骤。一位非常资深的同事把我拉到一边，警告我启动这个项目对我的职业生涯不利。我想他认为行动不能仅仅在于扩大规模，而应该专注于架构创新。

“在许多根本不存在巨型数据集的行业，我认为重点必须从大数据转向好数据。拥有50个精心设计的示例就足以向神经网络解释您希望它学习什么。”

——Andrew Ng，某视觉平台首席执行官兼创始人

我记得当我和我的学生发表第一篇NeurIPS研讨会论文，倡导使用某计算平台进行深度学习时，另一位资深人士语重心长地对我说：“某平台编程真的非常复杂。作为一种编程范式，这看起来工作量太大了。”我确实设法说服了他；但另一个人我没有说服成功。

我猜他们现在都信服了。

Ng：我想是的。

在过去的一年里，当我向人们谈论以数据为中心的 AI 运动时，我仿佛回到了10年或15年前向人们谈论深度学习和可扩展性的时候。过去一年，我收到了同样的混合反馈：“这里没什么新东西”和“这似乎是错误的方向。”

您如何定义以数据为中心的 AI，以及为何将其视为一场运动？

Ng：以数据为中心的 AI 是一门系统性地工程化所需数据以成功构建 AI 系统的学科。对于一个 AI 系统，您必须在代码中实现某种算法（例如神经网络），然后在您的数据集上训练它。过去十年的主导范式是下载数据集，同时专注于改进代码。由于这种范式，过去十年深度学习网络有了显著改进，以至于对于许多应用来说，代码（神经网络架构）基本上是一个已解决的问题。因此，对于许多实际应用，现在更高效的方法是固定神经网络架构，转而寻找改进数据的方法。

当我开始谈论这一点时，许多从业者非常合理地举手说：“是的，我们已经这样做了20年。”现在是时候将某些个人一直凭直觉做的事情，转变为一门系统性的工程学科了。

以数据为中心的 AI 运动远比某一家公司或某一组研究人员更大。我和我的合作者在某学术会议上组织了一个以数据为中心的 AI 研讨会，我对出席的作者和演讲者的数量感到非常高兴。

您经常谈论只有少量数据可用的公司或机构。以数据为中心的 AI 如何帮助它们？

Ng：您经常听到用数百万张图像构建的视觉系统——我曾经用3.5亿张图像构建了一个人脸识别系统。为数亿张图像构建的架构无法仅用50张图像工作。但事实证明，如果您有50个真正好的样本，您可以构建有价值的东西，比如缺陷检测系统。在许多根本不存在巨型数据集的行业，我认为重点必须从大数据转向好数据。拥有50个精心设计的示例就足以向神经网络解释您希望它学习什么。

当您谈到仅用50张图像训练模型时，这是否意味着您采用了一个在超大数据集上训练过的现有模型并对其进行微调？还是指一个旨在仅从该小数据集中学习的新模型？

Ng：让我描述一下某视觉平台的做法。在为制造商进行视觉检测时，我们经常使用自己版本的某检测网络。它是一个预训练模型。话虽如此，预训练只是拼图中的一小块。更大的拼图部分是提供工具，使制造商能够选择正确的图像集用于微调并以一致的方式标记它们。我们在视觉、自然语言处理和语音领域看到了一个非常实际的问题：即使是人工标注者也无法就适当的标签达成一致。对于大数据应用，常见的应对措施是：如果数据有噪声，那就获取大量数据，算法会对其进行平均处理。但是，如果您能够开发出标记数据不一致之处的工具，并提供一种非常有针对性的方法来提高数据的一致性，结果证明这是获得高性能系统的更有效途径。

“收集更多数据通常有帮助，但如果您试图为所有事情收集更多数据，那可能会是一项非常昂贵的活动。”

——Andrew Ng

例如，如果您有10,000张图像，其中30张属于某一类，而这30张图像的标签不一致，我们做的其中一件事就是构建工具，将您的注意力吸引到数据不一致的子集上。这样您就可以非常快速地重新标记这些图像，使其更一致，从而提高性能。

这种对高质量数据的关注能帮助解决数据集中的偏见问题吗？如果您能在训练前更好地管理数据？

Ng：非常能。许多研究人员指出，有偏见的数据是导致有偏见的系统的众多因素之一。已经有许多深思熟虑的努力来工程化数据。在某研讨会上，一位专家就此发表了非常精彩的演讲。在主要会议上，我也非常欣赏另一位专家的演讲，她提到以数据为中心的 AI 是解决方案的一部分，但不是全部。像“数据集的数据表”这样的新工具似乎也是拼图中的重要一环。

以数据为中心的 AI 赋予我们的强大工具之一是能够工程化数据的一个子集。想象一下训练一个机器学习系统，发现它对大部分数据集表现尚可，但仅对一小部分数据表现有偏见。如果您试图改变整个神经网络架构来仅仅提高那一小部分数据的性能，那是非常困难的。但是，如果您能够工程化那部分数据，就可以更有针对性地解决问题。

当您谈论工程化数据时，具体是什么意思？

Ng：在 AI 中，数据清洗很重要，但数据清洗的方式通常非常手动。在计算机视觉中，某人可能会通过某交互式计算笔记本可视化图像，也许发现问题，然后可能修复它。但我对这样的工具感到兴奋：它允许您拥有一个非常大的数据集，并且快速高效地将您的注意力吸引到例如标签有噪声的数据子集上。或者快速将您的注意力吸引到100个类别中的某一个类别，对该类别收集更多数据将使您受益。收集更多数据通常有帮助，但如果您试图为所有事情收集更多数据，那可能会是一项非常昂贵的活动。

例如，我曾经发现一个语音识别系统在背景中有汽车噪音时表现不佳。了解到这一点后，我就可以只收集带有背景汽车噪音的更多数据，而不是试图为所有情况收集更多数据，后者既昂贵又缓慢。

那么使用合成数据呢，这通常是一个好的解决方案吗？

Ng：我认为合成数据是以数据为中心的 AI 工具箱中的一个重要工具。在某研讨会上，一位专家做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途不仅仅是作为增加学习算法数据集的预处理步骤。我希望看到更多的工具，让开发者能够将合成数据生成作为迭代式机器学习开发闭环的一部分。

您的意思是合成数据可以让您在新的数据集上测试模型？

Ng：不完全是。举个例子。假设您试图检测智能手机外壳的缺陷。智能手机上有许多不同类型的缺陷。可能是划痕、凹痕、坑点、材料变色或其他类型的瑕疵。如果您训练模型，然后通过错误分析发现模型整体表现良好，但在坑点检测上表现不佳，那么合成数据生成可以让您更有针对性地解决问题。您可以只为坑点类别生成更多数据。

“在消费软件互联网领域，我们可以训练少数几个机器学习模型来服务十亿用户。而在制造业，您可能有10,000家制造商需要构建10,000个定制的AI模型。”

——Andrew Ng

合成数据生成是一个非常强大的工具，但我通常会首先尝试许多更简单的工具，例如数据增强、提高标签一致性，或者直接让工厂收集更多数据。

为了让这些问题更具体，您能给我举个实例吗？当一家公司找到某视觉平台说他们在视觉检测上遇到问题时，你们如何让他们上手并走向部署？

Ng：当客户找到我们时，我们通常会讨论他们的检测问题，并查看一些图像以确认该问题通过计算机视觉是可行的。假设可行，我们会要求他们将数据上传到某视觉平台。我们经常就数据为中心的 AI 方法论向他们提供建议，并帮助他们标记数据。

某视觉平台的重点之一，是赋能制造公司自己完成机器学习工作。我们的很多工作是确保软件快速且易于使用。通过机器学习的迭代开发过程，我们就诸如如何在平台上训练模型、何时以及如何改进数据标记以提高模型性能等问题为客户提供建议。我们的培训和软件全程支持他们，直至将训练好的模型部署到工厂的边缘设备。

如何处理需求的变化？如果产品发生变化或工厂的照明条件改变，模型能否跟上？

Ng：这因制造商而异。在许多情况下都存在数据漂移。但有些制造商已经连续20年运行同一条生产线，几乎没有变化，因此他们预计未来五年也不会发生变化。这些稳定的环境让事情变得更容易。对于其他制造商，我们提供工具，在出现重大数据漂移问题时发出标志。我发现赋能制造客户自行纠正数据、重新训练和更新模型非常重要。因为如果有变化发生时美国已是凌晨3点，我希望他们能够立即调整他们的学习算法以维持运营。

在消费软件互联网领域，我们可以训练少数几个机器学习模型来服务十亿用户。而在制造业，您可能有10,000家制造商需要构建10,000个定制的AI模型。挑战在于，如何在不雇佣10,000名机器学习专家的情况下做到这一点？

所以您是说，为了规模化，必须赋能客户自己完成大量训练和其他工作？

Ng：是的，正是！这是AI领域一个全行业性的问题，不仅仅存在于制造业。看看医疗保健。每家医院的电子健康记录格式都略有不同。每家医院如何训练自己的定制AI模型？期望每家医院的IT人员发明新的神经网络架构是不现实的。摆脱这种困境的唯一方法是构建工具，通过让客户能够工程化数据并表达他们的领域知识，从而赋能他们构建自己的模型。这正是某视觉平台在计算机视觉领域正在做的事情，而AI领域需要其他团队在其他领域也做到这一点。

关于您正在做的工作或以数据为中心的 AI 运动，您认为还有什么重要的事情需要人们了解？

Ng：在过去十年中，AI 最大的转变是转向深度学习。我认为很可能在这十年中，最大的转变将是转向以数据为中心的 AI。鉴于当今神经网络架构的成熟度，我认为对于许多实际应用，瓶颈将在于我们能否高效地获取所需数据以开发出运行良好的系统。以数据为中心的 AI 运动在整个社区中拥有巨大的能量和动力。我希望更多的研究人员和开发者能够投身其中。

本文发表于2022年4月印刷版，标题为“Andrew Ng, AI Minimalist。”FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

网络安全