Claude母公司Anthropic 这两天被群嘲了。
他发布通报,指责部分中国 AI 公司利用他家数据进行模型“蒸馏”,最终获取了不当商业利益。 这纸诉状似乎没迎来同情。大部分人冷嘲热讽:
你自己也是基于公开数据进行训练并商业化AI模型的,这些都存在版权争议,如今却指责别人使用你的模型输出数据,妥妥“双标”“眼红”啊。

确实,当前几乎所有大模型公司,都不同程度地使用了互联网上的公开数据进行训练。这本身就处在全球法律和版权讨论的灰色地带,这一点,是客观事实。 但,是否就此可以简单得出个逻辑:“谁都不干净,所以谁都没资格指责谁”呢? 事情可以拆开来看。 首先,原始数据有争议 ≠ 产出结果没有知识产权。 即便一家 AI 公司使用的原始训练数据存在版权争议,但当它完成模型训练之后,模型本身就已经构成了新的知识产权成果。 从技术角度看,大模型并不是简单地“存储”数据,而是对海量离散、分散、缺乏结构的数据进行重组、抽象和压缩,最终形成一种可以通过自然语言交互、稳定输出高质量结果的能力体系。 这种能力本身,是算法、算力、工程体系与数据共同作用的结果,是一种再创造。 因此,哪怕原始数据存在争议,但训练出来的模型是拥有了新的知识产权的,这没有疑问。 其次,蒸馏行为的边界在哪里? 所谓“蒸馏”,本质上是利用已有模型的输出,去训练另一个模型。这种方式在学术界和工业界都非常常见,甚至是一种重要的模型优化手段。 但当蒸馏对象变成“竞争对手的商业模型”,事情就得重新来理理了。 如果未经许可,直接大量利用竞争对手模型的输出数据来训练自己的商业模型,从商业伦理的角度看,确实存在瑕疵。
哪怕对方本身的数据来源存在争议,也不意味着其产出的模型成果可以被任意使用。 一个不太恰当但便于理解的类比是: 一个人曾经有过“原罪”,不代表他现在创造的合法成果就不再受保护。
原始过程可以被质疑,但已经形成的商业成果,应当被保护。
最后,情绪之外,更需要关注规则。 围绕 Claude 及其母公司 Anthropic 的争议,舆论很容易滑向情绪对立,甚至上升到国别层面。 与其简单地站队或情绪化批判,不如承认现实:传统的知识产权规则已经被AI改写,而对应的法律与伦理体系却还在追赶。 AI浪潮下,如何在技术创新与知识产权保护之间找到新的平衡是亟需解决的。