当ChatGPT用一句话回答用户的百科式提问时,你可能没意识到——这句话的背后,可能藏着对百年出版机构知识版权的“无声掠夺”。3月16日,科技媒体TechCrunch报道:《大英百科全书》(Encyclopedia Britannica)及其旗下权威辞书《韦氏词典》(Merriam-Webster),正式向OpenAI发起诉讼,直指这家AI巨头“大规模侵犯版权”。这场官司,将AI训练数据的“合法性边界”再次推至舆论中心。
一、百年知识堡垒的指控:OpenAI踩了哪些“红线”?
作为拥有近100年数字内容沉淀的出版商,《大英百科全书》称其近10万篇在线文章被OpenAI未经许可抓取,用于训练大语言模型(LLM)。更关键的是,OpenAI的生成式输出存在三大侵权嫌疑:
直接复制
:ChatGPT会生成包含其文章“完整或部分逐字重现”的内容;
RAG流程滥用
:OpenAI的“检索增强生成(RAG)”工具(用于扫描网络更新信息)涉嫌使用其文章作为数据源;
商标与信誉损害
:当ChatGPT出现“幻觉”(编造虚假信息)并假借其名义发布时,违反了《兰哈姆法》(美国商标法),既误导公众,也砸了“权威知识来源”的招牌。
在起诉书中,《大英百科全书》痛陈:“ChatGPT通过替代我们的内容直接回应用户查询,抢走了本应属于出版商的流量与收入;而它的‘幻觉’更让公众对‘可信在线信息’的信心岌岌可危——毕竟,没人愿意相信一本‘会编瞎话’的百科全书。”
二、不是孤例:AI版权纠纷已成行业“集体行动”
《大英百科全书》并非第一个向OpenAI“宣战”的知识玩家。此前,《纽约时报》、Ziff Davis(旗下有Mashable、CNET等)、加拿大广播公司(CBC)及美国十余家地方报纸(如《芝加哥论坛报》《丹佛邮报》)均已发起类似诉讼,核心诉求均是“停止未经授权使用版权内容训练AI”。
值得注意的是,《大英百科全书》针对另一家AI公司Perplexity的诉讼仍在进行中——这意味着,“AI+知识版权”的矛盾已从单一公司蔓延至整个行业。
三、法律迷雾:训练数据“用还是不用”,至今无定论?
目前,全球尚无明确法律先例判定“用版权内容训练LLM是否构成侵权”。不过,Anthropic曾有过一次关键案例:联邦法官William Alsup认可“训练数据的‘转化性使用’(即生成新内容而非直接复制)可能合法”,但同时指出Anthropic非法下载数百万本书籍(未付费)的行为违法,最终促成15亿美元的和解协议。
这一判决留下两个悬念:“训练数据的获取方式”与“使用目的”哪个更关键?对OpenAI而言,若无法证明“抓取内容时已获得授权”或“使用具有足够转化性”,《大英百科全书》的诉讼可能成为“压垮骆驼的第一根稻草”。
四、AI时代的追问:知识的“免费午餐”,还能吃多久?
《大英百科全书》的起诉,本质是一场“传统知识守护者”与“AI创新者”的博弈——当AI试图用“全网抓取”的方式快速迭代能力时,那些花费数十年积累、以版权为壁垒的“深度知识”,该如何被尊重?
正如业内人士所言:“如果AI可以随意‘吃掉’别人的知识却不付钱,那么未来不会有机构再愿意投入成本做‘慢功夫’的知识生产——毕竟,谁会为一个可能被AI免费‘抄走’的成果买单?”
目前,OpenAI尚未回应TechCrunch的置评请求。但这场官司的意义早已超越两家公司的胜负:它是在为AI时代的知识版权“划红线”——创新不能以牺牲创作者的权益为代价。
#AI版权纠纷
#OpenAI被诉#大英百科全书维权#生成式AI伦理#知识生产者困境