
OpenAI现在最怕的,不是被骂“偷书”,而是被逼着解释——当初为啥要删那两份“见不得光”的数据集?
这事闹大了。
它删掉的数据集叫“Books 1”和“Books 2”,里面装的全是网上扒下来的盗版电子书,主要来源是一个叫“Library Genesis”(简称 LibGen)的影子图书馆——说白了,就是个全球知名的“学术海盗湾”。
这两份数据是2021年由当时还在OpenAI的员工搞出来的,但在ChatGPT正式发布前(2022年),公司突然把它们全删了。
官方说法是:“这些数据后来没用了,所以顺手清理了。 ”
但作家们不买账。
他们提起集体诉讼,指控ChatGPT的训练数据里包含大量未经授权的作品——而OpenAI删数据这个动作,很可能就是“心虚”的铁证。
更尴尬的是,OpenAI在法庭上还玩起了“变脸”:
先说删数据是因为“不再使用”,后来又改口说“所有删数据的理由都属于律师-客户保密特权,不能公开”。
结果法官一听就火了:你前面自己说“非使用”是理由,现在又说这理由“受特权保护”? 哪有这种操作!
法官拍板:所有内部聊天记录,必须交出来!上周,美国地区法官 谢王 下达裁定:
OpenAI 必须在 12月8日前,交出所有与删除数据集相关的内部沟通记录——包括那些曾以“律师保密”为由隐藏或删减的内容。同时,公司内部法务也得在 12月19日前 接受质询。
法官特别指出,OpenAI犯了个低级错误:一边声称“非使用”不是删数据的“正式理由”,一边又想用“律师保密”把“非使用”给捂住。 逻辑自相矛盾。
她在判决书中写道:
“OpenAI 在‘非使用’是否属于特权这个问题上反复横跳。 你不能先说一个‘理由’(暗示它不保密),然后又说这个‘理由’其实是保密的——只为逃避调查。 ”
她还补了一刀:“你说所有删数据的理由都是保密的? 这话听着就不靠谱。 ”
OpenAI喊冤:我们没翻供! 只是表达不清…面对指控,OpenAI辩解说:“我们没改口,只是措辞模糊,导致大家误会了。 ”
但法官不吃这套:
“就算‘非使用’真能算作保密内容,你们也已经因为反复更改主张,主动放弃了这项特权。”
更打脸的是,法官亲自翻看了OpenAI内部那个叫“excise-libgen”(意为“清除LibGen数据”)的Slack频道。
结果发现——绝大多数对话根本没找律师咨询过,纯粹是技术团队自己在讨论怎么删数据。
唯一一次有法务露面,是律师 Jason Kwon 建议把频道名改成“project-clear”(项目清理),仅此而已。
法官提醒OpenAI:“别以为只要律师在群里,整个频道就自动变成‘保密内容’了。 没这回事。 ”
为什么这事关重大? ——可能罚到倾家荡产作家们的终极目标,是证明OpenAI “明知故犯”、“故意侵权”。
为什么? 因为在版权案中,如果法院认定被告是“故意侵权”,每部作品最高可判赔
法官引用判例解释道:
“所谓‘故意’,要么是你明知这是盗版还用,要么是你对版权人的权利视而不见、抱着侥幸心理硬上。”
而OpenAI删数据这个行为,恰恰暴露了它的“心虚状态”——法官原话是:“这直接关系到OpenAI是否具备‘善意’,而这会影响最终赔偿金额。 ”
作家方律师 Christopher Young 更是直指要害:
“如果证据显示,OpenAI后来不用这些数据是因为怕惹上官司…… 那基本坐实了‘故意侵权’。 ”他还怀疑:“OpenAI是不是换了个名字,偷偷继续用这些数据? ”
法官怒斥:别拿Anthropic的判决给自己洗地!更让OpenAI难堪的是,它居然试图引用竞争对手 Anthropic 的一个判决来为自己开脱——结果被法官当场抓包,说它“严重曲解原意”。
OpenAI声称:“法官Alsup说过,从盗版网站下载书,只要是为了训练大模型,就不算违法。 ”
法官Wang直接在脚注里回怼:
“你这引用太离谱了! Alsup法官明明说的是——任何侵权者,如果能合法买到或获取这些书,却偏要去盗版站下载,那根本不可能构成‘合理使用’。”
她还特意引用Alsup的原话加重语气:
“这种行为本身就是赤裸裸的侵权——哪怕你下载完立刻用来训练模型,哪怕用完马上删掉,也改变不了本质。”
言下之意:OpenAI干的事,正好撞在枪口上。
终极杀招? Anthropic CEO或将成“关键证人”这场官司还有一个隐藏爆点——现任Anthropic CEO 达里奥·阿莫代(Dario Amodei)。
他被指控正是当年在OpenAI任职期间,亲手创建了“Books 1”和“Books 2”这两个争议数据集。
作家们相信,他不仅知道数据怎么来的,更清楚它们是怎么被“销毁”的。
今年3月,法官已裁定:Amodei必须出庭作证,回答所有关键问题。
至于他会不会爆出猛料? 没人知道。 但可以肯定的是——OpenAI现在骑虎难下。
法官一针见血指出:
“一家公司一边说自己‘出于善意听取了律师建议’,一边又用‘律师保密’堵住所有追问——这本身就自相矛盾。 你的辩护,已经被你自己削弱了。 ”
结局预测:和解,可能是OpenAI最后的体面《好莱坞报道者》分析认为,一旦这些被隐藏的Slack消息曝光,天平将彻底倒向作家一方。
有趣的是,在Anthropic不久前达成史上最大版权集体和解之前,就有证据显示——他们后来对用盗版书“没那么热衷了”,原因正是“怕惹上法律麻烦”。
而这,恰恰是作家们最想从OpenAI内部挖出来的“实锤”:
“你们不是不知道这是盗版,你们是知道会被告,才急着删数据。”
现在,法官给了他们这个机会。
OpenAI嘴上说“不同意判决,要上诉”,但所有人都在等——12月8日,那些被藏起来的聊天记录,到底会揭开怎样一场“AI时代的版权风暴”。