美国法官一句话，给AI绘画与大模型训练泼了三盆冷水

AI PM 编辑部 · 2023年08月21日 · 5 阅读 · AI/人工智能

AI应用开源模型生成式AI AI绘画模型训练 ChatGPT Llama OpenAI Microsoft Google

正在加载视频...

视频章节

AI画得再好，也拿不到版权；大模型吃了17万本书，作者集体炸锅；而另一边，媒体开始怀疑：生成式AI是不是已经到顶了？这期《AI Daily Brief》把法律、舆论和市场情绪三条暗线，一次性拉到台前。

美国法官一句话，给AI绘画与大模型训练泼了三盆冷水

AI画得再好，也拿不到版权；大模型吃了17万本书，作者集体炸锅；而另一边，媒体开始怀疑：生成式AI是不是已经到顶了？这期《AI Daily Brief》把法律、舆论和市场情绪三条暗线，一次性拉到台前。

AI画得再像人，也还不是“作者”

最炸裂的结论，来自美国法院：AI生成的艺术作品，不能获得版权保护。

DC地方法院法官在裁决中说得非常直白——“人类，是有效版权主张中不可或缺的一部分”。这不是一句情绪化表态，而是对过去几十年版权法逻辑的延续。

这起案件的主角是Stephen Thaler。他早在2019年就试图为一张由自己开发的算法“Creativity Machine”生成的图片申请版权。版权局拒绝了，理由只有一个：没有人类作者。

Thaler一路上诉，最终甚至起诉了美国版权局，指控其决定“武断、反复无常、不符合法律”。但法官Howell依然站在了版权局一边，并写下了那句后来被频繁引用的话：“版权从未授予过任何完全缺乏人类引导之手的作品。”

值得玩味的是，法官并没有把门彻底关死。她承认，人类正“接近版权的新前沿”，真正棘手的问题是：到底需要多少人类参与，才算作者？

这也正是当前政策的暧昧地带。美国版权局在今年3月再次确认：大多数AI生成内容不可版权化，但如果人类对AI输出进行了“足够有创造性的选择或编排”，版权仍然可能成立。清晰吗？一点也不。但现实就是这样模糊。

17万本书进了模型，作者和开源阵营正面冲突

如果说AI绘画的版权争议还偏抽象，那模型训练的数据问题，已经直接点燃了作者群体。

《大西洋月刊》披露：Meta的LLaMA模型训练数据中，包含一个名为Books3的数据集，收录了超过17万本书。作者名单极其“豪华”——Stephen King、James Patterson、Michael Pollan赫然在列。

更刺激的是，Books3并不只被Meta使用。报道指出，它还被用于训练Bloomberg GPT、EleutherAI的GPT-J等多个生成式模型。这意味着，一个由独立开发者整理的数据集，正在成为开源与商业模型的“公共燃料”。

出版商数字同样触目惊心：约3万本来自企鹅兰登书屋，1.4万本来自哈珀柯林斯，7000本来自麦克米伦，甚至还有1800本来自牛津大学出版社。

Meta拒绝评论，Bloomberg没有回应，而EleutherAI则并未否认使用Books3。数据集的创建者Sean Presser的态度很复杂：他同情作者，但更担心的是——如果没有Books3，只有OpenAI能负担得起训练数据，生成式AI将彻底走向垄断。

于是，一个尖锐的问题被摆上台面：训练数据的版权争议，究竟是在保护创作者，还是在无意中抬高AI的入场门槛？答案，最终只会在法院里给出。

一边是官司缠身，一边是“AI是不是凉了”的舆论转向

当法律战打得火热，舆论场却悄悄换了风向。

Axios最近的一篇文章抛出一个刺耳的问题：生成式AI的繁荣期，已经过去了吗？证据并不多——ChatGPT在6月的访问量下滑，Bing在引入AI后市场份额变化不大。

微软的回应也很典型：第三方数据低估了真实情况，但内部数据不会公开。真假难辨。

但比数据更重要的，是“叙事本身”的变化。几个月前，媒体还在疯狂渲染AI如何颠覆一切；现在，“AI热度退潮”这种文章开始获得传播，这本身就说明情绪正在发生变化。

有意思的是，这种情绪与现实形成强烈反差。LinkedIn的《未来工作》报告显示，新加坡是全球AI技能采用最快的国家，成员在个人资料中添加AI技能的比例，7年增长了20倍。IBM则警告，高管预计未来三年40%的员工需要因AI而重新技能化。

于是我们看到一个极其割裂的现实：公众在疲劳，媒体在降温，但职场和企业却在加速押注。

总结

把这三条线连起来看，会发现一个清晰信号：AI没有放慢脚步，但它正在从“技术狂欢”进入“规则重塑期”。

对从业者来说，这意味着三件事：第一，别再指望“纯AI生成”就能解决版权问题，人类参与将成为硬门槛；第二，数据来源会成为模型竞争的生死线，尤其是在开源与商业力量的拉扯中；第三，别被“AI降温论”迷惑，真正的机会正在从噱头转向能力和落地。

一个值得思考的问题是：当版权、数据和技能都被重新定义，你现在做的AI工作，是在旧规则里内卷，还是在为新规则卡位？

关键词：生成式AI， AI版权，模型训练数据，开源模型， AI技能

事实核查备注：需要核查：1）案件时间线（2019年申请、2022年维持原判、2023年裁决）；2）法官Howell的原文表述；3）Books3数据集包含约17万本书的数量；4）涉及的模型与公司名称（LLaMA、Bloomberg GPT、GPT-J）；5）LinkedIn与IBM报告中的百分比数据。

返回文章列表