Zoom条款炸锅、GPTBot爬网:AI训练数据的“默认同意”正在崩塌

AI PM 编辑部 · 2023年08月08日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

一行条款更新,让Zoom被骂成“NSA 2.0”;一个新爬虫发布,又把OpenAI推上数据争议前线。AI模型还在疯狂进化,但训练数据的“合法性”和“信任”正在成为真正的瓶颈。这不是隐私恐慌,而是一场正在发生的范式转移。

Zoom条款炸锅、GPTBot爬网:AI训练数据的“默认同意”正在崩塌

一行条款更新,让Zoom被骂成“NSA 2.0”;一个新爬虫发布,又把OpenAI推上数据争议前线。AI模型还在疯狂进化,但训练数据的“合法性”和“信任”正在成为真正的瓶颈。这不是隐私恐慌,而是一场正在发生的范式转移。

一行条款,把Zoom送上风口浪尖

事情的导火索并不是一次黑客攻击,而是用户突然“认真读了条款”。Zoom服务条款第10.2节被翻出,其中关于“访问、使用、处理、存储会议内容”的表述,被解读为极度宽泛,甚至被形容为“NSA 2.0”。多位意见领袖公开表示停用或迁移平台,情绪迅速发酵。

更微妙的是,Zoom随后解释:这些条款早在几个月前就已更新;只有在用户主动启用生成式AI功能,并且管理员选择“用于改进AI服务”时,会议数据才可能被使用;而且不会在未获同意的情况下,用音频、视频或聊天内容训练模型。

问题在于——即便解释成立,信任已经受损。正如LA Times专栏作家Brian Merchant指出的,这次风波真正击中的是一个长期被忽视的现实:我们对“为了训练模型而使用数据”的默认授权,正在失效。不是Zoom一家,而是几乎所有AI驱动的平台,都站在同一条审判线上。

GPTBot登场:OpenAI第一次把“爬虫”摆上台面

如果说Zoom事件是被动挨打,那OpenAI这次更像是主动亮牌。GPTBot,一个明确用于抓取公开互联网内容的网络爬虫,被正式公布。OpenAI直说:这些数据“可能被用于改进未来模型”。

同时,它也划出了几道“护栏”:不抓取需要付费墙的内容、不收集个人可识别信息、不碰违反政策的网站。听起来很克制,但争议并没有因此消失。

原因很现实:第一,什么算“PII”?谁来维护这个列表?在海量数据摄取中,人类流程本身就充满不确定性。第二,OpenAI同时告诉站长——你可以用一行代码屏蔽GPTBot。

这立刻引出一个尖锐问题:为什么要允许? 和Google搜索不同,AI爬虫不会给你带来流量回报。正如创业者Mark Tenenholtz指出的,这可能会演变成一场实验:默认设置,会不会从“允许抓取”变成“默认封锁AI”?如果真是这样,模型训练的“免费午餐时代”可能正在结束。

当AI越来越强,数据却越来越“烫手”

把视角拉远,你会发现同一天的其他新闻,正在形成诡异的呼应。微软宣布Bing Chat进入第三方移动浏览器,并强化多模态搜索——图像、文字、上下文一起上;另一边,英国研究者展示了一种模型,能通过键盘敲击声推断输入内容,甚至在Zoom录音中也能达到高准确率。

这两件事放在一起,信息量极大:一方面,AI系统对多源数据的理解和整合能力正在迅速跃迁;另一方面,人类产生的每一个“无意数据泄露”,价值都在指数级上升。

这意味着,争议不再只是“公司会不会作恶”,而是一个更残酷的问题——在技术可行的前提下,哪些数据不该被用? 目前给出的防御方案(随机密码、假敲击、改用生物识别)并不优雅,也不现实。于是,监管、条款、默认设置,成了唯一还能踩刹车的地方。

总结

这波争议真正重要的,不是Zoom有没有“越界”,也不是你该不该屏蔽GPTBot,而是一个趋势已经非常清晰:AI训练正在从“默许采集”走向“逐条谈判”。

对AI从业者来说,有三个直接启示:第一,数据来源会成为模型竞争力的一部分,而不是背景假设;第二,产品设计中“默认选项”的伦理权重正在急剧上升;第三,未来你和朋友聊AI,不能只聊参数和多模态,还得聊清楚——这些能力,到底是用什么换来的。

一个值得思考的问题是:当越来越多网站选择封锁,当数据变成稀缺资源,下一代大模型的护城河,会不会不再是算力,而是信任?


关键词: GPTBot, 数据隐私, 模型训练, AI伦理, 生成式AI

事实核查备注: 需要核查:Zoom服务条款第10.2节的具体措辞;Zoom关于“未经同意不用于训练模型”的澄清声明发布时间;GPTBot的官方用户代理说明及屏蔽方式;Mark Tenenholtz关于AI爬虫无流量激励的原始表述;微软公布的Bing Chat使用数据(一十亿次聊天、7.5亿张图片)。