Zoom条款炸锅、GPTBot爬网：AI训练数据的“默认同意”正在崩塌

AI PM 编辑部 · 2023年08月08日 · 5 阅读 · AI/人工智能

多模态大语言模型 AI搜索文本生成图像 AI安全机器学习深度学习生成式AI AI伦理模型训练

正在加载视频...

视频章节

一行条款更新，让Zoom被骂成“NSA 2.0”；一个新爬虫发布，又把OpenAI推上数据争议前线。AI模型还在疯狂进化，但训练数据的“合法性”和“信任”正在成为真正的瓶颈。这不是隐私恐慌，而是一场正在发生的范式转移。

Zoom条款炸锅、GPTBot爬网：AI训练数据的“默认同意”正在崩塌

一行条款更新，让Zoom被骂成“NSA 2.0”；一个新爬虫发布，又把OpenAI推上数据争议前线。AI模型还在疯狂进化，但训练数据的“合法性”和“信任”正在成为真正的瓶颈。这不是隐私恐慌，而是一场正在发生的范式转移。

一行条款，把Zoom送上风口浪尖

事情的导火索并不是一次黑客攻击，而是用户突然“认真读了条款”。Zoom服务条款第10.2节被翻出，其中关于“访问、使用、处理、存储会议内容”的表述，被解读为极度宽泛，甚至被形容为“NSA 2.0”。多位意见领袖公开表示停用或迁移平台，情绪迅速发酵。

更微妙的是，Zoom随后解释：这些条款早在几个月前就已更新；只有在用户主动启用生成式AI功能，并且管理员选择“用于改进AI服务”时，会议数据才可能被使用；而且不会在未获同意的情况下，用音频、视频或聊天内容训练模型。

问题在于——即便解释成立，信任已经受损。正如LA Times专栏作家Brian Merchant指出的，这次风波真正击中的是一个长期被忽视的现实：我们对“为了训练模型而使用数据”的默认授权，正在失效。不是Zoom一家，而是几乎所有AI驱动的平台，都站在同一条审判线上。

GPTBot登场：OpenAI第一次把“爬虫”摆上台面

如果说Zoom事件是被动挨打，那OpenAI这次更像是主动亮牌。GPTBot，一个明确用于抓取公开互联网内容的网络爬虫，被正式公布。OpenAI直说：这些数据“可能被用于改进未来模型”。

同时，它也划出了几道“护栏”：不抓取需要付费墙的内容、不收集个人可识别信息、不碰违反政策的网站。听起来很克制，但争议并没有因此消失。

原因很现实：第一，什么算“PII”？谁来维护这个列表？在海量数据摄取中，人类流程本身就充满不确定性。第二，OpenAI同时告诉站长——你可以用一行代码屏蔽GPTBot。

这立刻引出一个尖锐问题：为什么要允许？ 和Google搜索不同，AI爬虫不会给你带来流量回报。正如创业者Mark Tenenholtz指出的，这可能会演变成一场实验：默认设置，会不会从“允许抓取”变成“默认封锁AI”？如果真是这样，模型训练的“免费午餐时代”可能正在结束。

当AI越来越强，数据却越来越“烫手”

把视角拉远，你会发现同一天的其他新闻，正在形成诡异的呼应。微软宣布Bing Chat进入第三方移动浏览器，并强化多模态搜索——图像、文字、上下文一起上；另一边，英国研究者展示了一种模型，能通过键盘敲击声推断输入内容，甚至在Zoom录音中也能达到高准确率。

这两件事放在一起，信息量极大：一方面，AI系统对多源数据的理解和整合能力正在迅速跃迁；另一方面，人类产生的每一个“无意数据泄露”，价值都在指数级上升。

这意味着，争议不再只是“公司会不会作恶”，而是一个更残酷的问题——在技术可行的前提下，哪些数据不该被用？ 目前给出的防御方案（随机密码、假敲击、改用生物识别）并不优雅，也不现实。于是，监管、条款、默认设置，成了唯一还能踩刹车的地方。

总结

这波争议真正重要的，不是Zoom有没有“越界”，也不是你该不该屏蔽GPTBot，而是一个趋势已经非常清晰：AI训练正在从“默许采集”走向“逐条谈判”。

对AI从业者来说，有三个直接启示：第一，数据来源会成为模型竞争力的一部分，而不是背景假设；第二，产品设计中“默认选项”的伦理权重正在急剧上升；第三，未来你和朋友聊AI，不能只聊参数和多模态，还得聊清楚——这些能力，到底是用什么换来的。

一个值得思考的问题是：当越来越多网站选择封锁，当数据变成稀缺资源，下一代大模型的护城河，会不会不再是算力，而是信任？

关键词： GPTBot，数据隐私，模型训练， AI伦理，生成式AI

事实核查备注：需要核查：Zoom服务条款第10.2节的具体措辞；Zoom关于“未经同意不用于训练模型”的澄清声明发布时间；GPTBot的官方用户代理说明及屏蔽方式；Mark Tenenholtz关于AI爬虫无流量激励的原始表述；微软公布的Bing Chat使用数据（一十亿次聊天、7.5亿张图片）。

返回文章列表