一个月100万次“看见”：GPT-4V正在悄悄重塑无障碍的边界

AI PM 编辑部 · 2023年11月15日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 上，一个最容易被忽略的 Demo 给了 AI 从业者当头一棒：真正落地的多模态 AI，不是炫技，而是让 9 成用户不再需要“找人帮忙”。这一次，GPT-4V 没有展示未来，而是直接改变了现实。

在 OpenAI DevDay 上，一个最容易被忽略的 Demo 给了 AI 从业者当头一棒：真正落地的多模态 AI，不是炫技，而是让 9 成用户不再需要“找人帮忙”。这一次，GPT-4V 没有展示未来，而是直接改变了现实。

如果你只记住这场分享的一句话，那应该是 Jesper 的这句隐性结论：用户不想更快地联系志愿者，他们想根本不用联系任何人。

Be My Eyes 最初的模式非常“人性化”——通过视频通话，让志愿者“借出眼睛”，实时帮助盲人和低视力人群。但问题恰恰出在这里：再友善的志愿者，也意味着依赖。

用户的反馈非常现实：不想成为负担；不想在周一早上、房间很乱的时候和陌生人说话；不想把生活的每一个细节交给别人。于是，一个听起来更冷冰冰、却更自由的选择出现了：24/7 的 AI 视觉助理。

这正是 Be My AI + GPT-4 Vision 出场的原因。不是“AI 帮你找人”，而是“AI 直接看懂世界”。

Jesper 在台上反复强调一件事：GPT-4V 的价值，不只是“描述准确”。

对比一个例子就够了：美国政府网站上的一张全球气温柱状图，官方 alt text 只有一句——“显示自 1880 年以来全球气温上升的柱状图”。而 GPT-4V 给出的，是结构、趋势、重点变化的完整语言描述。

这背后跨越的是一个长期被低估的门槛：从机器视觉到视觉语言模型（VLM），真正把“看见”变成“理解”。

更重要的是，反馈显示模型的表达“出奇地像人”。这不是情绪价值，而是可用性：当用户在刷 Instagram、看群聊照片、浏览堆满图片却没有 alt text 的网站时，他们得到的不是标签，而是叙述。

结果是冷冰冰的数据反转：有位用户过去一年只打了 2 次志愿者电话，而现在，已经用 AI 完成了 700 多次图像描述。选择权一给，行为立刻变了。

这场分享里最值得从业者反思的，不是模型能力，而是产品指标。

几个数字很残酷：
- 每月约 100 万次图像描述
- 支持约 36 种语言
- 企业支持场景已部署
- 9/10 的用户不再升级到真人通话

这意味着什么？意味着 GPT-4V 的成功，不体现在 benchmark 上，而体现在“没有发生的事情”上——没有拨出的电话，没有被打扰的志愿者。

甚至在提示工程层面，团队发现一个荒诞细节：他们不得不在 prompt 里明确告诉模型，它不能提供物理上的帮助。当模型开始说“牵着你的手带你走”的时候，说明用户已经在心理层面，把它当成了一个能“在场”的存在。

AI 开始看、开始听，而无障碍只是第一个被彻底改写的领域。

这不是一个“AI 很厉害”的故事，而是一个“产品终于站在用户这边”的故事。对 AI 从业者来说，最大的 takeaway 不是去追更大的模型，而是反问自己：你的 AI，是在增加依赖，还是在减少求助？

多模态的真正价值，不在炫技 Demo，而在那些没人再需要打出的电话。下一波 AI 应用的分水岭，很可能就是这一点：是否让用户更自由。

关键词： GPT-4 Vision，多模态AI，无障碍技术， Be My Eyes， AI应用落地

事实核查备注：需要核查的关键事实包括：Be My Eyes 用户与志愿者数量；GPT-4 Vision 合作关系；每月约100万次图像描述的数据；支持约36种语言；9/10用户不升级到真人通话的比例；分享发生于 OpenAI DevDay 2023-11-15。