一个月100万次“看见”:GPT-4V正在悄悄重塑无障碍的边界

AI PM 编辑部 · 2023年11月15日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 上,一个最容易被忽略的 Demo 给了 AI 从业者当头一棒:真正落地的多模态 AI,不是炫技,而是让 9 成用户不再需要“找人帮忙”。这一次,GPT-4V 没有展示未来,而是直接改变了现实。

一个月100万次“看见”:GPT-4V正在悄悄重塑无障碍的边界

在 OpenAI DevDay 上,一个最容易被忽略的 Demo 给了 AI 从业者当头一棒:真正落地的多模态 AI,不是炫技,而是让 9 成用户不再需要“找人帮忙”。这一次,GPT-4V 没有展示未来,而是直接改变了现实。

最反直觉的事实:AI 不是替代人,而是让人不再需要求人

如果你只记住这场分享的一句话,那应该是 Jesper 的这句隐性结论:用户不想更快地联系志愿者,他们想根本不用联系任何人。

Be My Eyes 最初的模式非常“人性化”——通过视频通话,让志愿者“借出眼睛”,实时帮助盲人和低视力人群。但问题恰恰出在这里:再友善的志愿者,也意味着依赖。

用户的反馈非常现实:不想成为负担;不想在周一早上、房间很乱的时候和陌生人说话;不想把生活的每一个细节交给别人。于是,一个听起来更冷冰冰、却更自由的选择出现了:24/7 的 AI 视觉助理。

这正是 Be My AI + GPT-4 Vision 出场的原因。不是“AI 帮你找人”,而是“AI 直接看懂世界”。

从“能用”到“像人”:多模态真正跨过的那道坎

Jesper 在台上反复强调一件事:GPT-4V 的价值,不只是“描述准确”。

对比一个例子就够了:美国政府网站上的一张全球气温柱状图,官方 alt text 只有一句——“显示自 1880 年以来全球气温上升的柱状图”。而 GPT-4V 给出的,是结构、趋势、重点变化的完整语言描述。

这背后跨越的是一个长期被低估的门槛:从机器视觉到视觉语言模型(VLM),真正把“看见”变成“理解”。

更重要的是,反馈显示模型的表达“出奇地像人”。这不是情绪价值,而是可用性:当用户在刷 Instagram、看群聊照片、浏览堆满图片却没有 alt text 的网站时,他们得到的不是标签,而是叙述。

结果是冷冰冰的数据反转:有位用户过去一年只打了 2 次志愿者电话,而现在,已经用 AI 完成了 700 多次图像描述。选择权一给,行为立刻变了。

给 AI 从业者的警告:真正的指标不是模型分数

这场分享里最值得从业者反思的,不是模型能力,而是产品指标。

几个数字很残酷:
- 每月约 100 万次图像描述
- 支持约 36 种语言
- 企业支持场景已部署
- 9/10 的用户不再升级到真人通话

这意味着什么?意味着 GPT-4V 的成功,不体现在 benchmark 上,而体现在“没有发生的事情”上——没有拨出的电话,没有被打扰的志愿者。

甚至在提示工程层面,团队发现一个荒诞细节:他们不得不在 prompt 里明确告诉模型,它不能提供物理上的帮助。当模型开始说“牵着你的手带你走”的时候,说明用户已经在心理层面,把它当成了一个能“在场”的存在。

AI 开始看、开始听,而无障碍只是第一个被彻底改写的领域。

总结

这不是一个“AI 很厉害”的故事,而是一个“产品终于站在用户这边”的故事。对 AI 从业者来说,最大的 takeaway 不是去追更大的模型,而是反问自己:你的 AI,是在增加依赖,还是在减少求助?

多模态的真正价值,不在炫技 Demo,而在那些没人再需要打出的电话。下一波 AI 应用的分水岭,很可能就是这一点:是否让用户更自由。


关键词: GPT-4 Vision, 多模态AI, 无障碍技术, Be My Eyes, AI应用落地

事实核查备注: 需要核查的关键事实包括:Be My Eyes 用户与志愿者数量;GPT-4 Vision 合作关系;每月约100万次图像描述的数据;支持约36种语言;9/10用户不升级到真人通话的比例;分享发生于 OpenAI DevDay 2023-11-15。