OpenAI DevDay 上,这家创业公司用一件事戳穿了“多模态应用”的假繁荣
正在加载视频...
视频章节
在 OpenAI DevDay 2024 上,Mindtrip 的分享意外成了全场最“清醒”的一段:他们几乎没讲 Realtime API,也没炫技模型能力,而是用一个旅行产品,直接点破了当下多模态 AI 最大的幻觉——会看、会听、会说,远远不等于有用。
OpenAI DevDay 上,这家创业公司用一件事戳穿了“多模态应用”的假繁荣
在 OpenAI DevDay 2024 上,Mindtrip 的分享意外成了全场最“清醒”的一段:他们几乎没讲 Realtime API,也没炫技模型能力,而是用一个旅行产品,直接点破了当下多模态 AI 最大的幻觉——会看、会听、会说,远远不等于有用。
最反直觉的一点:他们几乎没讲 Realtime API
如果你看过 DevDay 的其他分享,大概率已经被 Realtime API、语音打断、低延迟对话刷屏。但 Garrick Toubassi 一上来就“泼冷水”——Mindtrip 今天的主角,不是你刚发布的新玩具,而是那个大家早就用烂了的 Chat Completions API。
这在 DevDay 的语境下,本身就是一种态度。因为他们想讲的不是“模型多强”,而是一个更刺痛的问题:为什么这么多 LLM 应用,看起来很聪明,却一点也不好用?
Mindtrip 的结论非常直接——问题不在生成质量,而在“结果是死的”。模型吐出来的文字,无法被继续操作、修改、协作、执行。你问 ChatGPT 一个旅行计划,它给你一段看起来很完整的文字,但你依然站在“行动之前”。Garrick 用了一个很形象的说法:这些文本“把你留在了婚礼的祭坛上”。
这其实点中了一个行业级的痛点:我们高估了生成内容本身的价值,低估了把内容变成系统状态的难度。
Mindtrip 真正解决的不是“多模态”,而是“文本失活”
Mindtrip 的产品看起来是一个 AI 旅行平台,但他们内部对问题的定义非常清楚:不是“怎么生成更好的内容”,而是“怎么让内容活起来”。
当用户丢给 Mindtrip 一段博客、一篇攻略、一段视频,甚至只是一张图片,系统做的第一件事不是润色语言,而是识别实体、建立结构、映射到真实世界:
- 地点会被放到地图上
- 行程会变成可编辑的 itinerary
- 内容不再是段落,而是对象(place、activity、day)
Garrick 特别强调了一点:他们并不是重新发明 LLM,而是把 LLM 当成“理解层”,真正的产品价值在后面。
这也是他调侃 Wanderlust Demo 的那一刻——“just for the record, we were there first”。不是为了争谁更酷,而是在暗示:真正的门槛不在 demo,而在后续系统怎么接住模型的输出。
对很多 AI 从业者来说,这是一个不太愿意面对的事实:多模态不是难在模型,而是难在产品工程。
从博客到图片再到短视频:多模态真正有用的路径
Mindtrip 的 demo 非常有代表性,因为它覆盖了当下内容生态里最常见的三种“灵感来源”:
第一,是文本。一个关于葡萄牙外海岛屿的博客文章,被直接转成结构化行程。这一步看似基础,但关键在“忠实还原”而不是“重新编造”。
第二,是图片。用户只说一句“我想去这里”,图片被直接送进 GPT-4o,模型负责理解画面,系统负责把理解结果转成可规划的目的地。
第三,也是最容易被忽略的一类:短视频。Mindtrip 把一段伦敦推荐的社交视频丢进去,系统不仅识别出城市,还能提取推荐点位,直接落到地图和行程里。
这里有一个非常重要的技术判断:视频不是一种新的输入模态,而是“图像 + 音频 + 时间采样”的工程问题。
Garrick 在台上花了不少时间讲“脏活累活”:OCR、Whisper、帧抽样、FFmpeg、URL 缓存、成本与延迟权衡。这些内容不性感,但恰恰是多模态应用能否规模化的分水岭。
一句话总结:多模态不是 API 能力,而是系统能力。
他们对 Realtime API 的态度,值得所有创业者参考
在分享的最后,Garrick 才提到 Realtime API,而且语气非常克制。
是的,它很酷。
是的,实时打断、即时反馈很强。
但 Mindtrip 现在的核心价值,并不依赖它。
原因很简单:他们真正要解决的,不是“对话多顺”,而是“从灵感到预订的路径够不够短”。图片、多模态输入、已有内容,已经足够帮用户跨过“空白光标”的那一刻。
这句话其实非常值得反复咀嚼:与其让用户面对一个更聪明的空白输入框,不如直接把世界已经存在的内容,变成对话的起点。
这几乎可以当作 2025 年 AI 应用设计的一条底层原则。
总结
Mindtrip 这场分享最有价值的地方,不在于他们用了多少新 API,而在于他们给了行业一个非常清醒的提醒:多模态的终点不是“看懂世界”,而是“改变世界里的下一步行动”。
如果你正在做 AI 产品,真正值得问的问题可能是:你的模型输出,是不是还停留在一段“看起来很对”的文字?它有没有被接进一个可以修改、协作、执行的系统?
未来一年,多模态能力会越来越普及,真正拉开差距的,将是那些能把现有内容转化为“可行动状态”的团队。也许你现在就可以回去看看:你的产品里,有没有还没被激活的“死文本”?
关键词: 多模态AI, OpenAI DevDay, GPT-4o, AI应用设计, Mindtrip
事实核查备注: 需要核查:1)视频发布时间是否为 2024-12-17;2)Mindtrip 创始人发言人名 Garrick Toubassi 拼写;3)提及的 OpenAI API 名称是否为 Chat Completions 与 Realtime API;4)使用的模型是否明确为 GPT-4o;5)视频中是否明确提到 Whisper、OCR、FFmpeg 作为实现方式。