OpenAI DevDay 上，这家创业公司用一件事戳穿了“多模态应用”的假繁荣

AI PM 编辑部 · 2024年12月17日 · 12 阅读 · AI/人工智能

多模态 AI应用大语言模型语音识别文字识别 GPT-4o ChatGPT Whisper

正在加载视频...

视频章节

在 OpenAI DevDay 2024 上，Mindtrip 的分享意外成了全场最“清醒”的一段：他们几乎没讲 Realtime API，也没炫技模型能力，而是用一个旅行产品，直接点破了当下多模态 AI 最大的幻觉——会看、会听、会说，远远不等于有用。

OpenAI DevDay 上，这家创业公司用一件事戳穿了“多模态应用”的假繁荣

在 OpenAI DevDay 2024 上，Mindtrip 的分享意外成了全场最“清醒”的一段：他们几乎没讲 Realtime API，也没炫技模型能力，而是用一个旅行产品，直接点破了当下多模态 AI 最大的幻觉——会看、会听、会说，远远不等于有用。

最反直觉的一点：他们几乎没讲 Realtime API

如果你看过 DevDay 的其他分享，大概率已经被 Realtime API、语音打断、低延迟对话刷屏。但 Garrick Toubassi 一上来就“泼冷水”——Mindtrip 今天的主角，不是你刚发布的新玩具，而是那个大家早就用烂了的 Chat Completions API。

这在 DevDay 的语境下，本身就是一种态度。因为他们想讲的不是“模型多强”，而是一个更刺痛的问题：为什么这么多 LLM 应用，看起来很聪明，却一点也不好用？

Mindtrip 的结论非常直接——问题不在生成质量，而在“结果是死的”。模型吐出来的文字，无法被继续操作、修改、协作、执行。你问 ChatGPT 一个旅行计划，它给你一段看起来很完整的文字，但你依然站在“行动之前”。Garrick 用了一个很形象的说法：这些文本“把你留在了婚礼的祭坛上”。

这其实点中了一个行业级的痛点：我们高估了生成内容本身的价值，低估了把内容变成系统状态的难度。

Mindtrip 真正解决的不是“多模态”，而是“文本失活”

Mindtrip 的产品看起来是一个 AI 旅行平台，但他们内部对问题的定义非常清楚：不是“怎么生成更好的内容”，而是“怎么让内容活起来”。

当用户丢给 Mindtrip 一段博客、一篇攻略、一段视频，甚至只是一张图片，系统做的第一件事不是润色语言，而是识别实体、建立结构、映射到真实世界：
- 地点会被放到地图上
- 行程会变成可编辑的 itinerary
- 内容不再是段落，而是对象（place、activity、day）

Garrick 特别强调了一点：他们并不是重新发明 LLM，而是把 LLM 当成“理解层”，真正的产品价值在后面。

这也是他调侃 Wanderlust Demo 的那一刻——“just for the record， we were there first”。不是为了争谁更酷，而是在暗示：真正的门槛不在 demo，而在后续系统怎么接住模型的输出。

对很多 AI 从业者来说，这是一个不太愿意面对的事实：多模态不是难在模型，而是难在产品工程。

从博客到图片再到短视频：多模态真正有用的路径

Mindtrip 的 demo 非常有代表性，因为它覆盖了当下内容生态里最常见的三种“灵感来源”：

第一，是文本。一个关于葡萄牙外海岛屿的博客文章，被直接转成结构化行程。这一步看似基础，但关键在“忠实还原”而不是“重新编造”。

第二，是图片。用户只说一句“我想去这里”，图片被直接送进 GPT-4o，模型负责理解画面，系统负责把理解结果转成可规划的目的地。

第三，也是最容易被忽略的一类：短视频。Mindtrip 把一段伦敦推荐的社交视频丢进去，系统不仅识别出城市，还能提取推荐点位，直接落到地图和行程里。

这里有一个非常重要的技术判断：视频不是一种新的输入模态，而是“图像 + 音频 + 时间采样”的工程问题。

Garrick 在台上花了不少时间讲“脏活累活”：OCR、Whisper、帧抽样、FFmpeg、URL 缓存、成本与延迟权衡。这些内容不性感，但恰恰是多模态应用能否规模化的分水岭。

一句话总结：多模态不是 API 能力，而是系统能力。

他们对 Realtime API 的态度，值得所有创业者参考

在分享的最后，Garrick 才提到 Realtime API，而且语气非常克制。

是的，它很酷。
是的，实时打断、即时反馈很强。
但 Mindtrip 现在的核心价值，并不依赖它。

原因很简单：他们真正要解决的，不是“对话多顺”，而是“从灵感到预订的路径够不够短”。图片、多模态输入、已有内容，已经足够帮用户跨过“空白光标”的那一刻。

这句话其实非常值得反复咀嚼：与其让用户面对一个更聪明的空白输入框，不如直接把世界已经存在的内容，变成对话的起点。

这几乎可以当作 2025 年 AI 应用设计的一条底层原则。

总结

Mindtrip 这场分享最有价值的地方，不在于他们用了多少新 API，而在于他们给了行业一个非常清醒的提醒：多模态的终点不是“看懂世界”，而是“改变世界里的下一步行动”。

如果你正在做 AI 产品，真正值得问的问题可能是：你的模型输出，是不是还停留在一段“看起来很对”的文字？它有没有被接进一个可以修改、协作、执行的系统？

未来一年，多模态能力会越来越普及，真正拉开差距的，将是那些能把现有内容转化为“可行动状态”的团队。也许你现在就可以回去看看：你的产品里，有没有还没被激活的“死文本”？

关键词：多模态AI， OpenAI DevDay， GPT-4o， AI应用设计， Mindtrip

事实核查备注：需要核查：1）视频发布时间是否为 2024-12-17；2）Mindtrip 创始人发言人名 Garrick Toubassi 拼写；3）提及的 OpenAI API 名称是否为 Chat Completions 与 Realtime API；4）使用的模型是否明确为 GPT-4o；5）视频中是否明确提到 Whisper、OCR、FFmpeg 作为实现方式。

返回文章列表