没有GPT-5的DevDay,却更像AI未来的分水岭
正在加载视频...
视频章节
OpenAI第二届DevDay几乎不谈消费者产品,也没有GPT-5,却释放出一个更重要的信号:AI正在从“更聪明的聊天机器人”转向“真正能行动、能规划的智能体”。本文还原发布会核心内容,解析实时语音、视觉微调、蒸馏与o1模型背后的战略转向。
没有GPT-5的DevDay,却更像AI未来的分水岭
OpenAI第二届DevDay几乎不谈消费者产品,也没有GPT-5,却释放出一个更重要的信号:AI正在从“更聪明的聊天机器人”转向“真正能行动、能规划的智能体”。本文还原发布会核心内容,解析实时语音、视觉微调、蒸馏与o1模型背后的战略转向。
这不是一场给用户看的发布会,而是给未来看的
如果你期待在DevDay上听到GPT-5,那这场发布会可能会让你失望。但如果你关心AI的“下一种形态”,这一天的信息密度反而异常高。The AI Daily Brief的主持人一开始就点明:这是一次彻头彻尾“为开发者而办”的DevDay。
OpenAI几乎没有谈消费者功能更新,而是集中火力展示API、基础能力和构建模块。正如视频中反复强调的,这更像是一场“未来预告”——一个正在成型的图景:AI不再只是回答问题的模型,而是可以感知、规划、执行的Agent。
这种定位转变也体现在数据上。OpenAI透露,目前已有300万开发者在其模型之上构建产品,活跃应用数量是一年前的三倍。同时,过去两年API调用成本下降了99%。这并不是单纯的技术优化,而是来自Google、Meta等巨头竞争下的“智能通缩”。当智能像算力一样变得廉价,真正的门槛就转向了“你能用它做什么”。
实时语音API:AI第一次像人一样“插话”
当天讨论度最高的产品,是Realtime API。它的关键不在于“能说话”,而在于“怎么说”。这是一个原生语音到语音的API,中间没有文字转写步骤,意味着更低延迟和更自然的语气变化。
OpenAI开发者体验负责人Raine Huitt在现场演示了一个旅行规划应用:他用语音与AI讨论伦敦行程,AI几乎实时回应,同时在地图上标注餐厅位置。另一场演示中,AI通过集成Twilio,在电话中为活动订餐。虽然API本身不能直接拨号,但已经足够接近真实客服体验。
价格也引发了激烈讨论:音频输入每分钟6美分,输出每分钟24美分,混合使用约15美分/分钟。有人算账后指出,一小时约18美元,甚至高于部分国际呼叫中心的人力成本。但也有人反驳,这假设了“全程不停说话”。更重要的是,正如主持人所说,把今天的价格当成长期静态数据,本身就低估了变化速度。
一个值得注意的细节是:目前OpenAI并未强制AI在电话中表明“自己是AI”,而这在加州新法规下可能存在法律风险。这种灰色地带,恰恰说明技术已经跑到了规则前面。
视觉微调、缓存与蒸馏:给Agent准备的三块积木
相比炫技,另外三项更新更像是在“打地基”。首先是Vision Fine-tuning:开发者现在可以用图像+文本对GPT‑4o进行微调,大幅提升特定视觉任务的准确性。OpenAI表示,这是微调团队收到最多的功能请求,有人甚至提到它对自动驾驶中的交通标志识别意义重大。
其次是Prompt Caching。这个功能允许缓存高频上下文,在多次API调用中复用,从而降低延迟和成本。OpenAI称可节省约50%,而Anthropic此前宣称最高可降90%。但Every的Dan Shipper提出了一个耐人寻味的问题:当Microsoft已经推动大企业提前购买大量GPT‑4调用额度时,这种持续降价会如何影响双方关系?
最后是模型蒸馏。开发者可以用o1‑preview或GPT‑4这样的大模型,去微调GPT‑4o mini等小模型,以获得“更便宜但更聪明”的专用模型。OpenAI还同步推出了评测工具,用于对比蒸馏前后的性能。这一步非常关键,因为它默认了一个前提:未来不是一个模型打天下,而是多个模型协同工作。
o1与“推理AI”:一条正在分叉的进化路线
真正让整场发布会“有灵魂”的,是围绕o1模型的一系列暗线。Roman Huitt在现场用o1演示:30秒内通过一句提示生成iPhone应用;再生成一个Web应用,实时控制舞台上的无人机。Dan Shipper评价说,这些事以前也能做,但绝不可能在台上实时完成。
在未公开直播的炉边谈话中,Sam Altman谈到AGI时说:“我们会完成一个系统,然后问:它在哪些方面还不是AGI?”他认为AGI这个词已经被过度加载,而o1至少是“二级AGI”。对他而言,更重要的指标是科学发现速度。
他还明确表达了OpenAI的对齐思路:“我们想先弄清楚能力会如何发挥作用,然后再让它变得安全。”并强调迭代式部署是最有效的安全机制,因为“墙外的聪明人永远比墙内多”。
Nick Doos的一句话成了当天的总结性金句:“OpenAI在挑战计算机能做什么,其他人还在玩LLM。”在他看来,LLM与推理型AI正在分叉,而o1正是分叉点。
总结
这届DevDay最重要的信号,不是某个功能,而是OpenAI对未来形态的下注:AI Agent将由语音、视觉、推理和低成本专用模型拼接而成。GPT‑5当然重要,但OpenAI已经明确表态,领导力不只来自更大的模型,而来自构建“不同种类智能”的能力。对开发者而言,现在看到的不是终点,而是一套正在到位的工具箱。
关键词: OpenAI DevDay, AI Agent, 实时语音API, o1模型, 模型蒸馏
事实核查备注: 人物:Sam Altman,Kevin Weil,Raine Huitt,Roman Huitt,Dan Shipper;数字:300万开发者,API成本两年下降99%,Realtime API价格6美分/分钟输入、24美分/分钟输出;技术名词:Realtime API,Vision Fine-tuning,Prompt Caching,Model Distillation,o1-preview,GPT-4o;公司:OpenAI,Google,Meta,Microsoft,Anthropic