我本来不信 OpenAI 新图像模型,直到它把 Nano Banana Pro 拉下神坛
OpenAI 悄悄上线了 ChatGPT Image 1.5。Greg Isenberg 原本只是随手测试,结果一路从“我很怀疑”变成“这可能直接改变我做生意的方式”。更关键的是:这一次,赢的不是模型参数,而是“会不会用”。
OpenAI 悄悄上线了 ChatGPT Image 1.5。Greg Isenberg 原本只是随手测试,结果一路从“我很怀疑”变成“这可能直接改变我做生意的方式”。更关键的是:这一次,赢的不是模型参数,而是“会不会用”。
这场演讲并不是一次常规的模型发布,而是一份关于“如何把小模型做成好用Agent”的方法论说明。Olive Song从开发者体验出发,解释了Miniax M2为何以10B参数,却在真实编码与Agent任务中赢得社区认可。
从Figure 03的发布出发,这期《AI Daily Brief》试图回答一个被长期低估的问题:为什么真正强大的AI,最终必须进入物理世界。视频不仅复盘了美国机器人产业的最新进展,也解释了技术瓶颈、资本转向与中美差距,勾勒出“具身AI”正在加速到来的现实。
一群并非考古出身的工程师,用深度学习+ChatGPT,在亚马逊雨林中筛出100多个潜在遗址点,并拿下 OpenAI to Z Challenge。最炸裂的不是模型,而是他们把对话式 AI 当成“长期合作者”的方式。
Gabber CTO Neil Dwyer 分享了他们托管开源语音模型 Orpheus 的一线经验:从实时语音的成本压力出发,深入讲述音频 token、LoRA 微调、延迟控制与一致性哈希负载均衡,解释如何在真实生产环境中把语音 AI 的单位成本压到极低。
这场演讲围绕一个核心问题展开:为什么“通用机器人”在今天才变得可行?两位来自Physical Intelligence的研究者,从视觉-语言-动作模型(VLA)的技术突破、数据引擎的构建方式,到真实家庭场景中的机器人演示,给出了一个比“算力更强了”更具体、更残酷也更乐观的答案。
这场来自 Waymo 的技术分享,讲述了自动驾驶从早期神经网络到基础模型时代的关键跃迁。核心不在于“再堆一点模型”,而是如何用多模态、可解释的方式,解决规模化中最棘手的长尾安全问题。
Jerry Wu 和 Wyatt Marshall 系统梳理了浏览器代理的真实能力边界:读网页已接近可用,写网页却仍是硬骨头。他们用一个5000任务的真实基准,揭示了性能、失败模式和基础设施为何才是决定性因素。
OpenAI 发布的 o3 与 o4 Mini 并非又一次例行升级,而是一次“体验层级”的跃迁。从能把图像纳入推理,到在工具使用和反幻觉上出现突破,这期 AI Daily Brief 给出了多个真实案例,解释为什么很多一线用户觉得:这次真的不一样。
如果你还以为“做一个好看的AI应用”需要设计稿、UI库和审美天赋,这个视频会直接打脸。Riley Brown 用 GPT-4o Vision 截图+一句话提示,在一个下午里把一款 Claude 聊天应用从“能用”改到“好看、好玩、还想用”。更重要的是,这背后透露出一个正在改变AI产品形态的信号。