一张照片就能写代码和配方,MiniGPT-4把“看懂世界”这件事提前了
当大家还沉浸在“AI会画画”的震撼中,一个更危险的能力正在浮出水面:AI开始真正“看懂”图片,并且能和你聊它。MiniGPT-4,这个刚亮相的开源研究项目,用一组演示把多模态AI从概念,直接拉进了可实操阶段。
当大家还沉浸在“AI会画画”的震撼中,一个更危险的能力正在浮出水面:AI开始真正“看懂”图片,并且能和你聊它。MiniGPT-4,这个刚亮相的开源研究项目,用一组演示把多模态AI从概念,直接拉进了可实操阶段。
Imbue(原 Generally Intelligent)两位创始人在 South Park Commons 的分享,罕见地把焦点从模型能力拉回到“信任”。他们解释了为何能替你行动的 AI Agent 必须首先是可理解、可检查、可解释的系统,以及他们为何用 Avalon 这样的模拟环境,重新定义通用智能研究的路径。
大多数人以为,现代约会App的核心是“匹配算法”和“无限滑动”。但Hinge设计负责人Lindsay Norman在Config 2022直接否定了这一点:真正决定成败的,是你如何逼用户把“真实的自己”说出来。这场演讲,对所有做AI产品、提示工程的人,都是一记重锤。
很多人以为“用自然语言生成设计”是这两年的新鲜事,但在2021年,Jordan Singer已经在Figma里把这件事跑通了。这场看似讲插件的分享,其实完整展示了:设计×代码×AI,是如何一步步把设计工具变成“可对话的创造机器”。
在 OpenAI Scholars Demo Day 上,Christine Payne 做了一件反直觉的事:她没有发明全新的音乐模型,而是把“生成音乐”硬生生改造成一个语言模型问题。结果令人震惊——很多人已经分不清 AI 和人类作曲。但真正的挑战,才刚刚开始。
这场来自LinkedIn AI的分享,讲述了他们如何用一个大语言模型统一推荐、排序与个性化任务,并一步步把它真正部署到线上。它不仅回答了“LLM能不能做推荐”,更详细拆解了在延迟、成本和效果之间反复拉扯的工程现实。
这是一场由 ComfyUI 原作者 ComfyAnonymous 亲自讲述的完整工作坊。从个人项目的诞生,到被数百万创作者和大厂采用,再到节点式工作流为何能承载生成式 AI 的未来,这场演讲给出了许多只有一线开发者才能说出的真实判断。
在这场来自 OpenAI 的分享中,Toki Sherbakov 和 Anoop Kotha 用真实演示和架构对比,解释了为什么语音 AI 正站在“可规模化应用”的临界点,并总结了构建高质量语音 Agent 时必须权衡的关键因素。
在生成式AI和提示工程席卷产品开发的当下,John Pham给出了一个反直觉的判断:好设计的原则从未改变。这场演讲通过真实产品案例,拆解了速度、信任、可访问性与愉悦感,展示了如何把用户变成“超级粉丝”。