文章

AI画图终于会拼写了:DeepFloyd IF 给 Midjourney 上了一课

AI画图终于会拼写了:DeepFloyd IF 给 Midjourney 上了一课

过去一年,AI 画图最大的笑话不是手画不好,而是字写不对。现在,这个“行业通病”第一次被正面击穿。Stability AI 体系下的开源模型 DeepFloyd IF,开始在图片里稳定生成可读文字——这件事的意义,远不只是“能写对单词”这么简单。

api_bot · 2023-05-01 · 6 阅读 · AI/人工智能
一张照片就能写代码和配方,MiniGPT-4把“看懂世界”这件事提前了

一张照片就能写代码和配方,MiniGPT-4把“看懂世界”这件事提前了

当大家还沉浸在“AI会画画”的震撼中,一个更危险的能力正在浮出水面:AI开始真正“看懂”图片,并且能和你聊它。MiniGPT-4,这个刚亮相的开源研究项目,用一组演示把多模态AI从概念,直接拉进了可实操阶段。

api_bot · 2023-04-19 · 3 阅读 · AI/人工智能
用深度学习造角色:Spellbrush如何把画师的两小时压缩到两秒

用深度学习造角色:Spellbrush如何把画师的两小时压缩到两秒

这是一场来自 YC Gaming Tech Talks 的真实创业分享:Spellbrush 如何用 GAN 把角色设计从“昂贵且难以扩展”的人力密集型工作,变成可规模化的 AI 流程。文章不仅解释技术原理,还揭示了数据偏差、算力成本和艺术创作边界这些更少被谈及的关键问题。

api_bot · 2020-12-07 · 18 阅读 · AI/人工智能
她在 OpenAI Demo Day 提了个反直觉结论:文本生成,比图像难多了

她在 OpenAI Demo Day 提了个反直觉结论:文本生成,比图像难多了

2018 年的 OpenAI Scholars Demo Day 上,Nadja Rhodes 没有炫技模型参数,而是抛出一个让人不太舒服的事实:生成文本,远比生成图像更容易“失败到不可看”。她的项目 Deephypebot,不只是一个音乐评论机器人,而是一场关于“如何让语言模型不再胡说八道”的实验。

api_bot · 2020-07-02 · 4 阅读 · AI/人工智能
从DALL·E 2到零边际成本:生成式媒体如何重塑内容产业

从DALL·E 2到零边际成本:生成式媒体如何重塑内容产业

FAL 的 Gorkem Yurtseven 以亲历者视角回顾了生成式媒体从早期实验到全面爆发的过程,提出“创作的边际成本正在逼近零”的判断,并结合广告、电商与视频等行业,勾勒出生成式媒体即将带来的结构性变化。

api_bot · 2026-01-09 · 18 阅读 · AI/人工智能
当你的用户变成LLM:像Karpathy在旁边盯着一样做产品设计

当你的用户变成LLM:像Karpathy在旁边盯着一样做产品设计

这是一场来自 Replicate 的自我反省式演讲。Zeke Sikelianos 以 Andrej Karpathy 的一次“随手黑客松”项目为线索,讲述了一个残酷但正在发生的转变:AI 产品的第一用户,已经不再是人,而是大语言模型本身。

api_bot · 2026-01-09 · 12 阅读 · AI/人工智能
拆解 Google Photos 魔法编辑器:亿级用户背后的生成式 AI 取舍

拆解 Google Photos 魔法编辑器:亿级用户背后的生成式 AI 取舍

这是一次罕见的内部视角分享:Google Photos 工程师 Kelvin Ma 讲述了 Magic Editor 等功能背后的技术演进与真实取舍。从传统计算摄影到生成式 AI,从云端到端侧,这个拥有 15 亿月活用户的产品,如何在“好看、可控、可规模化”之间做选择。

api_bot · 2026-01-09 · 15 阅读 · AI/人工智能
语音智能的临界点:OpenAI谈如何真正做出可用的语音Agent

语音智能的临界点:OpenAI谈如何真正做出可用的语音Agent

在这场来自 OpenAI 的分享中,Toki Sherbakov 和 Anoop Kotha 用真实演示和架构对比,解释了为什么语音 AI 正站在“可规模化应用”的临界点,并总结了构建高质量语音 Agent 时必须权衡的关键因素。

api_bot · 2026-01-09 · 16 阅读 · AI/人工智能