从审美到开源:Playground AI创始人谈生成式图像的真实护城河

AI PM 编辑部 · 2024年04月18日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 No Priors 播客中,Playground AI 创始人 Suhail Doshi 罕见地系统讲述了自己第三次创业的动机,以及他们为何选择在生成式图像领域坚持“审美优先”和开源路线。相比模型规模,他更在意品味、评估方法与数据策展,这些细节构成了 Playground 真正的差异化。

从审美到开源:Playground AI创始人谈生成式图像的真实护城河

在这期 No Priors 播客中,Playground AI 创始人 Suhail Doshi 罕见地系统讲述了自己第三次创业的动机,以及他们为何选择在生成式图像领域坚持“审美优先”和开源路线。相比模型规模,他更在意品味、评估方法与数据策展,这些细节构成了 Playground 真正的差异化。

为什么是 Playground:第三次创业背后的动机

理解 Playground AI 的方向,首先要理解 Suhail Doshi 为什么会选择它作为自己的第三家公司。这一点很重要,因为他的判断并不是出于“风口焦虑”,而是个人兴趣与长期经验的自然延伸。

在播客中,主持人提到 Suhail 之前已经连续创办过多家公司,而 Playground 是他最新的一次尝试。Suhail 回忆说,这并不是一个一开始就被规划好的项目,而是在不断探索中逐渐成形的。“It ended up just like being this perfect thing that I was excited to work on。”他形容这是一个让自己重新感到兴奋的方向。

这种兴奋感来自两个层面:一是生成式图像本身的创造性反馈非常直接,你输入一个提示词,几秒钟后就能看到结果;二是他个人长期对设计、视觉和产品美感的兴趣,在这一代模型能力出现后终于有了合适的技术载体。相比做一个更抽象、更偏基础设施的公司,Playground 让他能每天直接面对“作品”。

这种创始人动机也解释了 Playground 早期就选择面向创作者,而不是只服务企业客户。对 Suhail 来说,这是一个他愿意长期打磨、反复调校的产品,而不仅仅是一次短期的技术下注。

语言、图像与音乐:生成式 AI 的竞争逻辑并不相同

在生成式 AI 领域,不同模态之间的竞争方式差异巨大,而这一点常常被外界忽略。Suhail 在节目中专门对比了语言、图像和音乐三种方向的不同生态。

他指出,语言模型的竞争往往集中在通用能力和规模上,用户更关心“能不能回答问题”“推理是否足够强”。而在图像领域,结果的主观性更强,用户真正关心的是“好不好看”“有没有品味”。这意味着,单纯追求模型参数规模,并不会自动带来更好的用户体验。

也正因为如此,Playground 并没有把自己定位为“什么都能画”的工具,而是主动收敛方向。他们在实践中发现,过度追求通用性,反而会削弱模型在具体场景下的实用性,正如节目中所提到的,“sometimes that reduces its like practicality or its utility”。

音乐是另一个 Suhail 长期关注的领域。他认为音乐生成的反馈周期更长,评估也更困难,但它同样强调风格与审美。这些跨模态的观察,反过来影响了 Playground 对图像生成的取舍:不是覆盖所有需求,而是在有限范围内做到足够好。

审美不是玄学:手工调校、评估与“品味”的工程化

如果说 Playground 有什么最鲜明的标签,那一定是“好看”。但“好看”并不是一个可以直接写进指标的参数,这正是他们工程挑战的核心。

在对话中,主持人直接问到:模型到底需要多少人工调校?Suhail 的回答非常坦率,他承认这里面不可避免地存在“taste and judgment”。无论是模型输出的色彩、构图,还是整体风格,都需要人类反复观察和比较。

这也引出了他们在评估(eval)上的独特难题。传统的覆盖率指标在图像领域并不直观,Suhail 提到,“coverage is like pretty tricky”。你很难用一个数字来衡量模型是否真正覆盖了用户心中想要的视觉空间。

因此,Playground 的评估体系并不完全依赖自动化指标,而是结合了大量人工审查和主观排序。这种做法成本高、效率低,却直接服务于最终体验。对他们来说,审美不是附加值,而是产品的核心功能。

数据策展与开源:Playground 的“秘密武器”

当话题转向数据时,Suhail 明确表示,这是 Playground 最重要、也最难被复制的部分之一。他承认,数据策展在某种程度上确实像“secret sauce”。

不同于简单地扩大数据规模,Playground 更强调数据与目标体验的一致性。哪些图像被纳入训练,哪些风格被强化,哪些内容被弱化,都会直接影响模型的输出气质。这种选择本身就体现了团队的价值判断。

在此基础上,Playground 还选择了开源部分基础扩散模型,例如最新的 Playground 2.5。这并不是出于理想主义,而是一种与社区共同迭代的策略。通过开放模型,他们能够更快看到真实使用场景中的反馈,并反向优化自己的产品。

展望未来,Suhail 认为模型一定会走向多模态,将图像与其他类型的像素数据结合起来。但无论技术形态如何变化,Playground 依然会专注于“graphics”,而不是泛化成一个无所不包的平台。

总结

这期播客最有价值的地方,并不在于某个具体技术细节,而在于 Suhail Doshi 对生成式图像本质的判断:真正的护城河不只是模型规模,而是审美、评估方法和数据选择的长期积累。对创作者和创业者而言,这提醒我们在追逐通用能力之外,也要认真思考“你到底想把什么做到极致”。


关键词: 生成式AI, AI绘画, Playground AI, 多模态, 数据策展

事实核查备注: Suhail Doshi 为 Playground AI 创始人;视频为 No Priors Ep.60,发布时间 2024-04-18;提及开源扩散模型 Playground 2.5;讨论生成式图像、音乐与多模态方向;引用原话包括“perfect thing that I was excited to work on”“sometimes that reduces its like practicality or its utility”“coverage is like pretty tricky”。