从计算机视觉到生成视频：Meta生成式AI负责人谈多模态的下一站

AI PM 编辑部 · 2023年07月20日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

Meta生成式AI研究总监Devi Parikh在No Priors播客中，系统回顾了自己从计算机视觉研究者到生成视频核心推动者的路径，并分享了她对多模态、视频生成以及AI创作未来的判断。这是一场关于技术演进、研究取舍与创作民主化的深度对话。

从计算机视觉到生成视频：Meta生成式AI负责人谈多模态的下一站

Meta生成式AI研究总监Devi Parikh在No Priors播客中，系统回顾了自己从计算机视觉研究者到生成视频核心推动者的路径，并分享了她对多模态、视频生成以及AI创作未来的判断。这是一场关于技术演进、研究取舍与创作民主化的深度对话。

为什么“看见世界”是AI研究的重要转折

理解Devi Parikh的研究路线，有助于理解当下生成式AI为何如此强调多模态。她最早进入机器学习领域时，并非一开始就做视觉方向，而是在博士阶段逐渐意识到：如果AI不能理解图像和视频，它对现实世界的理解是残缺的。这种转向并非功利选择，而是研究过程中自然产生的“不满足感”。

她在访谈中回忆，自己早期参与的一些项目“并没有视觉元素”，但这反而让她意识到，视觉是人类获取信息最核心的通道之一。正是这种认知，推动她在博士阶段深度投入计算机视觉研究，并最终走向多模态学习——即让模型同时理解文本、图像、音频和视频。

她强调，计算机视觉并不是一个孤立学科，而是连接感知与推理的桥梁。这也是为什么后来她会对视频生成产生强烈兴趣：视频不仅包含图像，还天然融合了时间、动作和因果关系，是“更接近真实世界的数据形式”。

学术与工业之间：在Meta做基础研究意味着什么

成为大学教授后再进入Meta从事研究，是Devi Parikh职业生涯中的重要转折。她并未将学术与工业对立起来，而是认为二者在“基础AI研究”层面存在交集。她在Meta从事的并不是直接面向产品的短期开发，而是探索生成式AI和多模态的长期可能性。

在访谈中她提到，自己从“fundamental AI research”逐步转向新的生成式AI研究团队，这个变化本身就反映了整个行业的重心迁移。生成模型不再只是学术论文中的实验，而是开始具备通用能力，值得投入系统性研究资源。

她特别指出，在大型公司内部做研究，最大的价值在于可以接触到真实规模的数据和计算资源，同时仍然保持对开放问题的探索空间。这种环境使得像视频生成这样“计算密集、数据复杂”的方向成为可能。

Make-A-Video：为什么生成视频比生成图片难得多

当话题进入视频生成时，Devi Parikh给出了一个非常清晰的判断：生成视频不是生成图片的简单延伸。图片只需要在空间维度上保持一致性，而视频还必须在时间维度上连贯。她参与的项目“Make-A-Video”，正是围绕这一核心难题展开。

她解释，视频训练数据的复杂性远高于静态图像。模型不仅要理解“画面里有什么”，还要理解“这些东西如何随时间变化”。在播客中她用非常直白的方式说明：视频是作为训练数据被引入的，而模型需要从中学习运动模式和因果关系。

她提到一个重要理念：视频生成的目标并不是一次性生成完美结果，而是逐步逼近人类对动态世界的理解。这也是她所说的“the next generation of creation”，即每一代生成模型，都会拓展AI可创作内容的边界。

生成式AI真正的意义：创作的民主化

在整场对话中，Devi Parikh反复回到一个核心主题：生成式AI的终极价值并不只是效率，而是创作门槛的降低。节目开场就提到，文本提示正在“democratizing creative expression”，而她显然对此深有共鸣。

她认为，当普通人可以通过一句自然语言生成图像甚至视频时，创作权力将不再集中在少数专业人士手中。这并不意味着专业创作者会被取代，而是意味着更多人能够参与表达。

她本人也是一位艺术创作者，这使她对AI工具的态度更加克制而现实。她并没有把生成式AI描述为“魔法”，而是将其视为一种新的媒介：就像相机和视频剪辑软件一样，改变的是谁能创作、如何创作。

总结

Devi Parikh的分享，让人看到生成式AI背后并非只有模型参数和算力竞赛，还有长期研究路径、个人兴趣与技术判断的叠加。从计算机视觉到多模态，再到视频生成，她始终关注的是AI如何更真实地理解和表达世界。对读者而言，这场对话最大的启发或许在于：生成式AI的未来，不只属于工程师，也属于每一个想要表达的人。

关键词：生成式AI，多模态，视频生成，计算机视觉， Meta

事实核查备注： Devi Parikh：Meta生成式AI研究总监、Georgia Tech副教授；节目：No Priors Ep.24；项目名称：Make-A-Video；研究方向：计算机视觉、多模态、视频生成；公司：Meta；发布时间：2023-07-20

返回文章列表