正在加载视频...
视频章节
Meta生成式AI研究总监Devi Parikh在No Priors播客中,系统回顾了自己从计算机视觉研究者到生成视频核心推动者的路径,并分享了她对多模态、视频生成以及AI创作未来的判断。这是一场关于技术演进、研究取舍与创作民主化的深度对话。
从计算机视觉到生成视频:Meta生成式AI负责人谈多模态的下一站
Meta生成式AI研究总监Devi Parikh在No Priors播客中,系统回顾了自己从计算机视觉研究者到生成视频核心推动者的路径,并分享了她对多模态、视频生成以及AI创作未来的判断。这是一场关于技术演进、研究取舍与创作民主化的深度对话。
为什么“看见世界”是AI研究的重要转折
理解Devi Parikh的研究路线,有助于理解当下生成式AI为何如此强调多模态。她最早进入机器学习领域时,并非一开始就做视觉方向,而是在博士阶段逐渐意识到:如果AI不能理解图像和视频,它对现实世界的理解是残缺的。这种转向并非功利选择,而是研究过程中自然产生的“不满足感”。
她在访谈中回忆,自己早期参与的一些项目“并没有视觉元素”,但这反而让她意识到,视觉是人类获取信息最核心的通道之一。正是这种认知,推动她在博士阶段深度投入计算机视觉研究,并最终走向多模态学习——即让模型同时理解文本、图像、音频和视频。
她强调,计算机视觉并不是一个孤立学科,而是连接感知与推理的桥梁。这也是为什么后来她会对视频生成产生强烈兴趣:视频不仅包含图像,还天然融合了时间、动作和因果关系,是“更接近真实世界的数据形式”。
学术与工业之间:在Meta做基础研究意味着什么
成为大学教授后再进入Meta从事研究,是Devi Parikh职业生涯中的重要转折。她并未将学术与工业对立起来,而是认为二者在“基础AI研究”层面存在交集。她在Meta从事的并不是直接面向产品的短期开发,而是探索生成式AI和多模态的长期可能性。
在访谈中她提到,自己从“fundamental AI research”逐步转向新的生成式AI研究团队,这个变化本身就反映了整个行业的重心迁移。生成模型不再只是学术论文中的实验,而是开始具备通用能力,值得投入系统性研究资源。
她特别指出,在大型公司内部做研究,最大的价值在于可以接触到真实规模的数据和计算资源,同时仍然保持对开放问题的探索空间。这种环境使得像视频生成这样“计算密集、数据复杂”的方向成为可能。
Make-A-Video:为什么生成视频比生成图片难得多
当话题进入视频生成时,Devi Parikh给出了一个非常清晰的判断:生成视频不是生成图片的简单延伸。图片只需要在空间维度上保持一致性,而视频还必须在时间维度上连贯。她参与的项目“Make-A-Video”,正是围绕这一核心难题展开。
她解释,视频训练数据的复杂性远高于静态图像。模型不仅要理解“画面里有什么”,还要理解“这些东西如何随时间变化”。在播客中她用非常直白的方式说明:视频是作为训练数据被引入的,而模型需要从中学习运动模式和因果关系。
她提到一个重要理念:视频生成的目标并不是一次性生成完美结果,而是逐步逼近人类对动态世界的理解。这也是她所说的“the next generation of creation”,即每一代生成模型,都会拓展AI可创作内容的边界。
生成式AI真正的意义:创作的民主化
在整场对话中,Devi Parikh反复回到一个核心主题:生成式AI的终极价值并不只是效率,而是创作门槛的降低。节目开场就提到,文本提示正在“democratizing creative expression”,而她显然对此深有共鸣。
她认为,当普通人可以通过一句自然语言生成图像甚至视频时,创作权力将不再集中在少数专业人士手中。这并不意味着专业创作者会被取代,而是意味着更多人能够参与表达。
她本人也是一位艺术创作者,这使她对AI工具的态度更加克制而现实。她并没有把生成式AI描述为“魔法”,而是将其视为一种新的媒介:就像相机和视频剪辑软件一样,改变的是谁能创作、如何创作。
总结
Devi Parikh的分享,让人看到生成式AI背后并非只有模型参数和算力竞赛,还有长期研究路径、个人兴趣与技术判断的叠加。从计算机视觉到多模态,再到视频生成,她始终关注的是AI如何更真实地理解和表达世界。对读者而言,这场对话最大的启发或许在于:生成式AI的未来,不只属于工程师,也属于每一个想要表达的人。
关键词: 生成式AI, 多模态, 视频生成, 计算机视觉, Meta
事实核查备注: Devi Parikh:Meta生成式AI研究总监、Georgia Tech副教授;节目:No Priors Ep.24;项目名称:Make-A-Video;研究方向:计算机视觉、多模态、视频生成;公司:Meta;发布时间:2023-07-20