一行字生成一段电影:Runway Gen-2 把视频创作的门槛打碎了
如果你还以为 AI 生成视频只是“会动的图片”,那你已经落后一个时代了。就在一周之内,从 NVIDIA 的研究到 Runway Gen-2 的实测放出,文本生成视频这件事,突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是,它正在改写内容创作、影视、游戏,甚至模拟世界的规则。
如果你还以为 AI 生成视频只是“会动的图片”,那你已经落后一个时代了。就在一周之内,从 NVIDIA 的研究到 Runway Gen-2 的实测放出,文本生成视频这件事,突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是,它正在改写内容创作、影视、游戏,甚至模拟世界的规则。
OpenAI 学者 Jonathan Ward 做了一件反直觉的事:不用人工标注、不请外包标注员,而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好,但准确率卡在了 74%。这背后,藏着今天所有 RLHF 系统的真相与瓶颈。
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
很多人直觉认为:只要模型够大、预训练够久,语言迁移自然水到渠成。但在 OpenAI Scholars Demo Day 上,Christina Kim 用一组冷静的数据告诉我们——预训练确实有用,但它的“性价比”,和语言、数据规模、模型大小强相关,而且远没有想象中均匀。
在计算机视觉里横扫榜单的对比学习,一搬到自然语言却问题频出。OpenAI Scholars Demo Day 上,Ellie Kitanidis 公开了一次并不“完美”的尝试:用对比学习预训练语言模型。真正的猛料不在结果,而在她暴露出的那个几乎所有语言模型都会撞上的隐形难题。
这篇文章讲述了David Silver如何从AlphaGo走向AlphaZero与MuZero,核心不在算力,而在“自我博弈”和“自我纠错”的思想转变。你将看到一个关键技术理念如何在偶然灵感中诞生,并一步步逼近通用智能。
在这期Lex Fridman播客中,微软CTO Kevin Scott从个人经历出发,讲述了微软如何看待AI、云与平台的未来。他分享了对AI民主化、数据价值、内容治理和混合现实的独特思考,勾勒出一家老牌科技公司在新时代的技术哲学。