iPhone拍一圈就成3D:NVIDIA Neuralangelo改写现实建模
用一段普通的iPhone视频,就能生成细节惊人的3D模型——这不是科幻,而是NVIDIA最新公布的Neuralangelo。它把NeRF和传统摄影测量强行“合体”,第一次同时解决了好看和好用的问题。
用一段普通的iPhone视频,就能生成细节惊人的3D模型——这不是科幻,而是NVIDIA最新公布的Neuralangelo。它把NeRF和传统摄影测量强行“合体”,第一次同时解决了好看和好用的问题。
如果我告诉你:AI已经能在你什么都不说的情况下,把你“看到的画面”复原成视频,你会觉得这是噱头还是失控的前夜?这项名为 Mind Video 的研究,正在把“读心术”从科幻拖进现实,而且速度比大多数人想象得更快。
如果你只记住这一周AI新闻的一件事,那应该是这个强烈反差:上午,人们还在用“拖拽”方式随意拉动狮子的脸;下午,Sam Altman 就坐在国会里,认真讨论“谁有资格训练最强的AI”。工具在狂奔,规则在逼近。
把目标丢给 AI,它真的会“自己创业”吗?这次测试里,AgentGPT 不仅没把电商跑起来,反而暴露了当前 AI Agent 最被高估的一件事:我们以为它在执行,其实它只是在“自信地描述”。
Uber 的设计系统团队做过一个看似正确、却几乎毁掉插件体验的决定:把“自动校验”做成永远开启。数据一度看起来很美,但真正让系统进化的,是他们随后做出的那个反直觉选择。这是一堂所有 AI 从业者都该听的课。
很多人以为神经网络训练不好,是架构不行、数据不够、算力太小。但 Karpathy 在 makemore 第三讲直接揭穿了一个更残酷的事实:大多数失败,发生在训练开始的第一秒——初始化、激活值和梯度,早就把结局写好了。
如果你每天刷信息流、追模型更新,却越来越难静下心做真正的深度工作,这可能不是你不够努力,而是大脑被“驯化”了。在这期播客里,Andrew Wilkinson 抛出一个反直觉的观点:想要原创思考,先要远离数字世界。
Lex Fridman 在解读 Tesla AI Day 时认为,这场发布会的震撼不在于单点技术突破,而在于首次完整展示了解决自动驾驶与通用机器人问题所需的“规模化工程全景”。从向量空间感知、多摄像头时序融合,到数据标注闭环与 Dojo 计算平台,Tesla 展示了一条难以复制的真实世界智能路线。
在这期与Lex Fridman的长谈中,神经科学家Jeff Hawkins系统阐述了“千脑理论”:智能并非来自单一中枢,而是源于大量皮层柱并行构建世界模型。本文提炼其最关键的洞见、方法论与对AI未来的判断。
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。