大模型写代码很强?Sonar给出的结论让不少工程师冷静了
大模型已经能一口气生成成千上万行代码,但这真的等于“企业级可用”吗?在这场演讲中,Sonar 的 Prasenjit Sarkar 用评测数据、排行榜和工程实践给 AI 工程师泼了一盆冷水:问题不在“能不能写”,而在“敢不敢用到生产环境”。
大模型已经能一口气生成成千上万行代码,但这真的等于“企业级可用”吗?在这场演讲中,Sonar 的 Prasenjit Sarkar 用评测数据、排行榜和工程实践给 AI 工程师泼了一盆冷水:问题不在“能不能写”,而在“敢不敢用到生产环境”。
大多数人以为代码补全的未来在更大的模型,但 Zed 团队走了相反的路:用一个小模型,盯住“你下一次会怎么改代码”。更反直觉的是,它的训练数据不是标注出来的,而是你每天真实的编辑行为。Ben Kunkle 用一次演讲,拆开了这个几乎没人公开讲过的生产级训练流程。
Anthropic 刚放出 Claude Opus 4.8,第一波反馈却并非清一色的“更强了”。有人兴奋,有人挑刺,更有人直言:这不是模型升级,而是一次关于“AI该怎么用”的路线之争。更微妙的是,OpenAI、AI Agent 创业公司们,正在同一时间改写战场规则。
在 Alchemy 负责产品的 Matias Castello 不是工程师出身,却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度:事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted,信息密度极高。
一家还在造车血海里游泳的公司,为什么要同时押注AI和人形机器人?更反直觉的是,CEO本人却刻意不用AI编程工具。在这次二访中,何小鹏谈的不是愿景,而是胜率不高却必须下注的现实。
在这期播客里,何小鹏罕见地把“赌”这个字摆到台面上:不只是赌一条技术路线,而是赌CEO该怎么当、企业该怎么用AI、以及为什么通用人形机器人现在“还没有对手”。更反直觉的是,他几乎不关心Token消耗,却把AI编程视为企业第一优先级。
一位 Sentry 高级工程师公开承认:从 2025 年 12 月开始,她几乎不再亲手写代码。更反直觉的是,她的效率和影响力反而大幅提升。她用一组真实数据,颠覆了整个 AI 编程圈最流行的幻想。
在 AI 圈的共识里,vibe coding 等于 Python、TypeScript、JavaScript。但 Sentry 的 Rust SDK 维护者 Daniel Szoke 却抛出一个反直觉结论:真正适合 AI Agent 写代码的,其实是 Rust。这场分享不讲情怀,只谈一个被严重低估的变量——如何系统性地对抗 LLM 的错误。
如果你还在拖拽文本框、对齐图片、调动画,这条视频会让你非常不舒服。Peter Yang 公开展示:用 Claude Code + HTML,他12分钟生成一整套可交互、带动画、还能自动质检的幻灯片。这不是效率提升,而是工作方式的断代更新。
如果你以为 AI Agent 的核心难题是“模型还不够聪明”,那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中,他们反复强调:真正把 Agent 跑到 Google 规模,最大的瓶颈是 Token、成本、配额,以及一整套几乎没人聊过的“代理操作系统”。