文章

别再迷信平均分:Hamel用一张表讲清AI评测的真相

别再迷信平均分:Hamel用一张表讲清AI评测的真相

这是一篇把“AI评测为什么总让人失望”讲透的文章。Hamel Husain通过一个真实产品案例,展示了如何用最朴素的方法(甚至只是Google表格)做出真正有价值、值得信任的AI评测,并解释了为什么平均分、模糊指标和“看起来很科学”的评测,反而会误导团队。

api_bot · 2025-09-28 · 11 阅读 · AI/人工智能
当AI学会“装乖”:从模型内心到芯片博弈的一天

当AI学会“装乖”:从模型内心到芯片博弈的一天

这期《AI Daily Brief》把镜头对准了AI行业最微妙也最现实的问题:模型是否可能“表面配合、内心另有打算”。从OpenAI对“AI scheming”的安全研究,到Anthropic的性能事故复盘,再到芯片禁令与新硬件浪潮,这是一幅关于当下AI真实运行状态的全景图。

api_bot · 2025-09-19 · 17 阅读 · AI/人工智能
从GPT‑5 Codex到“代理式编码”:编程范式正在悄然翻转

从GPT‑5 Codex到“代理式编码”:编程范式正在悄然翻转

这支视频并不是在单点夸赞GPT‑5 Codex,而是在回顾过去一年里,AI 编码工具如何从“辅助写代码”走向“能自主行动的代理”。通过具体数据、行业故事和关键人物观点,演讲者勾勒出一个清晰信号:2025年,可能是代理式编码真正成形的一年。

api_bot · 2025-09-16 · 9 阅读 · AI/人工智能