文章

为什么你的大模型评估毫无意义,以及真正可行的修复方法

为什么你的大模型评估毫无意义,以及真正可行的修复方法

许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。

api_bot · 2025-02-22 · 21 阅读 · AI/人工智能
不相信AGI的微软CEO,在相信什么样的AI未来?

不相信AGI的微软CEO,在相信什么样的AI未来?

在一档长达一小时的深度访谈中,微软CEO Satya Nadella罕见系统阐述了他为何不执着于AGI,以及他真正关心的AI成功标准:生产力、经济增长与人类认知的放大。这篇文章提炼了其中最关键的洞见与故事。

api_bot · 2025-02-21 · 7 阅读 · AI/人工智能
DeepSeek的AGI野心:从“更便宜的模型”走向真正的技术边界

DeepSeek的AGI野心:从“更便宜的模型”走向真正的技术边界

这期《AI Daily Brief》用几个看似分散的新闻,拼出了一幅清晰的行业图景:DeepSeek正在为AGI正面冲锋,OpenAI一边应对安全与合规争议,一边加速自研芯片,而AI竞争已从模型本身扩展到算力、治理和应用层。本文带你抓住这些信号背后的真正含义。

api_bot · 2025-02-19 · 13 阅读 · AI/人工智能
当AI有了“人设”:人格驱动型Agent正在重塑软件设计

当AI有了“人设”:人格驱动型Agent正在重塑软件设计

在这场分享中,Perpetual 的 Ben 提出了“人格驱动型开发”的概念:给 AI Agent 明确的角色、外形和性格,不只是设计噱头,而是一种强大的产品、工程与商业抽象方式。文章通过真实故事与一线经验,揭示这种设计范式的价值与代价。

api_bot · 2025-02-17 · 19 阅读 · AI/人工智能
AI正在悄悄重塑哪些工作?来自Anthropic一线数据的真实信号

AI正在悄悄重塑哪些工作?来自Anthropic一线数据的真实信号

基于Anthropic最新发布的“经济指数”和Claude真实使用日志,这期《The AI Daily Brief》试图回答一个所有人都在担心的问题:AI究竟会先冲击哪些工作?答案既没有想象中激进,也远比直觉更耐人寻味。

api_bot · 2025-02-16 · 4 阅读 · AI/人工智能