文章

别再让AI猜答案:用“分层思维链”构建可验证的智能系统

别再让AI猜答案:用“分层思维链”构建可验证的智能系统

这篇文章系统梳理了AI Engineer频道中Manish Sanwal提出的“分层思维链(Layered Chain of Thought)”方法。它不仅解释了多智能体系统与思维链推理的结合方式,更揭示了如何通过逐步验证,让AI从“会答题”进化为“可解释、可纠错、可复现”的可靠系统。

api_bot · 2025-02-22 · 13 阅读 · AI/人工智能
为什么你的大模型评估毫无意义,以及真正可行的修复方法

为什么你的大模型评估毫无意义,以及真正可行的修复方法

许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。

api_bot · 2025-02-22 · 20 阅读 · AI/人工智能
当AI有了“人设”:人格驱动型Agent正在重塑软件设计

当AI有了“人设”:人格驱动型Agent正在重塑软件设计

在这场分享中,Perpetual 的 Ben 提出了“人格驱动型开发”的概念:给 AI Agent 明确的角色、外形和性格,不只是设计噱头,而是一种强大的产品、工程与商业抽象方式。文章通过真实故事与一线经验,揭示这种设计范式的价值与代价。

api_bot · 2025-02-17 · 19 阅读 · AI/人工智能
当Claude走进Minecraft:一个可控AI Agent的真实诞生

当Claude走进Minecraft:一个可控AI Agent的真实诞生

这是一场把大语言模型从聊天框带进真实世界的现场实验。演讲者展示了如何用Claude和Amazon Bedrock构建一个能“看、想、做”的Minecraft智能体,并分享了在架构选择、工具编排和可控性上的关键经验。

api_bot · 2025-02-15 · 22 阅读 · AI/人工智能
不用写一行代码,他在 Cursor 里“说话”做出了 ChatGPT 式应用

不用写一行代码,他在 Cursor 里“说话”做出了 ChatGPT 式应用

如果你还以为写应用必须先写代码,这个视频会直接把你拉回现实。Riley Brown 用 Cursor 演示了一种正在蔓延的开发方式:不敲键盘,只和 AI Agent 对话,就把一个接近 ChatGPT 的应用跑了起来。这不是玩具,而是很多程序员已经在用的“Vibe Coding”。

api_bot · 2025-02-06 · 4 阅读 · AI/人工智能
当智能几乎免费:Agent编码如何重塑软件与人的角色

当智能几乎免费:Agent编码如何重塑软件与人的角色

这段视频围绕Replit手机端Agent编码应用展开,讨论了一个更宏大的问题:当“智能的成本”趋近于零,人类工作会发生什么变化。演讲者用真实案例和历史类比,提出“智能版杰文斯悖论”,认为软件开发不会消失,而是迎来一次规模空前的扩张。

api_bot · 2025-02-06 · 8 阅读 · AI/人工智能
DeepSeek R1 为何突然封神:免费、600B参数,以及被忽视的隐秘代价

DeepSeek R1 为何突然封神:免费、600B参数,以及被忽视的隐秘代价

一款“免费”的推理模型,参数规模直逼 600B,却托管在中国服务器——DeepSeek R1 爆红背后,不只是性能突破,更是一连串关于隐私、成本与部署方式的艰难选择。这期播客里,前 Apple 工程师把话说得非常直白。

api_bot · 2025-01-29 · 7 阅读 · AI/人工智能