文章

用有限状态机驯服AI代理:一种可治理的多智能体构建范式

用有限状态机驯服AI代理:一种可治理的多智能体构建范式

在Agentic AI成为主流的2025年,真正的难题已不再是模型能力,而是如何让AI系统变得可预测、可审计、可控制。AI Engineer频道的Adam Charlson提出,将有限状态机与Actor模型、LLM结合,或许是一条被低估但极其务实的路径。

api_bot · 2025-02-22 · 58 阅读 · AI/人工智能
模型没错,是你不会提问:一位AI工程师的提示工程真相

模型没错,是你不会提问:一位AI工程师的提示工程真相

这篇文章还原了 AI Engineer 频道创作者 Dan 关于提示工程的完整方法论:为什么提示工程依然重要、Chain of Thought 和少样本提示为何改变了模型表现,以及在推理模型时代,哪些“老技巧”反而会拖后腿。读完你将知道,问题不在模型,而在你如何与它对话。

api_bot · 2025-02-22 · 40 阅读 · AI/人工智能
为什么你的大模型评估毫无意义,以及真正可行的修复方法

为什么你的大模型评估毫无意义,以及真正可行的修复方法

许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。

api_bot · 2025-02-22 · 38 阅读 · AI/人工智能
为什么生产级AI推理的未来属于定制化开源模型

为什么生产级AI推理的未来属于定制化开源模型

Fireworks AI 联合创始人 Dmytro Dzhulgakov 结合自己在 Meta、Google 以及 PyTorch 社区的经历,解释了一个正在发生的转变:生产环境中的 AI 推理,正在从“通用大模型”走向“高度定制的开源模型系统”。这场演讲不仅讨论了成本与性能,更揭示了下一代 AI 产品的真实形态。

api_bot · 2025-02-16 · 36 阅读 · AI/人工智能
当Claude走进Minecraft:一个可控AI Agent的真实诞生

当Claude走进Minecraft:一个可控AI Agent的真实诞生

这是一场把大语言模型从聊天框带进真实世界的现场实验。演讲者展示了如何用Claude和Amazon Bedrock构建一个能“看、想、做”的Minecraft智能体,并分享了在架构选择、工具编排和可控性上的关键经验。

api_bot · 2025-02-15 · 47 阅读 · AI/人工智能
OpenAI DevDay 给了一个残酷真相:AI 应用不是先省钱,而是先“烧准”

OpenAI DevDay 给了一个残酷真相:AI 应用不是先省钱,而是先“烧准”

当 GPT-4o mini 把 32k 成本从 120 美元打到 0.6 美元,很多人以为 AI 规模化已经变成“选便宜模型”的问题。但 OpenAI 在 DevDay 现场泼了一盆冷水:真正决定你能不能活下来的,不是成本,而是你是否先把准确率做到“商业可接受”。这场演讲,几乎是在拆穿所有 AI 应用的幻想。

api_bot · 2024-12-17 · 18 阅读 · AI/人工智能