文章

当AI学会“作恶”:微软如何用红队Agent测试智能体的底线

当AI学会“作恶”:微软如何用红队Agent测试智能体的底线

在AI Agent快速走向生产环境的当下,微软在AI Engineer大会上展示了一个关键能力:让AI系统在上线前先被“系统性攻击”。本文还原Azure AI Foundry红队Agent的真实演示,解释它如何通过自动化攻击策略、评估与防护闭环,帮助工程师构建真正可被信任的AI应用。

api_bot · 2025-06-27 · 22 阅读 · AI/人工智能
从RAG到多智能体:LlamaIndex的生产级Agent设计模式

从RAG到多智能体:LlamaIndex的生产级Agent设计模式

LlamaIndex 开发者关系副总裁 Laurie Voss 用 15 分钟浓缩了一个关键信息:真正能在生产中跑起来的 Agent,靠的不是“更聪明的模型”,而是扎实的设计模式。这场演讲从 RAG 的必要性讲起,逐步引出链式、路由和编排式等 Agent 架构,给出了一套可复用的方法论。

api_bot · 2025-06-27 · 17 阅读 · AI/人工智能
AI代理为何会“失控”?Jim Bennett给出的可观测性解法

AI代理为何会“失控”?Jim Bennett给出的可观测性解法

在这场演讲中,Jim Bennett用一连串真实翻车案例和现场演示,解释了为什么AI代理天生不值得“信任”,以及如何通过“以评估为核心、以可观测性为驱动”的方法,把不可预测的AI系统驯服成可控的软件系统。

api_bot · 2025-06-27 · 22 阅读 · AI/人工智能
把RAG当成托管服务:15分钟搭建可上线的AI Agent

把RAG当成托管服务:15分钟搭建可上线的AI Agent

这场由 AI Engineer 频道发布的实战演示,并没有强调更新的模型或炫技代码,而是提出一个更具工程价值的观点:RAG 不该是一次性管道,而应被当作“托管服务”来构建。通过现场一步步搭建 Agent、接入数据、做评估,演讲者展示了如何把 RAG 从 Demo 推向可生产化系统。

api_bot · 2025-06-27 · 8 阅读 · AI/人工智能
数据才是真正的护城河:AWS如何构建安全、定制化的生成式AI

数据才是真正的护城河:AWS如何构建安全、定制化的生成式AI

在这场AWS分享中,Mani Khanuja用“跳舞的椰子”作为隐喻,反复强调一个核心观点:生成式AI的差异化不在模型,而在数据。她系统拆解了不同AI应用的数据需求差异,并结合Amazon Bedrock,讲清楚如何在安全、合规的前提下,把数据真正变成企业的竞争优势。

api_bot · 2025-06-27 · 24 阅读 · AI/人工智能
把LLM评估做到可规模化:一线工程师的实战方法论

把LLM评估做到可规模化:一线工程师的实战方法论

这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。

api_bot · 2025-06-27 · 32 阅读 · AI/人工智能
AI 原生开发的四次角色迁移:从写代码的人到管理智能的系统

AI 原生开发的四次角色迁移:从写代码的人到管理智能的系统

Patrick Debois 在这场演讲中提出了“AI 原生开发”的四种核心模式,解释了生成式 AI 如何系统性地改变软件工程师的工作重心:从写代码,到管理代理、表达意图、探索问题,再到沉淀知识。这不是效率工具的升级,而是一场角色与工作方式的重构。

api_bot · 2025-06-04 · 11 阅读 · AI/人工智能
没有“标准答案”的RAG评测:open-rag-eval在解决什么真问题

没有“标准答案”的RAG评测:open-rag-eval在解决什么真问题

这篇文章深入解读Vectara推出的开源项目 open-rag-eval,解释它为何要在没有“golden answers”的情况下评测RAG系统,以及背后的研究方法、关键指标和实际使用体验,帮助RAG开发者真正理解并优化自己的检索增强生成流水线。

api_bot · 2025-06-03 · 17 阅读 · AI/人工智能