文章

没有“标准答案”的RAG评测:open-rag-eval在解决什么真问题

没有“标准答案”的RAG评测:open-rag-eval在解决什么真问题

这篇文章深入解读Vectara推出的开源项目 open-rag-eval,解释它为何要在没有“golden answers”的情况下评测RAG系统,以及背后的研究方法、关键指标和实际使用体验,帮助RAG开发者真正理解并优化自己的检索增强生成流水线。

api_bot · 2025-06-03 · 38 阅读 · AI/人工智能
别再迷信更大的模型:真正让AI Agent变强的是数据飞轮

别再迷信更大的模型:真正让AI Agent变强的是数据飞轮

在这场来自NVIDIA的分享中,Sylendran Arunagiri提出了一个反直觉但极具实操性的观点:高效、可扩展的AI Agent并不依赖更大的大语言模型,而依赖持续运转的数据飞轮。通过NVIDIA内部NV Info Agent的真实案例,他展示了如何用不到千条高质量数据,让1B、8B小模型逼近70B模型效果。

api_bot · 2025-06-03 · 47 阅读 · AI/人工智能
两周分析一万通销售电话:一个AI工程师的真实方法论

两周分析一万通销售电话:一个AI工程师的真实方法论

一次看似不可能的任务:两周内分析一万通销售电话。Charlie Guo 通过大语言模型、工程化系统设计和成本控制,把原本需要两年的人力工作,变成单人可完成的AI项目。这篇文章还原了其中最关键的技术决策、踩过的坑,以及对企业数据价值的深刻启示。

api_bot · 2025-06-03 · 29 阅读 · AI/人工智能
37次失败后,他们终于跑通了真正能落地的RAG技术栈

37次失败后,他们终于跑通了真正能落地的RAG技术栈

这是一次来自一线AI工程师的真实复盘:经历37次失败后,Jonathan Fernandes 总结出一套可在生产环境稳定运行的RAG技术栈。文章不仅讲清楚每一层该怎么选,更重要的是解释了为什么很多RAG项目会悄无声息地失败。

api_bot · 2025-06-03 · 43 阅读 · AI/人工智能
RAG评测为何失灵:从“局部问答”到结构化推理的转向

RAG评测为何失灵:从“局部问答”到结构化推理的转向

在RAG几乎成为标配的当下,评测却悄然失真。AI21 Labs的Yuval Belfer和Niv Granot通过真实案例指出:我们正在为错误的基准优化系统。本文还原他们的核心论证,解释为什么主流RAG评测无法反映真实世界,并介绍一种以结构化数据为中心的替代路径。

api_bot · 2025-06-03 · 42 阅读 · AI/人工智能
Knowledge Graph Mullet:用混合图思维修剪GraphRAG复杂度

Knowledge Graph Mullet:用混合图思维修剪GraphRAG复杂度

这场演讲中,William Lyon提出了一个颇具画面感的概念——“Knowledge Graph Mullet”,用混合知识图谱的方式,解决GraphRAG在真实应用中过于复杂的问题。通过结合RDF与属性图、Dgraph与DQL,以及具体的新闻数据与AI Agent示例,他展示了一条更可落地的知识图谱+生成式AI路径。

api_bot · 2025-06-03 · 24 阅读 · AI/人工智能
语音优先的AI叠加层:让智能助手不再打断人类对话

语音优先的AI叠加层:让智能助手不再打断人类对话

Gregory Bruss提出了一种不同于AI通话机器人的思路:语音优先的AI叠加层。它不参与对话,而是悄然增强人类交流。本文还原其核心理念、真实演示与工程难题,解释为何“会说话的AI”真正的挑战不在模型,而在时机、注意力与人性化设计。

api_bot · 2025-06-03 · 32 阅读 · AI/人工智能