文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练 Sam Altman 代码生成对话AI 多模态开源模型提示工程

当“评测”成为新工作：Mercor CEO谈AI如何重塑知识劳动

在这期RedpointAI播客中，Mercor CEO围绕一个颠覆性判断展开：未来大量知识工作将被“评测（evals）”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见，帮助读者理解正在逼近的结构性转变。

api_bot · 2025-06-04 · 13 阅读 · AI/人工智能

AI推理

2025年三大AI模型对决：选对工具，比选最强模型更重要

Peter Yang通过一系列真实演示，对ChatGPT、Claude和Gemini在2025年的核心能力进行了正面对比。这不是一场“谁最强”的评测，而是一份清晰的使用指南：在不同场景下，如何选到最合适、性价比最高、最省心的AI。

api_bot · 2025-06-04 · 32 阅读 · AI/人工智能

AI应用代码生成生成式AI 对话AI Claude

AI 原生开发的四次角色迁移：从写代码的人到管理智能的系统

Patrick Debois 在这场演讲中提出了“AI 原生开发”的四种核心模式，解释了生成式 AI 如何系统性地改变软件工程师的工作重心：从写代码，到管理代理、表达意图、探索问题，再到沉淀知识。这不是效率工具的升级，而是一场角色与工作方式的重构。

api_bot · 2025-06-04 · 17 阅读 · AI/人工智能

AI应用 AI Agent 代码生成检索增强生成生成式AI

Figma 不想只做设计了：Config 2025 上，网站被“重新定义”

在 Config 2025 的舞台上，Figma 抛出了一个足够激进的信号：设计稿不再是终点，甚至不再需要“交付”。从设计、原型到直接发布上线，网站这件事，被 Figma Sites 一口气吃了下来。这对设计师只是方便，但对 AI 从业者，影响要大得多。

api_bot · 2025-06-03 · 2 阅读 · AI/人工智能

从Afterparty聊到未来：人类如何与AI并肩创作

这场发生在Google I/O之后的非正式对谈，没有发布新产品，却罕见地展现了创作者、投资人和研究者如何理解“人类—AI协作”的下一步。从UI形态到影视创作，再到Notebook式工具，视频提供了许多只能在现场才能听到的真实判断。

api_bot · 2025-06-03 · 12 阅读 · AI/人工智能

Google Google DeepMind

Qwen 3之后，通用智能体模型将走向何方？

这是一场关于Qwen未来路线的内部式分享。演讲者从Qwen 3的发布讲起，解释他们为何把“可部署性”“智能体能力”和“持续开源”放在同一优先级上，并坦诚讨论了强化学习和通用模型落地的现实难题。

api_bot · 2025-06-03 · 18 阅读 · AI/人工智能

强化学习 AI Agent 开源模型模型部署大语言模型

把算力用在放大人类思考：一套以人为中心的AI交互范式

这篇文章提炼了Tusk创始工程师Jun Yu Tan关于“增强型AI界面”的核心思想：与其让人适应并监督自动化系统，不如用AI去放大人的判断、创造力与学习曲线。文章系统梳理了三种关键交互模式与背后的设计原则。

api_bot · 2025-06-03 · 11 阅读 · AI/人工智能

AI应用 AI Agent

没有“标准答案”的RAG评测：open-rag-eval在解决什么真问题

这篇文章深入解读Vectara推出的开源项目 open-rag-eval，解释它为何要在没有“golden answers”的情况下评测RAG系统，以及背后的研究方法、关键指标和实际使用体验，帮助RAG开发者真正理解并优化自己的检索增强生成流水线。

api_bot · 2025-06-03 · 24 阅读 · AI/人工智能

开源模型检索增强生成幻觉大语言模型 LangChain

别再迷信更大的模型：真正让AI Agent变强的是数据飞轮

在这场来自NVIDIA的分享中，Sylendran Arunagiri提出了一个反直觉但极具实操性的观点：高效、可扩展的AI Agent并不依赖更大的大语言模型，而依赖持续运转的数据飞轮。通过NVIDIA内部NV Info Agent的真实案例，他展示了如何用不到千条高质量数据，让1B、8B小模型逼近70B模型效果。

api_bot · 2025-06-03 · 23 阅读 · AI/人工智能