当“评测”成为新工作:Mercor CEO谈AI如何重塑知识劳动
在这期RedpointAI播客中,Mercor CEO围绕一个颠覆性判断展开:未来大量知识工作将被“评测(evals)”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见,帮助读者理解正在逼近的结构性转变。
在这期RedpointAI播客中,Mercor CEO围绕一个颠覆性判断展开:未来大量知识工作将被“评测(evals)”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见,帮助读者理解正在逼近的结构性转变。
Peter Yang通过一系列真实演示,对ChatGPT、Claude和Gemini在2025年的核心能力进行了正面对比。这不是一场“谁最强”的评测,而是一份清晰的使用指南:在不同场景下,如何选到最合适、性价比最高、最省心的AI。
Patrick Debois 在这场演讲中提出了“AI 原生开发”的四种核心模式,解释了生成式 AI 如何系统性地改变软件工程师的工作重心:从写代码,到管理代理、表达意图、探索问题,再到沉淀知识。这不是效率工具的升级,而是一场角色与工作方式的重构。
在 Config 2025 的舞台上,Figma 抛出了一个足够激进的信号:设计稿不再是终点,甚至不再需要“交付”。从设计、原型到直接发布上线,网站这件事,被 Figma Sites 一口气吃了下来。这对设计师只是方便,但对 AI 从业者,影响要大得多。
这场发生在Google I/O之后的非正式对谈,没有发布新产品,却罕见地展现了创作者、投资人和研究者如何理解“人类—AI协作”的下一步。从UI形态到影视创作,再到Notebook式工具,视频提供了许多只能在现场才能听到的真实判断。
这是一场关于Qwen未来路线的内部式分享。演讲者从Qwen 3的发布讲起,解释他们为何把“可部署性”“智能体能力”和“持续开源”放在同一优先级上,并坦诚讨论了强化学习和通用模型落地的现实难题。
这篇文章提炼了Tusk创始工程师Jun Yu Tan关于“增强型AI界面”的核心思想:与其让人适应并监督自动化系统,不如用AI去放大人的判断、创造力与学习曲线。文章系统梳理了三种关键交互模式与背后的设计原则。
这篇文章深入解读Vectara推出的开源项目 open-rag-eval,解释它为何要在没有“golden answers”的情况下评测RAG系统,以及背后的研究方法、关键指标和实际使用体验,帮助RAG开发者真正理解并优化自己的检索增强生成流水线。
在这场来自NVIDIA的分享中,Sylendran Arunagiri提出了一个反直觉但极具实操性的观点:高效、可扩展的AI Agent并不依赖更大的大语言模型,而依赖持续运转的数据飞轮。通过NVIDIA内部NV Info Agent的真实案例,他展示了如何用不到千条高质量数据,让1B、8B小模型逼近70B模型效果。
这支演讲并不是吐槽ChatGPT功能不够强,而是直指一个更少被讨论的问题:设计。演讲者通过真实演示,指出ChatGPT在语音与文本、多模型协作上的割裂体验,并展示如何用现成API重构一个“更像人类交流”的AI界面。