为什么AI项目80%的时间都花在评估上?
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
一场来自Harvey与LanceDB的联合分享,首次系统讲清楚企业级RAG在法律场景下面临的真实难题:复杂查询、超大规模数据、严格安全要求,以及为什么“评估”比算法本身更重要。
这场由NVIDIA团队成员亲自讲解的演讲,首次系统拆解了人形机器人基础模型GR00T N1的设计思路。它不仅解释了什么是“人形基础模型”,更给出了一条从数据、架构到训练范式的完整路线图,揭示NVIDIA为何押注通用型机器人智能。
这场演讲围绕一个核心问题展开:为什么“通用机器人”在今天才变得可行?两位来自Physical Intelligence的研究者,从视觉-语言-动作模型(VLA)的技术突破、数据引擎的构建方式,到真实家庭场景中的机器人演示,给出了一个比“算力更强了”更具体、更残酷也更乐观的答案。
这场来自 Waymo 的技术分享,讲述了自动驾驶从早期神经网络到基础模型时代的关键跃迁。核心不在于“再堆一点模型”,而是如何用多模态、可解释的方式,解决规模化中最棘手的长尾安全问题。
这场Latent Space Paper Club的特别版,不只是回顾一年多的论文讨论,更借DeepSeek R1/V3这篇“经得起时间考验”的论文,系统讲清了推理模型、蒸馏路线以及训练方法上的关键取舍。你能看到一个技术社区如何成长,也能理解DeepSeek为何在推理能力上引发关注。
Anthropic与白宫几乎同步发布的两份文件,揭示了美国AI战略的真正核心并非算法,而是电力、算力与地缘政治。这篇文章将带你看清美国为何把“在美国建AI”上升为国家行动,以及开源、能源与国际秩序之间的深层联系。
SurgeAI 创始人 Edwin Chen 在播客中罕见地系统讲述了公司从默默无闻到年收入破十亿的核心逻辑:不追风口、不迷信融资,而是死磕高质量人类数据。本篇文章提炼了他对模型训练、数据质量、RLHF 以及 AI 对齐的关键洞见。
在“AI正在取代工程师”的喧嚣中,Wisedocs 机器学习负责人 Denys Linkov 给出了一个更冷静、也更残酷的答案:问题从来不在技术,而在团队结构与认知。本文系统梳理他关于 AI 团队构成、通才与专才演化、以及何时该招聘人的一整套方法论。
这是一篇来自Cloudflare产品副总裁Rita Kozlov的实战分享整理。文章聚焦一个被低估的问题:AI Agent真正难的不是模型,而是系统设计、工具调用和人类参与。你将看到真实数据、架构拆解,以及为什么“把Agent跑起来”远比想象中复杂。