50分钟讲清AI评测:从人工标注到LLM裁判的真实路径
这是一堂面向初学者却不止于入门的AI评测课程。视频通过一个“并不性感但极其关键”的实操示例,讲清楚为什么AI eval正在成为核心基础设施,以及如何从人工标注数据集一步步过渡到“LLM as a judge”的评测体系。
这是一堂面向初学者却不止于入门的AI评测课程。视频通过一个“并不性感但极其关键”的实操示例,讲清楚为什么AI eval正在成为核心基础设施,以及如何从人工标注数据集一步步过渡到“LLM as a judge”的评测体系。
这期《AI Daily Brief》看似是几条零散新闻,实则勾勒出一条清晰主线:美国正在用更“直接”的方式介入AI与关键基础设施。从政府拟持股Intel,到核能为数据中心供电,再到开源模型被“去对齐”,每一步都在重塑创新的边界。
Anthropic让Claude在极端情况下主动结束对话,引发了“AI模型福利是否存在”的激烈争论。与此同时,OpenAI 5000亿美元估值的二级交易、Meta超级智能团队的再重组,以及资本对AI的狂热追逐,共同勾勒出当下AI产业在伦理、资本与组织形态上的关键张力。
Amazon AGI实验室的认知科学家Danielle Perszyk,用一场并不炫技的演讲,重新定义了“有用的通用人工智能”。她从幻觉、自动化失灵、人机对齐到计算机使用代理,解释了为什么今天的模型还不够通用,以及真正的突破可能来自哪些被忽视的方向。
这场演讲并不是在发布一个更快的云或更强的模型,而是在反问:当机器的思考速度逼近光速,人类为它们准备的世界是否还配得上?Jesse Han从哲学隐喻出发,提出“云应为思考机器而生”,并用Infinibranch与Morph Cloud展示了一条通往可验证超级智能的基础设施路径。
随着AI从“写代码”进化为“执行代码”,安全问题被推到台前。OpenAI安全工程师Fouad Matin结合Codex与代码执行智能体的实践,讲述了为何所有AI都会变成代码执行者,以及如何通过沙箱、权限与人类审查,避免这股力量反噬。
SurgeAI 创始人 Edwin Chen 在播客中罕见地系统讲述了公司从默默无闻到年收入破十亿的核心逻辑:不追风口、不迷信融资,而是死磕高质量人类数据。本篇文章提炼了他对模型训练、数据质量、RLHF 以及 AI 对齐的关键洞见。
这期《The AI Daily Brief》串联了三条正在加速汇合的AI主线:OpenAI开源模型的反复延期、中国开源模型Kimmy K2带来的现实压力,以及Hugging Face和Meta在硬件与语音上的布局。它不仅是新闻汇总,更透露出大模型时代正在发生的结构性变化。
Alex Duffy提出一个反直觉却极具力量的观点:AI基准测试不是中立工具,而是像“模因”一样会传播、进化,并最终塑造模型能力与人类价值。通过Pokémon、Diplomacy等生动案例,他揭示了谁在定义评测,谁就在定义AI要变成什么。
Grock 4的发布再次把马斯克推到AI舞台中央。这篇文章梳理了发布会的关键细节、XAI自报成绩背后的争议,以及为什么ARC AGI测试的突破让一些分析师重新相信“不要押注马斯克会失败”。