从评测到智能体:OpenAI如何打磨下一代模型
这期RedpointAI播客邀请了参与GPT‑4.1研发的OpenAI成员Michelle Pokris,围绕模型评测、微调、RFT发布以及AI Agent现状展开。她分享了OpenAI内部如何选择“值得攻克的评测”,以及为什么智能体和个性化将成为未来模型的重要分水岭。
这期RedpointAI播客邀请了参与GPT‑4.1研发的OpenAI成员Michelle Pokris,围绕模型评测、微调、RFT发布以及AI Agent现状展开。她分享了OpenAI内部如何选择“值得攻克的评测”,以及为什么智能体和个性化将成为未来模型的重要分水岭。
基于The AI Daily Brief解读的OpenAI《7 Lessons for Enterprise AI》,本文系统梳理企业落地AI的七条关键经验。从评估机制、产品重构到组织与开发者赋能,解释为什么决定成败的往往不是模型本身,而是方法与节奏。
这期No Priors播客首次系统讲述了OpenAI Deep Research的起源与设计取舍:为什么不把Agent做成“点按钮的机器人”,而是优先解决信息综合?以及强化学习如何在真实产品中学会规划、搜索与自我约束。
在通用大模型准确率逼近90%的今天,Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案:越“会思考”的模型,在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。
LinkedIn并非一开始就要打造宏大的GenAI平台,而是在真实产品压力下,一步步演化出支撑AI Agent的基础设施。本文还原Xiaofeng Wang的分享,讲清楚他们为何自建平台、如何从简单Prompt走向多智能体系统,以及这些选择背后的工程与组织洞见。
这场分享不是发布新模型,而是Anthropic首次系统性讲清:大模型如何真正进入企业核心业务。从Claude 3.5 Sonnet的工程优势,到可解释性如何影响安全与商业价值,再到客户实践中踩过的坑,这是一份来自一线的企业AI落地方法论。
这期《AI Daily Brief》串起了四个看似分散却高度相关的故事:Cursor的爆发式增长、OpenAI对新型AI硬件的野心、DeepMind用非竞业协议锁住人才,以及Meta陷入的基准测试争议。它们共同勾勒出当下AI产业的真实图景:自下而上的工具革命、人才争夺的白热化,以及对“指标”的集体焦虑。
Brightwave创始人Mike Conover从金融尽调一线的“人肉地狱”出发,讲述为什么金融AI Agent必须以“可验证”为核心设计原则,以及为何聊天式交互远不足以承载高风险金融决策。
YC最新视频聚焦AI代理平台Manis:它并非更强的单一模型,而是一套精密的多智能体协作系统。文章深入拆解其技术架构、真实能力、成本优势,以及“应用层rapper”模式的机会与隐忧,帮助读者理解AI代理下一阶段真正的竞争焦点。
当大多数公司直接接入现成AI工具时,Jane Street却选择了一条更难的路:围绕自研语言生态,从数据、训练到编辑器,重新打造AI开发工具链。这篇文章还原了他们如何在“模型不懂OCaml”的现实下,把大语言模型真正变成可用生产力。