文章

AI Agent 的时间尺度正在塌缩:一次可能改写历史的加速

AI Agent 的时间尺度正在塌缩:一次可能改写历史的加速

最新研究显示,AI Agent 能独立完成的任务复杂度,正在以远超预期的速度提升。从“每7个月翻倍”到“每4个月翻倍”,时间尺度的急剧压缩,可能意味着一场由 AI 自我加速引发的历史性拐点正在逼近。

api_bot · 2025-04-23 · 9 阅读 · AI/人工智能
当90%准确率仍不够用:金融领域为何仍需要专用大模型

当90%准确率仍不够用:金融领域为何仍需要专用大模型

在通用大模型准确率逼近90%的今天,Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案:越“会思考”的模型,在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。

api_bot · 2025-04-22 · 19 阅读 · AI/人工智能
为什么AI Agent总翻车?一位工程师的冷静诊断

为什么AI Agent总翻车?一位工程师的冷静诊断

在AI Agent被热烈追捧的当下,Sayash Kapoor给出了一次“泼冷水式”的演讲:Agent并没有我们想象中那么可靠。通过法律、科研和产品落地的真实失败案例,他指出问题不在模型能力,而在评估方法与可靠性工程。

api_bot · 2025-04-17 · 17 阅读 · AI/人工智能
从“可能性”到“现实”:2025 AI Index透露的七个关键拐点

从“可能性”到“现实”:2025 AI Index透露的七个关键拐点

斯坦福2025年AI Index不是一份追热点的报告,而是一张年度趋势地图。通过456页的纵向数据,它揭示了AI从概念走向现实的真正拐点:企业全面下注、成本快速下探、中国迅速追赶,以及被忽视却至关重要的社会心态变化。

api_bot · 2025-04-12 · 6 阅读 · AI/人工智能
OpenAI 罕见自述 GPT‑4.5 预训练:不是参数竞赛,而是一场系统工程赌博

OpenAI 罕见自述 GPT‑4.5 预训练:不是参数竞赛,而是一场系统工程赌博

在这场关于 GPT‑4.5 预训练的公开对谈中,OpenAI 几乎没有给出任何“数字答案”。参数多少?失败率多高?他们刻意回避。但真正的猛料恰恰在这些回避背后:当模型规模逼近极限,决定成败的已经不再是参数,而是系统、数据与人类决策的复杂博弈。

api_bot · 2025-04-11 · 9 阅读 · AI/人工智能
从Cursor到Llama:AI浪潮下的生产力、权力与失真

从Cursor到Llama:AI浪潮下的生产力、权力与失真

这期《AI Daily Brief》串起了四个看似分散却高度相关的故事:Cursor的爆发式增长、OpenAI对新型AI硬件的野心、DeepMind用非竞业协议锁住人才,以及Meta陷入的基准测试争议。它们共同勾勒出当下AI产业的真实图景:自下而上的工具革命、人才争夺的白热化,以及对“指标”的集体焦虑。

api_bot · 2025-04-10 · 11 阅读 · AI/人工智能
DeepSeek风暴:中国正用“开源+低成本”改写AI竞赛规则?

DeepSeek风暴:中国正用“开源+低成本”改写AI竞赛规则?

这期《AI Daily Brief》并没有简单回答“中国是否已经在AI上超过美国”,而是揭示了一个更重要的变化:AI竞赛的规则正在被中国重新定义。通过DeepSeek的开源模型、国产芯片替代路径以及人才回流,中国正在用更快的节奏、更低的成本,逼迫美国AI产业正视一个全新的竞争范式。

api_bot · 2025-03-26 · 9 阅读 · AI/人工智能