DeepSeek之后,AI真的被“改写”了吗?

AI PM 编辑部 · 2025年02月01日 · 12 阅读 · AI/人工智能

正在加载视频...

视频章节

一周之内,DeepSeek把AI行业搅得天翻地覆:白宫关注、市场恐慌、创业公司争相接入。但当喧嚣退去,这真的是一次范式转移,还是被放大的误读?本文拆解技术细节、关键人物判断与真实成本,带你看清这一周AI真正改变了什么。

DeepSeek之后,AI真的被“改写”了吗?

一周之内,DeepSeek把AI行业搅得天翻地覆:白宫关注、市场恐慌、创业公司争相接入。但当喧嚣退去,这真的是一次范式转移,还是被放大的误读?本文拆解技术细节、关键人物判断与真实成本,带你看清这一周AI真正改变了什么。

一周爆红的DeepSeek:突破、质疑与地缘政治

这一周的AI新闻几乎只有一个主角:DeepSeek。《AI Daily Brief》一开场就抛出问题——“历史会记住这一周,但它真的改变了一切吗?”重要性在于,DeepSeek不只是技术事件,而是迅速被卷入地缘政治和产业叙事。

质疑来得非常快,而且层级极高。白宫公开讨论DeepSeek是否存在“蒸馏”(distillation)行为——即通过让小模型学习大模型生成的合成数据,模仿其推理过程。白宫AI事务负责人David Sacks在福克斯新闻上直言:“有大量证据表明,DeepSeek从OpenAI模型中蒸馏了知识。”这句话的分量,不在于是否最终成立,而在于它为行政层面“降级”DeepSeek成就提供了叙事空间。

有意思的是,蒸馏本身并非灰色技术。OpenAI曾长期鼓励这一方法,甚至在2024年10月推出官方蒸馏平台。DeepSeek也在技术论文中明确记录了使用蒸馏,但没有披露“父模型”。因此,这场争议更像是技术事实与政治解读之间的拉扯,而不是简单的抄袭指控。

6百万美元训练成本是真是假?数字第一次被拆开

DeepSeek最具冲击力的说法,是其模型训练成本“不到600万美元”。这之所以重要,是因为它直接挑战了“只有巨额资本才能训练前沿模型”的行业共识。

技术圈并未一边倒地否定。Anthropic联合创始人Jack Clark指出,DeepSeek R1最令人意外的地方在于:“只需要大约80万条高质量强化学习推理样本,就能把其他模型转化为RL推理模型。”Accelerate Harder进一步给出算力估算:DeepSeek V3拥有370亿个活跃参数,训练于14.8万亿token,总计算量约为3.3×10²⁴ FLOPs,理论上用280万小时的NVIDIA H800即可完成。

真正改变讨论走向的,是快速出现的复现实验。伯克利实验室用15亿参数的小模型,仅花30美元算力就做出推理能力的概念验证;香港科技大学助理教授Jun Shen团队,用8000条RL样本为Qwen 7B加入推理能力。更大规模的复现正在Hugging Face进行,使用768张NVIDIA H100。这些故事让一个结论变得越来越难忽视:成本下降,可能是真的。

从训练转向推理:算力战争的真正战场

如果说DeepSeek带来一个共识,那就是:AI竞赛的重心正在从“训练”转向“推理”。这很关键,因为它重新解释了本周的市场恐慌。

芯片创业公司Cerebras趁机展示了自己的“晶圆级”架构:把多个GPU核心直接集成在一整块晶圆上,让通信发生在芯片内部。他们声称,其服务器运行70B版DeepSeek R1的速度,比传统GPU方案快57倍。原因很简单——推理模型在生成答案时消耗的算力极高,尤其是带长链路思考(chain-of-thought)的模型。

Meta首席科学家Yann LeCun直接反驳了“DeepSeek会降低芯片需求”的说法:“对AI基础设施投资的巨大误解在于,数百亿美元并不是只花在训练上,更多是花在推理上。”这句话解释了为何芯片和数据中心长期需求并未真正消失。

模型正在商品化,真正的护城河只剩体验

另一个肉眼可见的变化,是模型切换成本几乎降为零。Perplexity迅速上线DeepSeek R1,并通过自定义系统提示绕过内容限制;微软将其接入Azure AI Foundry和GitHub;亚马逊紧随其后,加入AWS Bedrock和SageMaker。CEO Tim Cook虽然没直接接入,但在财报电话会上评价:“推动效率的创新是好事。”

这意味着,模型本身正在快速商品化。Matrix Ventures合伙人写道:“如果任何不错的基础模型都能被转化为强推理模型,算力支出将更剧烈地转向推理。”Perplexity CEO Aravind Srinivas甚至展望了更激进的未来:“现在的测试时计算只是推理,真正疯狂的是测试时训练——模型在回答问题时实时更新权重。”

在这种背景下,竞争优势越来越集中到最终用户体验,而不是模型参数表。

巨头的冷静回应:DeepSeek没那么神,也没那么弱

面对舆论风暴,大厂高层的态度反而异常冷静。Anthropic CEO Dario Amodei在博客《On DeepSeek and Export Controls》中直言,DeepSeek“并未显著领先美国实验室”。他澄清一个关键误解:Claude 3.5 Sonnet的训练成本并非数十亿美元,而是“几千万美元级别”,真正昂贵的是模型发布后的推理数据中心。

他的判断是,DeepSeek用更低成本,做出了接近美国实验室“7到10个月前水平”的模型,但远没有达到媒体渲染的数量级差距。Meta CEO Mark Zuckerberg在财报电话会上也表现淡定:“他们确实做了一些新颖的事情,我们会消化、吸收,这是这个行业的常态……不管是不是中国竞争者,今年都会非常激烈,系好安全带吧。”

这些回应共同指向一个现实:DeepSeek是一次重要进展,但不是终局。

总结

回头看,这一周AI确实发生了变化,但不是“旧秩序崩塌”的那种。DeepSeek真正撼动的,是人们对成本、推理与竞争焦点的认知:训练不再是唯一门槛,推理才是长期战场,模型本身正在迅速商品化。对创业者来说,机会在效率和体验;对行业来说,这只是更激烈阶段的开始。


关键词: DeepSeek, 模型蒸馏, 推理算力, AI基础设施, 模型商品化

事实核查备注: 视频来源:The AI Daily Brief(2025-02-01);关键人物:David Sacks、Jack Clark、Yann LeCun、Dario Amodei、Mark Zuckerberg;关键数字:<600万美元训练成本说法、800k RL样本、3.3e24 FLOPs、280万H800小时、30美元算力实验、768张H100;关键技术:模型蒸馏、强化学习、推理(inference)、晶圆级芯片(Cerebras);产品与公司:DeepSeek R1、Qwen 7B、Claude 3.5 Sonnet、Azure AI Foundry、AWS Bedrock、Hugging Face、NVIDIA