DeepSeek之后，AI真的被“改写”了吗？

AI PM 编辑部 · 2025年02月01日 · 12 阅读 · AI/人工智能

Mark Zuckerberg Yann LeCun Dario Amodei 蒸馏强化学习 AI应用模型训练模型部署 GPU 开源模型

正在加载视频...

视频章节

一周之内，DeepSeek把AI行业搅得天翻地覆：白宫关注、市场恐慌、创业公司争相接入。但当喧嚣退去，这真的是一次范式转移，还是被放大的误读？本文拆解技术细节、关键人物判断与真实成本，带你看清这一周AI真正改变了什么。

DeepSeek之后，AI真的被“改写”了吗？

一周之内，DeepSeek把AI行业搅得天翻地覆：白宫关注、市场恐慌、创业公司争相接入。但当喧嚣退去，这真的是一次范式转移，还是被放大的误读？本文拆解技术细节、关键人物判断与真实成本，带你看清这一周AI真正改变了什么。

一周爆红的DeepSeek：突破、质疑与地缘政治

这一周的AI新闻几乎只有一个主角：DeepSeek。《AI Daily Brief》一开场就抛出问题——“历史会记住这一周，但它真的改变了一切吗？”重要性在于，DeepSeek不只是技术事件，而是迅速被卷入地缘政治和产业叙事。

质疑来得非常快，而且层级极高。白宫公开讨论DeepSeek是否存在“蒸馏”（distillation）行为——即通过让小模型学习大模型生成的合成数据，模仿其推理过程。白宫AI事务负责人David Sacks在福克斯新闻上直言：“有大量证据表明，DeepSeek从OpenAI模型中蒸馏了知识。”这句话的分量，不在于是否最终成立，而在于它为行政层面“降级”DeepSeek成就提供了叙事空间。

有意思的是，蒸馏本身并非灰色技术。OpenAI曾长期鼓励这一方法，甚至在2024年10月推出官方蒸馏平台。DeepSeek也在技术论文中明确记录了使用蒸馏，但没有披露“父模型”。因此，这场争议更像是技术事实与政治解读之间的拉扯，而不是简单的抄袭指控。

6百万美元训练成本是真是假？数字第一次被拆开

DeepSeek最具冲击力的说法，是其模型训练成本“不到600万美元”。这之所以重要，是因为它直接挑战了“只有巨额资本才能训练前沿模型”的行业共识。

技术圈并未一边倒地否定。Anthropic联合创始人Jack Clark指出，DeepSeek R1最令人意外的地方在于：“只需要大约80万条高质量强化学习推理样本，就能把其他模型转化为RL推理模型。”Accelerate Harder进一步给出算力估算：DeepSeek V3拥有370亿个活跃参数，训练于14.8万亿token，总计算量约为3.3×10²⁴ FLOPs，理论上用280万小时的NVIDIA H800即可完成。

真正改变讨论走向的，是快速出现的复现实验。伯克利实验室用15亿参数的小模型，仅花30美元算力就做出推理能力的概念验证；香港科技大学助理教授Jun Shen团队，用8000条RL样本为Qwen 7B加入推理能力。更大规模的复现正在Hugging Face进行，使用768张NVIDIA H100。这些故事让一个结论变得越来越难忽视：成本下降，可能是真的。

从训练转向推理：算力战争的真正战场

如果说DeepSeek带来一个共识，那就是：AI竞赛的重心正在从“训练”转向“推理”。这很关键，因为它重新解释了本周的市场恐慌。

芯片创业公司Cerebras趁机展示了自己的“晶圆级”架构：把多个GPU核心直接集成在一整块晶圆上，让通信发生在芯片内部。他们声称，其服务器运行70B版DeepSeek R1的速度，比传统GPU方案快57倍。原因很简单——推理模型在生成答案时消耗的算力极高，尤其是带长链路思考（chain-of-thought）的模型。

Meta首席科学家Yann LeCun直接反驳了“DeepSeek会降低芯片需求”的说法：“对AI基础设施投资的巨大误解在于，数百亿美元并不是只花在训练上，更多是花在推理上。”这句话解释了为何芯片和数据中心长期需求并未真正消失。

模型正在商品化，真正的护城河只剩体验

另一个肉眼可见的变化，是模型切换成本几乎降为零。Perplexity迅速上线DeepSeek R1，并通过自定义系统提示绕过内容限制；微软将其接入Azure AI Foundry和GitHub；亚马逊紧随其后，加入AWS Bedrock和SageMaker。CEO Tim Cook虽然没直接接入，但在财报电话会上评价：“推动效率的创新是好事。”

这意味着，模型本身正在快速商品化。Matrix Ventures合伙人写道：“如果任何不错的基础模型都能被转化为强推理模型，算力支出将更剧烈地转向推理。”Perplexity CEO Aravind Srinivas甚至展望了更激进的未来：“现在的测试时计算只是推理，真正疯狂的是测试时训练——模型在回答问题时实时更新权重。”

在这种背景下，竞争优势越来越集中到最终用户体验，而不是模型参数表。

巨头的冷静回应：DeepSeek没那么神，也没那么弱

面对舆论风暴，大厂高层的态度反而异常冷静。Anthropic CEO Dario Amodei在博客《On DeepSeek and Export Controls》中直言，DeepSeek“并未显著领先美国实验室”。他澄清一个关键误解：Claude 3.5 Sonnet的训练成本并非数十亿美元，而是“几千万美元级别”，真正昂贵的是模型发布后的推理数据中心。

他的判断是，DeepSeek用更低成本，做出了接近美国实验室“7到10个月前水平”的模型，但远没有达到媒体渲染的数量级差距。Meta CEO Mark Zuckerberg在财报电话会上也表现淡定：“他们确实做了一些新颖的事情，我们会消化、吸收，这是这个行业的常态……不管是不是中国竞争者，今年都会非常激烈，系好安全带吧。”

这些回应共同指向一个现实：DeepSeek是一次重要进展，但不是终局。

总结

回头看，这一周AI确实发生了变化，但不是“旧秩序崩塌”的那种。DeepSeek真正撼动的，是人们对成本、推理与竞争焦点的认知：训练不再是唯一门槛，推理才是长期战场，模型本身正在迅速商品化。对创业者来说，机会在效率和体验；对行业来说，这只是更激烈阶段的开始。

关键词： DeepSeek，模型蒸馏，推理算力， AI基础设施，模型商品化

事实核查备注：视频来源：The AI Daily Brief（2025-02-01）；关键人物：David Sacks、Jack Clark、Yann LeCun、Dario Amodei、Mark Zuckerberg；关键数字：<600万美元训练成本说法、800k RL样本、3.3e24 FLOPs、280万H800小时、30美元算力实验、768张H100；关键技术：模型蒸馏、强化学习、推理（inference）、晶圆级芯片（Cerebras）；产品与公司：DeepSeek R1、Qwen 7B、Claude 3.5 Sonnet、Azure AI Foundry、AWS Bedrock、Hugging Face、NVIDIA

返回文章列表