500 Token/秒的怪兽出现：它不是GPT，也不是Gemini

AI PM 编辑部 · 2024年02月21日 · 3 阅读 · AI/人工智能

Token AI推理 AI芯片 AI应用推理 GPU 大语言模型生成式AI 提示工程代码理解

正在加载视频...

视频章节

当所有人盯着 Sora 和 Gemini 1.5 时，一个几乎没上热搜的项目，悄悄把大语言模型的“速度天花板”直接掀了。不是模型变聪明了，而是“生成几乎没有等待时间”——这可能是生成式 AI 进入下一阶段的真正信号。

500 Token/秒的怪兽出现：它不是GPT，也不是Gemini

当所有人盯着 Sora 和 Gemini 1.5 时，一个几乎没上热搜的项目，悄悄把大语言模型的“速度天花板”直接掀了。不是模型变聪明了，而是“生成几乎没有等待时间”——这可能是生成式 AI 进入下一阶段的真正信号。

AI Day Zero 之后，真正的变量不是“更强”，而是“更快”

2 月 15 日，Sora 和 Gemini 1.5 同天发布，有评论说那一天是“AI Day Zero”——生成式 AI 正式从 Beta 走向可用。但很多人忽略了第三条暗线：推理速度。

就在同一个周末，一条推文开始在 AI 圈疯传。Hyperight CEO Matt Schumer 试用了一个叫 Groq 的网站，结论简单粗暴：“接近 500 tokens/秒，几乎是瞬时响应。”这不是“快一点”，而是 UX 直接换物种。

以往我们默认：大模型=聪明但慢，需要忍耐 loading。而 Groq 把这个前提干掉了。很多体验过的人都有类似反应：第一次感觉模型不是在‘生成’，而是在‘直接说出来’。这是质变，而不是优化。

不是新模型，是新硬件：LPU 才是这次的主角

关键反直觉点在这里：Groq 并没有发布什么全新大模型。

他们跑的是你已经很熟的东西——Mixtral、LLaMA 2 70B。真正颠覆的是底层：他们不用 GPU，而是自研了一种叫 LPU（Language Processing Unit）的推理芯片。

GPU 的核心优势是并行，最早为图形渲染服务，后来被‘借用’来跑 AI。但 LLM 推理有个特点：强顺序性。一个 token 没算完，下一个 token 根本没法开始。GPU 在这里反而有调度、访存、线程管理的额外负担。

LPU 的设计是“从第一性原理出发”，只为一件事服务：语言推理。Groq 把它叫做 TSP（Tensor Streaming Processor），本质是一个线性处理器，追求的是确定性延迟，而不是峰值算力。这意味着：
- 每个时钟周期都在干正事
- 延迟可预测，不抖动
- 内存瓶颈被极大削弱

结果就是：生成速度提升一个数量级。不是 20%，是 10 倍。

10 倍速度意味着什么？不是爽，是用法全变了

有人做了直观对比：同一个代码调试问题，Groq 比 Gemini 快 10 倍，比 ChatGPT（GPT‑3.5）快 18 倍。但有意思的是，测试者同时强调：Gemini 的回答质量更好。

这恰恰点出了关键：速度和智力正在被解耦。

当生成几乎没有等待时间，LLM 不再只是“问答工具”，而是可以嵌入实时系统的组件：
- 实时搜索与引用（搜索时间反而成了主要延迟）
- 交互式编程辅助，不再打断思路
- 游戏、语音、Agent 中的连续对话

有人评价得很狠：“Groq vs GPT‑3.5，是完全不同的用户体验。”这不是模型升级，而是产品范式切换。就像从拨号上网到光纤，中间不是多快一点的问题。

质疑也很现实：这玩意，经济上说得通吗？

争议马上就来了，而且非常专业。

有工程师直接算账：一张 Groq 卡要 2 万美元，显存只有 0.23GB。要跑一个 LLaMA 70B，难道要塞几百张卡、两个机柜、上千万美元？这不炸了吗？

反驳也同样直白：“几乎所有 LLM 在早期都不经济。OpenAI 还在烧钱，Vision Pro 也卖得贵，但没人否认它们打开了新可能。”

Groq 官方的态度也很明确：我们现在关心的是，把最低延迟做到行业极限。至于成本，会随着规模和迭代下降。

甚至已经有人开始下注结局：‘一个月内会有 10 亿美元收购要约。’Groq 的回应很硬气：‘加两个零再说。我们不卖，还在疯狂扩基础设施。’

总结

这件事对从业者真正的启发，不是“又一个更快的 LLM”，而是一个判断标准的变化：未来的模型竞争，维度不只是谁更聪明，而是谁更像“实时系统”。

如果你在做产品，现在就该问自己一个问题：如果生成几乎没有延迟，我的交互设计会不会完全不一样？如果答案是“会”，那你已经站在下一波机会门口了。

接下来值得持续关注的，不只是 Groq 会不会被收购，而是：GPU 统治 LLM 推理的时代，是否真的开始松动。

关键词： LLM推理速度， Groq LPU，生成式AI硬件， AI芯片，低延迟AI

事实核查备注：需要核查的关键事实：Groq 推理速度约 500 tokens/秒的公开演示数据；LPU/TSP 的官方定义与架构描述；Groq 演示所用模型为 Mixtral 与 LLaMA 2 70B；关于 Gemini、GPT‑3.5 的速度对比来源；推文中关于 10 亿美元收购猜测的原始表述与时间（2024-02-21 前后）。

返回文章列表