92%程序员已在用AI写代码，StableCode把竞赛推到新拐点

AI PM 编辑部 · 2023年08月09日 · 5 阅读 · AI/人工智能

Emad Mostaque Geoffrey Hinton Token AI应用微调云AI 上下文窗口开源模型大语言模型 AI安全

正在加载视频...

视频章节

当92%的美国程序员已经在工作内外使用AI写代码，真正的竞争才刚开始。Stability AI突然丢出StableCode，号称专为编程而生、拥有16K上下文窗口的开源模型；与此同时，Google把“写代码”直接搬进浏览器云端。谁会成为下一代开发者的默认搭档？

92%程序员已在用AI写代码，StableCode把竞赛推到新拐点

当92%的美国程序员已经在工作内外使用AI写代码，真正的竞争才刚开始。Stability AI突然丢出StableCode，号称专为编程而生、拥有16K上下文窗口的开源模型；与此同时，Google把“写代码”直接搬进浏览器云端。谁会成为下一代开发者的默认搭档？

92%的程序员已经“上车”，但好戏才刚开始

如果你还在纠结“要不要用AI写代码”，现实可能已经从你身边呼啸而过。GitHub在2023年6月的一份开发者调查显示：美国92%的开发者已经在工作内外使用AI编码工具。更狠的是，70%的开发者相信它能直接带来职场优势——代码质量更好、交付更快、事故更好修；还有4/5的人认为，AI会让团队协作更顺。

这组数据有一个重要的潜台词：AI编码已经不是“是否可用”的问题，而是“谁更好用”的竞赛。也正是在这个背景下，大模型在编程领域的军备竞赛彻底点燃。视频里提到的两条新闻，其实指向同一个问题：未来几年，开发者到底会把时间交给谁？

StableCode的野心：不是更大，而是更“长”

Stability AI延续了它一贯的“高频发版”风格，直接甩出StableCode，并且明确了一件事：这是一个完全为写代码而生的LLM。它的设计思路很清晰——用三种模型覆盖不同编码场景。

底座模型先在BigCode的Stack数据集上训练，打通多语言基础；随后重点强化Python、Go、Java、JavaScript、C、Markdown、C++等主流语言；在此之上，再用12万条Alpaca格式的“代码指令-响应”对进行指令微调，瞄准复杂编程任务。

但真正让开发者竖起耳朵的，是StableCode主打的卖点：16，000 token的上下文窗口。Stability AI的说法很直接——它能一次性处理的代码量，是此前开源模型的2到4倍。这意味着什么？不是“写个函数更聪明”，而是更接近“读懂一个真实项目”的可能性。

在对比中，StableCode的指令版本在HumanEval基准上，能与Llama 2 70B级别的模型竞争，而它只有30亿参数。这种“以小博大”的姿态，让不少开发者立刻开始上手实测。

基准测试吵翻天：模型强不强，谁说了算？

StableCode一发布，Benchmark就成了战场。有人在推特上指出，它在HumanEval上的表现，已经超过其他Llama 2变体；但Stability AI CEO Emad Mostaque本人却泼了一盆冷水：HumanEval并不适合衡量代码补全模型，团队正在做更贴近真实使用场景的评测。

这句话其实戳中了整个行业的痛点：我们用的很多指标，测的是“刷题能力”，而不是“能不能陪你把项目写完”。Hugging Face CEO Clem Delangue随后建议，把StableCode加入Hugging Face的多语言代码榜单，Stability AI也迅速点头。

结果并不完美。Hugging Face的工程师给出的初步结论是：StableCode Completion Alpha 3B在Python、Java、JavaScript、C++等语言上对小模型很有竞争力，但在其他语言上表现偏弱。这一切发生在发布后不到24小时。

这里没有赢家，只有一个更清晰的事实：“最强代码模型”这顶帽子，远没到盖棺定论的时候。

Google的另一条路：把AI写代码，直接塞进浏览器

如果说StableCode是在模型层面硬刚，那Google走的是完全不同的一条路。Project IDX不是单点工具，而是一个浏览器里的全栈云开发环境。写代码、跑应用、部署，全都在云端完成。

AI是核心卖点之一：基于PaLM 2的Codey模型，支持代码生成、补全、跨语言翻译、代码解释。Google的表述很有意思——他们不是在炫技，而是在强调“复杂性失控”。当应用开发变成一片无尽复杂的海，AI成了降低门槛的必要工具。

这也揭示了一个趋势分化：一边是Stability AI、Meta等开源阵营，在模型能力和参数效率上死磕；另一边是Google这种平台型玩家，把AI无缝嵌入工作流。对开发者来说，选择不再只是“哪个模型更强”，而是“哪个环境让我更省心”。

总结

这条新闻线索背后，其实只有一个核心判断：AI写代码的胜负手，正在从“会不会写”转向“能不能陪你写完整个项目”。 更长的上下文、更贴近真实工作的评测、更深度融入开发环境，都会比参数规模更重要。

对从业者来说，最现实的行动建议有两个：第一，别只盯着榜单，多用真实项目去试模型，尤其关注上下文长度和跨文件能力；第二，开始评估“工作流级”的AI工具，而不只是聊天式助手。下一轮红利，属于那些最早把AI当成同事，而不是玩具的人。

关键词： StableCode， AI写代码，大语言模型，上下文窗口，生成式AI

事实核查备注：需要核查：GitHub开发者调查中92%、70%、4/5的数据来源与时间；StableCode上下文窗口为16，000 tokens的具体版本说明；StableCode参数规模为3B；HumanEval基准对比Llama 2的具体测试条件；Project IDX基于PaLM 2与Codey模型的官方描述。

返回文章列表