92%程序员已在用AI写代码,StableCode把竞赛推到新拐点

AI PM 编辑部 · 2023年08月09日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

当92%的美国程序员已经在工作内外使用AI写代码,真正的竞争才刚开始。Stability AI突然丢出StableCode,号称专为编程而生、拥有16K上下文窗口的开源模型;与此同时,Google把“写代码”直接搬进浏览器云端。谁会成为下一代开发者的默认搭档?

92%程序员已在用AI写代码,StableCode把竞赛推到新拐点

当92%的美国程序员已经在工作内外使用AI写代码,真正的竞争才刚开始。Stability AI突然丢出StableCode,号称专为编程而生、拥有16K上下文窗口的开源模型;与此同时,Google把“写代码”直接搬进浏览器云端。谁会成为下一代开发者的默认搭档?

92%的程序员已经“上车”,但好戏才刚开始

如果你还在纠结“要不要用AI写代码”,现实可能已经从你身边呼啸而过。GitHub在2023年6月的一份开发者调查显示:美国92%的开发者已经在工作内外使用AI编码工具。更狠的是,70%的开发者相信它能直接带来职场优势——代码质量更好、交付更快、事故更好修;还有4/5的人认为,AI会让团队协作更顺。

这组数据有一个重要的潜台词:AI编码已经不是“是否可用”的问题,而是“谁更好用”的竞赛。也正是在这个背景下,大模型在编程领域的军备竞赛彻底点燃。视频里提到的两条新闻,其实指向同一个问题:未来几年,开发者到底会把时间交给谁?

StableCode的野心:不是更大,而是更“长”

Stability AI延续了它一贯的“高频发版”风格,直接甩出StableCode,并且明确了一件事:这是一个完全为写代码而生的LLM。它的设计思路很清晰——用三种模型覆盖不同编码场景。

底座模型先在BigCode的Stack数据集上训练,打通多语言基础;随后重点强化Python、Go、Java、JavaScript、C、Markdown、C++等主流语言;在此之上,再用12万条Alpaca格式的“代码指令-响应”对进行指令微调,瞄准复杂编程任务。

但真正让开发者竖起耳朵的,是StableCode主打的卖点:16,000 token的上下文窗口。Stability AI的说法很直接——它能一次性处理的代码量,是此前开源模型的2到4倍。这意味着什么?不是“写个函数更聪明”,而是更接近“读懂一个真实项目”的可能性。

在对比中,StableCode的指令版本在HumanEval基准上,能与Llama 2 70B级别的模型竞争,而它只有30亿参数。这种“以小博大”的姿态,让不少开发者立刻开始上手实测。

基准测试吵翻天:模型强不强,谁说了算?

StableCode一发布,Benchmark就成了战场。有人在推特上指出,它在HumanEval上的表现,已经超过其他Llama 2变体;但Stability AI CEO Emad Mostaque本人却泼了一盆冷水:HumanEval并不适合衡量代码补全模型,团队正在做更贴近真实使用场景的评测。

这句话其实戳中了整个行业的痛点:我们用的很多指标,测的是“刷题能力”,而不是“能不能陪你把项目写完”。Hugging Face CEO Clem Delangue随后建议,把StableCode加入Hugging Face的多语言代码榜单,Stability AI也迅速点头。

结果并不完美。Hugging Face的工程师给出的初步结论是:StableCode Completion Alpha 3B在Python、Java、JavaScript、C++等语言上对小模型很有竞争力,但在其他语言上表现偏弱。这一切发生在发布后不到24小时。

这里没有赢家,只有一个更清晰的事实:“最强代码模型”这顶帽子,远没到盖棺定论的时候。

Google的另一条路:把AI写代码,直接塞进浏览器

如果说StableCode是在模型层面硬刚,那Google走的是完全不同的一条路。Project IDX不是单点工具,而是一个浏览器里的全栈云开发环境。写代码、跑应用、部署,全都在云端完成。

AI是核心卖点之一:基于PaLM 2的Codey模型,支持代码生成、补全、跨语言翻译、代码解释。Google的表述很有意思——他们不是在炫技,而是在强调“复杂性失控”。当应用开发变成一片无尽复杂的海,AI成了降低门槛的必要工具。

这也揭示了一个趋势分化:一边是Stability AI、Meta等开源阵营,在模型能力和参数效率上死磕;另一边是Google这种平台型玩家,把AI无缝嵌入工作流。对开发者来说,选择不再只是“哪个模型更强”,而是“哪个环境让我更省心”。

总结

这条新闻线索背后,其实只有一个核心判断:AI写代码的胜负手,正在从“会不会写”转向“能不能陪你写完整个项目”。 更长的上下文、更贴近真实工作的评测、更深度融入开发环境,都会比参数规模更重要。

对从业者来说,最现实的行动建议有两个:第一,别只盯着榜单,多用真实项目去试模型,尤其关注上下文长度和跨文件能力;第二,开始评估“工作流级”的AI工具,而不只是聊天式助手。下一轮红利,属于那些最早把AI当成同事,而不是玩具的人。


关键词: StableCode, AI写代码, 大语言模型, 上下文窗口, 生成式AI

事实核查备注: 需要核查:GitHub开发者调查中92%、70%、4/5的数据来源与时间;StableCode上下文窗口为16,000 tokens的具体版本说明;StableCode参数规模为3B;HumanEval基准对比Llama 2的具体测试条件;Project IDX基于PaLM 2与Codey模型的官方描述。