30分钟做完网站和游戏,GPT‑5让一群工程师开始“放弃不信任”
正在加载视频...
视频章节
一群对大模型最挑剔的开发者,被带到一座“开发者岛”上测试 GPT‑5。结果是:30 分钟内做完个人网站、平台跳跃游戏、绘图 App,还第一次开始相信模型能在真实代码库里“放手干活”。这不是演示,是工程师的集体震惊。
30分钟做完网站和游戏,GPT‑5让一群工程师开始“放弃不信任”
一群对大模型最挑剔的开发者,被带到一座“开发者岛”上测试 GPT‑5。结果是:30 分钟内做完个人网站、平台跳跃游戏、绘图 App,还第一次开始相信模型能在真实代码库里“放手干活”。这不是演示,是工程师的集体震惊。
最反直觉的不是速度,而是“它没乱加戏”
视频一上来就给了开发者一个简单却残酷的任务:切到 GPT‑5 Thinking,直接做一个个人网站。没有模板,没有预设设计稿。结果几乎所有人的第一反应都不是“快”,而是“它居然按我说的来”。
这在大模型世界里是个反直觉的评价。过去两年,工程师最头疼的不是模型不会写代码,而是“太有主意”——随意改需求、脑补功能、擅自美化。但在 GPT‑5 的测试中,多位开发者反复提到同一句话:"it just did what you told it to"。
从 Mac OS 9 风格的网站,到带窗口系统的前端页面,再到 SVG 实时输出的绘图应用,模型几乎没有插入多余的‘创作冲动’。对工程师来说,这比任何炫技都重要:可控,意味着可用。
真正的杀伤力:三条 prompt,做出完整游戏
如果说做网站还不够狠,那接下来的测试直接踩在工程师的爽点上。
有人掏出了“传奇球体测试”(ball test),这是一个结合物理、Python 和奇怪游戏机制的老牌压力题;有人用经典的“骑自行车的鹈鹕”SVG 作为基准;还有人只用了三次 prompt,就做出了一个能踩怪、会掉进岩浆的平台跳跃游戏。
关键在于一句话:"I haven't touched the code at all." 没有手改,没有兜底。
更夸张的是循环能力。开发者让 GPT‑5 画一只骑自行车的鹈鹕,然后“看着自己画的,再画一次”。这种自我观察 + 修正,在过去模型里几乎是灾难现场,但这次,连脚踩踏板这种细节都保住了。现场评价很直接:这是他们见过最好的版本之一。
工程师开始谈“信任”,这才是真正危险的信号
视频后半段,语气发生了微妙变化。
有人直接把自己产品级的 PRD 丢给 GPT‑5,对比新旧模型输出;有人把一个“丑到不忍直视”的前端应用扔过去,只说一句:make this less ugly。结果不只是换配色,而是补了山脉、星空、渐变和光效,而且——没有 AI slop 感。
更重要的是对大代码库的处理能力。有开发者喂给 GPT‑5 四分之一个百万 token 的原始源码,让它在没有任何文档的情况下生成架构说明。评价是:“我的信任问题开始消失了。”
这句话分量很重。因为在同一段里,他明确说过:过去他对这些模型是零信任,默认它们会胡编。现在,这种防御姿态开始松动。
从“我来盯着你”到“你是我同事”
视频最后的总结几乎像一个行业分水岭。
“他好到让我变成 vibe coder 了。”这句玩笑背后,其实是共识的形成:GPT‑5 是第一个让多位工程师愿意‘放手’,在较大代码库里自由发挥的模型。
他们用的词非常一致:agentic、instructible、engineer-like、co-worker。不是助手,不是工具,而是能执行、能修 bug、能根据 telemetry 做推断的协作者。
这也解释了为什么 Tic‑Tac‑Toe 对比那么刺眼:同样的 prompt,旧模型是能玩的 demo,GPT‑5 则加了音效、AI 对手,还顺手把人打爆。差距不在会不会,而在有没有“主动完成任务”的倾向。
总结
这段视频真正重要的,不是 GPT‑5 又快了多少、上下文又大了多少,而是一群最不容易被打动的工程师,第一次公开讨论“信任感”。如果你是开发者,这意味着可以开始重新思考人与模型的分工:哪些代码真的需要你写,哪些可以交给一个不会乱加戏的协作者。如果你做产品,这可能是第一次可以认真评估“让模型直接进生产环境”的时间点。一个值得带走的判断是:当工程师开始愿意放手,范式才真的要变了。
关键词: GPT-5, 代码生成, AI Agent, 上下文窗口, 开发者体验
事实核查备注: 需核查:视频发布时间为 2025-08-07;测试时间约 30 分钟的说法;提到的上下文规模为“四分之一个百万 token”的原话;视频中是否明确称模型为 GPT-5 Thinking;Tic-tac-toe 对比所用旧模型名称(03)。