30分钟做完网站和游戏，GPT‑5让一群工程师开始“放弃不信任”

AI PM 编辑部 · 2025年08月07日 · 5 阅读 · AI/人工智能

Token AI应用上下文窗口大语言模型 AI Agent 生成式AI 幻觉代码生成 ChatGPT

正在加载视频...

视频章节

一群对大模型最挑剔的开发者，被带到一座“开发者岛”上测试 GPT‑5。结果是：30 分钟内做完个人网站、平台跳跃游戏、绘图 App，还第一次开始相信模型能在真实代码库里“放手干活”。这不是演示，是工程师的集体震惊。

30分钟做完网站和游戏，GPT‑5让一群工程师开始“放弃不信任”

一群对大模型最挑剔的开发者，被带到一座“开发者岛”上测试 GPT‑5。结果是：30 分钟内做完个人网站、平台跳跃游戏、绘图 App，还第一次开始相信模型能在真实代码库里“放手干活”。这不是演示，是工程师的集体震惊。

最反直觉的不是速度，而是“它没乱加戏”

视频一上来就给了开发者一个简单却残酷的任务：切到 GPT‑5 Thinking，直接做一个个人网站。没有模板，没有预设设计稿。结果几乎所有人的第一反应都不是“快”，而是“它居然按我说的来”。

这在大模型世界里是个反直觉的评价。过去两年，工程师最头疼的不是模型不会写代码，而是“太有主意”——随意改需求、脑补功能、擅自美化。但在 GPT‑5 的测试中，多位开发者反复提到同一句话："it just did what you told it to"。

从 Mac OS 9 风格的网站，到带窗口系统的前端页面，再到 SVG 实时输出的绘图应用，模型几乎没有插入多余的‘创作冲动’。对工程师来说，这比任何炫技都重要：可控，意味着可用。

真正的杀伤力：三条 prompt，做出完整游戏

如果说做网站还不够狠，那接下来的测试直接踩在工程师的爽点上。

有人掏出了“传奇球体测试”（ball test），这是一个结合物理、Python 和奇怪游戏机制的老牌压力题；有人用经典的“骑自行车的鹈鹕”SVG 作为基准；还有人只用了三次 prompt，就做出了一个能踩怪、会掉进岩浆的平台跳跃游戏。

关键在于一句话："I haven't touched the code at all." 没有手改，没有兜底。

更夸张的是循环能力。开发者让 GPT‑5 画一只骑自行车的鹈鹕，然后“看着自己画的，再画一次”。这种自我观察 + 修正，在过去模型里几乎是灾难现场，但这次，连脚踩踏板这种细节都保住了。现场评价很直接：这是他们见过最好的版本之一。

工程师开始谈“信任”，这才是真正危险的信号

视频后半段，语气发生了微妙变化。

有人直接把自己产品级的 PRD 丢给 GPT‑5，对比新旧模型输出；有人把一个“丑到不忍直视”的前端应用扔过去，只说一句：make this less ugly。结果不只是换配色，而是补了山脉、星空、渐变和光效，而且——没有 AI slop 感。

更重要的是对大代码库的处理能力。有开发者喂给 GPT‑5 四分之一个百万 token 的原始源码，让它在没有任何文档的情况下生成架构说明。评价是：“我的信任问题开始消失了。”

这句话分量很重。因为在同一段里，他明确说过：过去他对这些模型是零信任，默认它们会胡编。现在，这种防御姿态开始松动。

从“我来盯着你”到“你是我同事”

视频最后的总结几乎像一个行业分水岭。

“他好到让我变成 vibe coder 了。”这句玩笑背后，其实是共识的形成：GPT‑5 是第一个让多位工程师愿意‘放手’，在较大代码库里自由发挥的模型。

他们用的词非常一致：agentic、instructible、engineer-like、co-worker。不是助手，不是工具，而是能执行、能修 bug、能根据 telemetry 做推断的协作者。

这也解释了为什么 Tic‑Tac‑Toe 对比那么刺眼：同样的 prompt，旧模型是能玩的 demo，GPT‑5 则加了音效、AI 对手，还顺手把人打爆。差距不在会不会，而在有没有“主动完成任务”的倾向。

总结

这段视频真正重要的，不是 GPT‑5 又快了多少、上下文又大了多少，而是一群最不容易被打动的工程师，第一次公开讨论“信任感”。如果你是开发者，这意味着可以开始重新思考人与模型的分工：哪些代码真的需要你写，哪些可以交给一个不会乱加戏的协作者。如果你做产品，这可能是第一次可以认真评估“让模型直接进生产环境”的时间点。一个值得带走的判断是：当工程师开始愿意放手，范式才真的要变了。

关键词： GPT-5，代码生成， AI Agent，上下文窗口，开发者体验

事实核查备注：需核查：视频发布时间为 2025-08-07；测试时间约 30 分钟的说法；提到的上下文规模为“四分之一个百万 token”的原话；视频中是否明确称模型为 GPT-5 Thinking；Tic-tac-toe 对比所用旧模型名称（03）。

返回文章列表