他不是工程师，却用 Codex 把产品效率拉到工程师之上

AI PM 编辑部 · 2026年05月29日 · 11 阅读 · AI/人工智能

代码生成代码理解 AI应用多模态大语言模型 AI Agent 语音识别文本生成图像 OpenAI Apple

正在加载视频...

视频章节

在 Alchemy 负责产品的 Matias Castello 不是工程师出身，却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度：事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted，信息密度极高。

他不是工程师，却用 Codex 把产品效率拉到工程师之上

在 Alchemy 负责产品的 Matias Castello 不是工程师出身，却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度：事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted，信息密度极高。

最反直觉的一点：AI 真正改变公司的第一步，不是写代码

很多公司以为，把 AI 引入开发流程的第一步是“让模型多写点代码”。Matias 的经历恰好相反。

他回忆 Alchemy 第一次真正用上 AI，不是在 IDE，而是在 Slack 里。团队把 Codex 接进了内部文档频道，用它直接修改开发者文档。以前改一行字，要本地跑站点、走一整套流程；现在，只需要一句话。这个改变看似很小，但它第一次让团队意识到：AI 可以无摩擦地嵌入真实工作流。

真正的转折点出现在“代码审查”。一次事故复盘后，团队突发奇想：把几个月前的代码丢给 Codex 做回溯式 review，看它能不能发现当时漏掉的竞态条件。结果是：找到了，而且不止一次。

那一刻，心理门槛被打穿了。工程师开始在 PR 评论区里和 Codex 来回对话，不再纠结“LLM 到底靠不靠谱”。Matias 形容，这是大家第一次确信：AI 已经足够好，可以进入专业生产环境。

从“帮我写代码”，到“帮我避免事故”：为什么 Code Review 是分水岭

Matias 提到，他和很多刚开始用 AI 编程的公司交流时，几乎都经历了同一个“顿悟时刻”：不是代码生成，而是代码审查。

原因很简单。生成代码，大家心里没底；但审查代码，本质是第二双眼睛。Datadog 的反馈是，超过五分之一的事故，本可以被 Codex 提前发现。Matias 的判断更激进：随着模型能力提升，未来可能是“九成事故在上线前就被拦下”。

这直接改变了团队对风险的认知方式。Bug 不再只是靠经验和流程兜底，而是变成了一个可以被自动化系统性扫描的问题。

也正是在这个阶段，AI 从“效率工具”升级成了“可靠性工具”。这一步，对任何做基础设施、平台型产品的公司来说，都比多写几百行代码重要得多。

当你的用户不只是人类：Alchemy 为“AI 开发者”重构平台

作为开发者基础设施公司，Alchemy 得出的一个结论非常激进：假设 100% 的开发者都在用 AI 写代码。

更进一步，他们开始认真对待一种新角色——自治型 agent。对平台来说，使用者不再只有“人类工程师”，还有会调用 API、会读文档、会自己拆任务的程序。

这直接影响了产品设计。Matias 说，他们不仅要让人用得顺，还要让 Codex 这类 agent 能快速接入 OpenAI API、理解 Alchemy 的基础设施，并高效执行任务。

在产品管理层面，他自己也大量使用 Codex：写 PRD、分析用户反馈、复用内部 skills。公司里甚至有一个共享的 skills 仓库，让更多人能“像 PM 一样工作”。

一个很微妙的变化是：当大量重复性认知劳动被 AI 吃掉后，产品经理和工程师的边界开始变得模糊。你不需要是工程师，也能“构建”；你真正需要的是清晰表达意图的能力。

个人层面的极限实验：把“我来做”变成“我来派发”

视频后半段，Matias 展示的是一种很多人还没适应的工作方式。

他坦言，自己曾长期焦虑“做得不够多”。后来他干脆接受一个现实：让 Codex 连续工作几个小时，而自己去做别的事。他会用 agent 文件（.md）写清楚偏好和工作方式，让 Codex 规划、拆解里程碑、自动生成 Linear 里的所有任务。

为了不成为瓶颈，他用 feature flag 把所有新功能包起来：AI 可以大胆构建，他随时可以关。

更夸张的是，他把“派发任务”这件事碎片化到了极致：Mac 上的全局快捷键、语音输入，甚至 Apple Watch 上的语音备忘录，都会触发 Codex 开始干活。Discord 频道直接绑定代码仓库，远程执行任务。

他还展示了一个名为 SnapCat 的小应用，作为个人评测用例：GPT 5.5 基于图片一次性生成 UI 和完整应用，一晚完成。这不是炫技，而是对比——十年前，这几乎不可想象。

总结

Matias 在结尾给了三个看似简单、但极具杀伤力的建议：第一，先假设这件事是可能的；第二，假设你自己也能做到；第三，如果没成功，先别怪模型，反思是不是你没把意图说清楚。

这期视频真正传递的信号是：AI 时代的“能力上限”，不再由你会不会写代码决定，而由你能否把想法结构化、流程化、并放心交给 agent 执行决定。对 AI 从业者来说，现在最该练的，也许不是新框架，而是如何成为一个更好的“任务派发者”。

关键词： Codex， AI Agent，代码审查，开发者平台， GPT 5.5

事实核查备注：需要核查：1）Datadog 关于“超过五分之一事故可被 Codex 避免”的原始表述；2）视频中提及的模型版本是否明确为 GPT 5.5；3）Builders Unscripted 第3集的完整时长；4）SnapCat 是否为 Matias 的个人项目名称。

返回文章列表