15分钟做AI证件照：一次真实的AI应用踩坑实录

AI PM 编辑部 · 2025年10月01日 · 15 阅读 · AI/人工智能

AI绘画文本生成图像代码生成提示工程生成式AI AI应用 AI Agent Gemini 2.0 ChatGPT Cursor

正在加载视频...

视频章节

这不是一篇“照着文档就能成功”的教程复述，而是一场真实的AI应用构建过程复盘。Peter Yang 用 Google 的 Nano Banana 图像模型，在不断出错、返工、修需求的过程中，展示了新手最该学会的 AI 编程方法论。

15分钟做AI证件照：一次真实的AI应用踩坑实录

这不是一篇“照着文档就能成功”的教程复述，而是一场真实的AI应用构建过程复盘。Peter Yang 用 Google 的 Nano Banana 图像模型，在不断出错、返工、修需求的过程中，展示了新手最该学会的 AI 编程方法论。

为什么“AI证件照”是最适合新手的应用切入口

在视频一开始，Peter Yang 就给了一个非常明确的判断：如果你是 AI 编程新手，AI 证件照应用可能是“性价比最高”的练手项目之一。一方面，它的需求足够具体——输入一张照片，输出三种专业风格头像；另一方面，它几乎覆盖了生成式 AI 应用的完整链路：前端 UI、提示工程、图像生成 API 以及调试。

他在视频中直接说：“I think this is one of the best apps to build if you're new to AI coding. And it's just really fun to make headshot of your friends.” 这句话点出了关键——这是一个既能学到完整技能，又能快速获得正反馈的项目。你上传一张照片，几秒后看到一张‘像模像样’的职业照，这种成就感会极大降低继续学习 AI 编程的心理门槛。

更重要的是，这个应用天然暴露了生成式 AI 的真实边界：模型选错就不出图，提示写差就像换了一个人。这些问题，只有在“真做一个产品”时才会遇到。

第一步不是写代码，而是逼 AI 写一份“可删减”的规格

Peter 的第一个关键方法论，并不是直接让 AI 写代码，而是让 AI 先写产品规格（spec）。他在 Cursor 里给 AI 的指令非常明确：写一个专业证件照应用的 spec，包含技术栈、需求列表，以及两个里程碑（milestone）。

这里有两个细节非常值得注意。第一，他刻意把 milestone 1 定义为“只做 UI”，理由很简单：UI 先跑起来，后面每一步你都能‘看见变化’。第二，他会在 prompt 里直接贴上 Google Nano Banana 图像 API 的官方文档链接，让 AI 获得正确上下文。

但真正的价值出现在下一步。AI 写完 spec 后，他并没有直接照单全收，而是开始大刀阔斧地删需求：图片预览、缩放功能、滑动对比视图——全部删掉。他解释得很直白：‘A lot of what I'm doing here is just like making the requirements simpler.’ 这是一个非常现实的经验：AI 更擅长“加功能”，而人必须负责“减复杂度”。

真实世界的AI开发：Tailwind报错与模型选错

当 AI 开始根据 milestone 1 生成代码时，问题立刻出现了。UI 没有按预期渲染，问题出在 Tailwind 版本不匹配。Peter 的处理方式也非常“反直觉”：不是自己 debug，而是把完整报错原样贴回给 AI，并明确补充一句——“remember to use Tailwind 3”。

更大的坑出现在 milestone 2，也就是接入 Google 的图像生成 API。应用始终无法生成想要的头像，直到他仔细对照文档，发现 AI 擅自用了 Gemini 2.0 Flash 模型，而文档里明确写的是“Gemini 2.5 Flash Image Preview”。

他在视频里毫不掩饰这种挫败感：“I don't know where it got Gemini 2.0 flash from.” 这是一段非常有价值的真实案例——即使你把文档贴给 AI，它依然可能‘自作主张’。而真正的开发者责任，是对照官方文档逐字核查，而不是盲信生成结果。

提示工程不是写词，而是“反向拆解图片”

在创建三种证件照风格提示时，Peter 并没有凭空写 prompt，而是采用了一种非常实用的方法：先找到互联网上你喜欢的肖像照片，然后把图片拖进 ChatGPT，让 AI 描述这张图片的风格。

换句话说，他不是在“创造描述”，而是在“提取描述”。这种做法的好处是，prompt 会天然贴近真实世界的审美，而不是充满抽象形容词。最终，这三个 prompt 被单独整理成一个 prompt.md 文件，供应用直接调用。

当一切终于跑通，他上传了一张普通照片，选择“executive portrait”风格，生成结果立刻体现出差异：西装、干净背景、更高分辨率。那一刻，你能清楚看到提示工程与模型选择叠加后的实际效果，这比任何理论解释都更有说服力。

总结

这支视频最有价值的地方，不在于“15分钟做了一个应用”，而在于它完整呈现了 AI 应用开发的真实状态：需求会被删、代码会报错、模型会选错。Peter Yang 用一次并不完美的构建过程，示范了一种更可靠的方法论——让 AI 干活，但由人来判断、约束和修正。如果你想真正入门生成式 AI 应用开发，这种“边踩坑边前进”的经验，远比一份完美 Demo 更重要。

关键词： AI证件照，生成式AI，提示工程， Gemini， Cursor

事实核查备注：视频作者：Peter Yang；平台：YouTube；图像模型：Google Gemini Nano Banana（文档中提到 Gemini 2.5 Flash Image Preview）；错误模型：Gemini 2.0 Flash；开发工具：Cursor；样式工具：Tailwind CSS 3；提示工程方法：通过 ChatGPT 描述参考图片生成 prompt

返回文章列表