15分钟做AI证件照:一次真实的AI应用踩坑实录

AI PM 编辑部 · 2025年10月01日 · 15 阅读 · AI/人工智能

正在加载视频...

视频章节

这不是一篇“照着文档就能成功”的教程复述,而是一场真实的AI应用构建过程复盘。Peter Yang 用 Google 的 Nano Banana 图像模型,在不断出错、返工、修需求的过程中,展示了新手最该学会的 AI 编程方法论。

15分钟做AI证件照:一次真实的AI应用踩坑实录

这不是一篇“照着文档就能成功”的教程复述,而是一场真实的AI应用构建过程复盘。Peter Yang 用 Google 的 Nano Banana 图像模型,在不断出错、返工、修需求的过程中,展示了新手最该学会的 AI 编程方法论。

为什么“AI证件照”是最适合新手的应用切入口

在视频一开始,Peter Yang 就给了一个非常明确的判断:如果你是 AI 编程新手,AI 证件照应用可能是“性价比最高”的练手项目之一。一方面,它的需求足够具体——输入一张照片,输出三种专业风格头像;另一方面,它几乎覆盖了生成式 AI 应用的完整链路:前端 UI、提示工程、图像生成 API 以及调试。

他在视频中直接说:“I think this is one of the best apps to build if you're new to AI coding. And it's just really fun to make headshot of your friends.” 这句话点出了关键——这是一个既能学到完整技能,又能快速获得正反馈的项目。你上传一张照片,几秒后看到一张‘像模像样’的职业照,这种成就感会极大降低继续学习 AI 编程的心理门槛。

更重要的是,这个应用天然暴露了生成式 AI 的真实边界:模型选错就不出图,提示写差就像换了一个人。这些问题,只有在“真做一个产品”时才会遇到。

第一步不是写代码,而是逼 AI 写一份“可删减”的规格

Peter 的第一个关键方法论,并不是直接让 AI 写代码,而是让 AI 先写产品规格(spec)。他在 Cursor 里给 AI 的指令非常明确:写一个专业证件照应用的 spec,包含技术栈、需求列表,以及两个里程碑(milestone)。

这里有两个细节非常值得注意。第一,他刻意把 milestone 1 定义为“只做 UI”,理由很简单:UI 先跑起来,后面每一步你都能‘看见变化’。第二,他会在 prompt 里直接贴上 Google Nano Banana 图像 API 的官方文档链接,让 AI 获得正确上下文。

但真正的价值出现在下一步。AI 写完 spec 后,他并没有直接照单全收,而是开始大刀阔斧地删需求:图片预览、缩放功能、滑动对比视图——全部删掉。他解释得很直白:‘A lot of what I'm doing here is just like making the requirements simpler.’ 这是一个非常现实的经验:AI 更擅长“加功能”,而人必须负责“减复杂度”。

真实世界的AI开发:Tailwind报错与模型选错

当 AI 开始根据 milestone 1 生成代码时,问题立刻出现了。UI 没有按预期渲染,问题出在 Tailwind 版本不匹配。Peter 的处理方式也非常“反直觉”:不是自己 debug,而是把完整报错原样贴回给 AI,并明确补充一句——“remember to use Tailwind 3”。

更大的坑出现在 milestone 2,也就是接入 Google 的图像生成 API。应用始终无法生成想要的头像,直到他仔细对照文档,发现 AI 擅自用了 Gemini 2.0 Flash 模型,而文档里明确写的是“Gemini 2.5 Flash Image Preview”。

他在视频里毫不掩饰这种挫败感:“I don't know where it got Gemini 2.0 flash from.” 这是一段非常有价值的真实案例——即使你把文档贴给 AI,它依然可能‘自作主张’。而真正的开发者责任,是对照官方文档逐字核查,而不是盲信生成结果。

提示工程不是写词,而是“反向拆解图片”

在创建三种证件照风格提示时,Peter 并没有凭空写 prompt,而是采用了一种非常实用的方法:先找到互联网上你喜欢的肖像照片,然后把图片拖进 ChatGPT,让 AI 描述这张图片的风格。

换句话说,他不是在“创造描述”,而是在“提取描述”。这种做法的好处是,prompt 会天然贴近真实世界的审美,而不是充满抽象形容词。最终,这三个 prompt 被单独整理成一个 prompt.md 文件,供应用直接调用。

当一切终于跑通,他上传了一张普通照片,选择“executive portrait”风格,生成结果立刻体现出差异:西装、干净背景、更高分辨率。那一刻,你能清楚看到提示工程与模型选择叠加后的实际效果,这比任何理论解释都更有说服力。

总结

这支视频最有价值的地方,不在于“15分钟做了一个应用”,而在于它完整呈现了 AI 应用开发的真实状态:需求会被删、代码会报错、模型会选错。Peter Yang 用一次并不完美的构建过程,示范了一种更可靠的方法论——让 AI 干活,但由人来判断、约束和修正。如果你想真正入门生成式 AI 应用开发,这种“边踩坑边前进”的经验,远比一份完美 Demo 更重要。


关键词: AI证件照, 生成式AI, 提示工程, Gemini, Cursor

事实核查备注: 视频作者:Peter Yang;平台:YouTube;图像模型:Google Gemini Nano Banana(文档中提到 Gemini 2.5 Flash Image Preview);错误模型:Gemini 2.0 Flash;开发工具:Cursor;样式工具:Tailwind CSS 3;提示工程方法:通过 ChatGPT 描述参考图片生成 prompt