一张图就能写代码、改设计、免罚单:ChatGPT Vision正在重塑AI边界

AI PM 编辑部 · 2023年09月30日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

还没全面开放,ChatGPT Vision已经被玩出“作弊级”用法:看图写代码、白板秒变产品原型、复杂停车牌一句话搞定。这不是炫技,而是AI把“理解世界”的门槛直接打穿。

一张图就能写代码、改设计、免罚单:ChatGPT Vision正在重塑AI边界

还没全面开放,ChatGPT Vision已经被玩出“作弊级”用法:看图写代码、白板秒变产品原型、复杂停车牌一句话搞定。这不是炫技,而是AI把“理解世界”的门槛直接打穿。

最被低估的变化:AI第一次真正“看懂”现实世界

ChatGPT Vision最反直觉的一点在于:它并不是简单地“识别图片里的物体”,而是在做场景级理解。视频中最基础的演示,是给它一张洞穴向外拍的风景照,问一句“这是哪?”模型不仅判断是海岸线,还进一步给出“很像夏威夷瓦胡岛的马卡普角”。这背后不是OCR或分类,而是把地貌、道路形态、环境线索组合成一个推断。

这意味着什么?意味着未来“问世界”的方式变了。你不需要知道关键词、不需要会搜索,只要把摄像头对准现实,说一句“这是什么”“值不值得去”“我现在该不该停在这”。这也是为什么视频作者判断:ChatGPT Vision很可能成为移动端使用频率最高的AI能力之一——它补齐了语言模型最后一块感知短板。

从“好玩”到“能干活”:设计、教育和代码同时被掀桌

真正让从业者坐不住的,是那些已经开始“替人干活”的用例。

第一个是设计。Pietro Carano把自己房间的照片丢给GPT-4 Vision,问“怎么改进”,模型不仅给出配色、灯光、绿植建议,还结合他的自定义背景,推荐“符合你古典艺术背景的墙面装饰”。这不是模板化建议,而是“带人设的设计助理”。

第二个是教育。无论是五颜六色的人体细胞结构图,还是信息密度爆炸的五角大楼流程图,模型都能先整体理解,再拆解成适合9年级学生的解释,并允许你不断追问。这种“非对抗式的苏格拉底对话”,对学习方式是一次实质性冲击——同时也逼着教育体系重新思考作业的意义。

但真正炸裂的,是代码。给它一张UI截图,说一句“完全复刻,不要省略”,几十秒后就是可运行的前端代码;给它一张白板涂鸦,它能直接写出完整的产品流程代码。McKay Wrigley的相关视频播放量接近千万,不是因为炫,而是所有人都意识到:从想法到原型的摩擦,正在被指数级压缩。

高阶理解才是分水岭:AI开始解释“为什么”,而不只是“是什么”

如果说前面的用例已经很强,那真正让人不安的,是“高阶解释能力”。

一个四格漫画:三个人说“我们达成一致了”,但脑子里想的是不同形状;经历冲突、融合,最后才真的一致。Pietro问GPT-4 Vision“这幅图想表达什么”,模型给出的不是复述,而是对群体沟通、视角差异、共识形成的抽象总结。这已经非常接近人类对隐喻和社会动态的理解。

类似的还有创意命名:面对从未存在过、由Midjourney生成的混合建筑风格,模型不仅能描述元素,还能给它起名“Athenian Modernism”,并解释命名逻辑。这类任务几乎无法通过简单训练集记忆完成,更像是跨领域概念组合。

当然,它并不完美。Roboflow的测试显示,在模糊OCR、验证码、数独等任务上,GPT-4 Vision仍会出错。但这反而提醒我们:它的强项不在于“像机器一样精确”,而在于“像人一样理解”。

一个停车牌的故事,和AI真正的杀手级价值

视频里最“实用主义”的例子,反而最说明问题。

一块六英尺高、规则叠加到让人崩溃的纽约停车牌。Peter Yang拍照丢给ChatGPT Vision,只问一句:“周三下午4点,我现在能停吗?一句话回答。”模型回复:“可以,从4点起停一小时。”

这不是炫技,而是AI价值的终极形态:把复杂、模糊、需要上下文理解的现实问题,压缩成可执行的答案。不是帮你更聪明,而是帮你少犯错、少被罚单教育。也难怪视频作者说,OpenAI内部很多人认为,这是ChatGPT发布以来,最重要的一次产品升级。

总结

ChatGPT Vision真正改变的,不是“AI能看图了”,而是“想法到行动”的距离被系统性缩短。对从业者来说,takeaway很明确:第一,尽早思考你的工作中,哪些环节本质是“看+想+判断”;第二,开始用图片、草图、截图去和模型对话,而不只是打字;第三,不要只问“它准不准”,要问“它能不能帮我更快试错”。下一个竞争优势,很可能来自谁更早把AI当成“理解世界的合伙人”。


关键词: ChatGPT Vision, GPT-4, 多模态AI, 视觉语言模型, 代码生成

事实核查备注: 需要核查:1)视频发布时间是否为2023-09-30;2)McKay Wrigley相关视频的播放量数量级;3)Roboflow博客作者James Gallagher与Piotr Skalski的姓名拼写;4)示例中提到的功能是否明确基于GPT-4 Vision。