GPT-4 Vision 真正的分水岭：这7种用法正在重塑AI的“动手能力”

AI PM 编辑部 · 2023年10月15日 · 5 阅读 · AI/人工智能

Greg Brockman 多模态 AI应用文本生成图像计算机视觉文字识别 AI绘画代码生成对话AI 视觉语言模型

正在加载视频...

视频章节

大多数人还把 GPT-4 Vision 当成“会看图的 ChatGPT”，但这支视频给了一个更残酷的结论：看懂图片只是最低级能力。真正拉开人与人差距的，是你是否掌握了那7种“可迁移”的视觉使用框架。

GPT-4 Vision 真正的分水岭：这7种用法正在重塑AI的“动手能力”

大多数人还把 GPT-4 Vision 当成“会看图的 ChatGPT”，但这支视频给了一个更残酷的结论：看懂图片只是最低级能力。真正拉开人与人差距的，是你是否掌握了那7种“可迁移”的视觉使用框架。

一个反直觉事实：最炫的“看图说话”，反而最没用

视频一开始就抛出一个很多人不愿承认的事实：GPT-4 Vision 最常被演示的能力——描述图片——在真实工作中价值最低。作者用一张自己在纽约苹果园抱着孩子摘苹果的照片测试“Describe”，模型不仅准确描述了画面，还推断出季节是秋天、地点可能在美国的苹果产区。但问题在于：这些信息，人类本来就知道。

这恰恰是 GPT-4 Vision 的“新手陷阱”。你会惊叹它看得多细，却很快发现它并没有真正改变你的工作方式。视频中的关键洞察在于：视觉能力本身不是价值，能否被嵌入到决策、理解和行动流程中，才是分水岭。这也是为什么 Greg Brockman 提出的 7 类框架如此重要——它逼着你跳出“演示思维”，进入“工作流思维”。

从“看懂”到“读懂”：Interpret 才是教育与研究的杀手锏

真正拉开差距的是第二类用法：Interpret。也就是在图像之上，给出语义、背景和结构性的理解。视频里有两个极具代表性的例子。

第一个是 EU AI Act 的风险金字塔图。这类监管图表信息密度极高，单靠肉眼阅读很费劲，而 GPT-4 Vision 能直接抓住核心逻辑：这是一个基于风险分级的监管框架，低风险在底部，高风险在顶部，并能结合图中的文字进行概括。

更震撼的是第二个例子：作者直接丢了一张《格尔尼卡》。这一次，他不问“画了什么”，而是问“社会背景是什么”。模型不仅准确识别出这是 1937 年的作品，还解释了西班牙内战、轰炸背景，以及不同艺术解读路径。这一刻，GPT-4 Vision 不再像工具，而更像一个随身的“视觉人文助教”。

如果你从事教育、研究或内容创作，这意味着一个范式变化：图片不再只是插图，而是可以被直接“对话化”的知识入口。

推荐、评估与转化：AI 开始介入“主观判断区”

很多人以为 AI 只能处理客观问题，但视频中最有含金量的部分，恰恰发生在主观判断领域。

在 Recommend 环节，作者让 GPT-4 Vision 站在“听众视角”，评估四个 AI 播客封面符号。模型不仅逐一命名、分析优缺点，还点出了“机器人形象过于陈词滥调”“眼睛符号可能引发监控联想”这种极其人类化的品牌判断。更重要的是，它没有给出唯一答案，而是根据目标受众给出分叉建议。

而在 Evaluate 环节，对 Midjourney 生成的风景画，模型没有一句“我觉得不好看”，而是拆解为：如何通过大气透视增强纵深、如何用暖色提高情绪、是否加入叙事元素。这种“目标导向型审美反馈”，对设计师和创作者极具杀伤力。

这背后的信号很明确：GPT-4 Vision 正在进入过去只属于资深从业者的判断区，而不是停留在执行层。

真正改变生产力的，是 Convert、Extract 和 Assist

如果说前面几类是“认知升级”，那 Convert、Extract 和 Assist 则是实打实的生产力炸弹。

Convert 的案例堪称经典：一张随手画的“AI 教育公司”草图，最终被推进到投资人用的文字介绍、网站结构，甚至是落地页代码。整个过程只花了几分钟。这不是设计能力的替代，而是把“模糊想法”快速压缩成“可执行资产”。

Extract 则展示了 GPT-4 Vision 在历史文献中的潜力。面对 1691 年、墨迹渗透的 Cotton Mather 手写信，它只能识别约一半内容，但已经能确认时间、署名和历史语境。这对档案、历史、法律领域意味着什么，不言而喻。

而 Assist 可能是最先普及的场景：拍一张 NES 主机，直接获得“如何接现代电视”的完整清单。它正在替代的不是搜索引擎，而是你那个“懂点技术的朋友”。

总结

这 7 种用法真正重要的不是具体案例，而是一个信号：GPT-4 Vision 正在从“看见世界”，走向“参与世界”。它不只是识别像素，而是在进入理解、判断和行动链条。对 AI 从业者来说，最关键的行动建议只有一个：别再问“它能不能做到”，而是开始设计“如果它能看见，这个流程还能怎么重构”。下一波真正的壁垒，不在模型参数，而在你是否率先把视觉接进了工作流。

关键词： GPT-4 Vision，多模态AI，视觉语言模型， AI应用场景，生产力工具

事实核查备注：需要核查：视频发布时间（2023-10-15）、7 类框架的提出者是否为 Greg Brockman（视频中提到 Greg Comrat/Comrat 表述需确认）、EU AI Act 风险金字塔示例、Cotton Mather 信件日期（1691-09-02）、Midjourney 图像评估示例来源。

返回文章列表