GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

2025年3月26日凌晨，OpenAI官宣，GPT – 4o的原生多模态图像生成功能正式上线。用户无需登录OpenAI的文生图模型DALL – E，直接在ChatGPT应用里就能调用4o生成、修改图片。

一夜之间，AI生成的吉卜力风格图像在X等社交媒体疯传，互联网被温柔的二次元画风浪潮席卷。人们上传自拍照，输入“吉卜力风格”，几秒后，宫崎骏动画中的唯美梦幻便跃然于画面。就连OpenAI创始人奥特曼也晒出自己的吉卜力头像，为这股热潮再添一把火。

图片[1]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

吉卜力风格图像的火爆只是表象，更关键的是，GPT – 4o的绘图能力出圈，打破了文生图领域的固有格局。以Midjourney等垂类应用为主导的赛道，首次遭到大模型的挑战。

此前，人们使用Midjourney生图时，存在一个致命问题：随机性强。当提示词过于复杂，细节还原度会显著降低。而GPT – 4o控图能力的提升，让人类首次体验到与AI艺术家多轮对话精准改图的魅力。

那么，这个原本在人们印象中只会聊天的通用大模型GPT – 4o，是如何超越文生图领域的专业选手Midjourney的呢？

01 全能画手

实际上，像Midjourney这类应用，早在一年前就能生成吉卜力、赛博朋克、超现实等多种风格的图像，在画面细腻感和解析力上甚至略胜GPT – 4o一筹。但GPT – 4o的高明之处在于，它没有在艺术领域的生图质量上与对手硬刚，而是在应用门槛、修图改图、跨学科能力等细分赛道实现弯道超车。

其一，自然语言对话能力的提升大幅降低了使用门槛。在传统文生图领域，用户需掌握一套复杂的结构化提示指令，涵盖风格、镜头、色彩、角度、背景、主体等方面，稍有偏差，结果便大相径庭。而GPT – 4o能精准理解自然语言命令，用户只需像与好友交流一样，就能轻松实现张嘴画图。

自然语言就是日常的口头表达。比如，若需要一张瀑布图，只需告诉GPT – 4o“帮我生成一幅清晨茂密森林里的彩虹瀑布”即可。但使用Midjourney时，需要像下图那样，用高度结构化的prompt指令，详细告知图像主体、背景颜色、视角（仰角、俯角或平视）、风格（油画、古典或赛博朋克等），即便如此细致，仍可能出现无关画面元素。

图片[2]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

其二，多模态能力带来图生图、图改图功能。类似Midjourney的应用只能接收文字指令，不支持上传图片修改，也无法在AI生图后调整图像分辨率、色彩、背景。若成图效果不理想，只能重写提示词碰运气，之前的图像作废。

GPT – 4o的强大之处在于，用户可随意上传图片多次修改，图片可以是AI生成的，也可以是自己拍摄的。例如，上传一张全身照，能将头型换成大波浪，把衣服换成购物车里的裙子查看上身效果。它支持在现有图片上进行修改，无需学习PS等高难度修图技术。

更厉害的是，它支持多轮对话，可在原图上不限次数修改，直到用户满意。用户可以随时更改头发造型、更换背景为沙漠或调整滤镜风格，只要有需求，它都能满足。

图片[3]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

图源：小红书@Mr.汤先森

除了降低交互门槛和提升控图能力，GPT – 4o的跨学科知识储备也令人惊叹。集成大语言模型原有知识库的GPT – 4o，宛如一个上知天文、下知地理的画家，既能解答高数、物理题，又能还原建筑草图。相比之下，Midjourney作为垂类应用，始终局限于艺术领域，主要为电影宣发、广告等文娱产业服务。

GPT – 4o十分强大，给出题目就能生成函数图像，如同画图指导版的拍照搜题应用。甚至给它一张无色彩的铅笔画建筑草图，它也能生成施工后的房屋实景，完全跨越学科边界，是个文理双全的全能选手。

图片[4]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

图源：小红书@云安

既然GPT – 4o的生图改图功能如此出色，那么它火爆出圈背后，能为普通人带来哪些实际价值呢？

02 超越艺术，GPT – 4o的更多实用性

GPT – 4o上线一周内，Midjourney CEO大卫·霍尔兹坐不住了，发文称：GPT – 4o只是花架子，Midjourney – v7下周上线。

图片[5]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

目前，GPT – 4o和Midjourney谁更优还难以定论。但可以确定的是，GPT – 4o火出圈了，它不再局限于设计师小众圈子，走进了大多数人的工作场景。即便有人完全不了解AI生图，也一定知道社交媒体上出现了能用嘴P图的网络工具。

那么，GPT – 4o为何如此火爆，它给我们带来的最实际价值是什么呢？

首先，它真正实现了应用零门槛，用户无需任何艺术功底和AI基础，普通人也能直接上手。使用Midjourney，需要了解基本的绘画知识，如流派、色彩、光学、框架等，以及/imagine（生成图像）、–ar（图像宽高比）等基础英文提示指令。而使用GPT – 4o，不懂透视、框架、光线，也不知结构化提示词为何物，像与朋友对话般交流就能修图。

图片[6]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

图源：小红书@Geek4Fun

除降低使用门槛外，模型产品的质量和效能也大幅提升。一是生图速度更快，以前Midjourney解析复杂指令约需1分钟，GPT – 4o在20秒内即可完成还原。

二是生图和改图的控制性增强，GPT – 4o能完全按照指令生成图像。例如，给出“给我生成一个猫猫和狗狗在草地里玩耍的场景”指令，GPT – 4o生成的就是一只猫和一只狗在草地上玩耍的画面，无其他多余元素；而Midjourney生成的画面可能在草坪上多一个公园或建筑，不会完全遵循指令。通俗来讲，GPT – 4o更能理解用户需求，像电子仆人一样，让做什么就做什么，精准度更高。

因此，GPT – 4o打开全民赛道，融入我们的工作场景。此前，普通用户使用Midjourney更多是出于兴趣，娱乐属性强、工具属性弱。生成的油画、动漫等风格图像虽美观，但无法提升工作效率，也难以带来收益，主要起造型作用。

图片[7]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

而GPT – 4o的用嘴P图功能，让AI绘图可应用的行业增多，从娱乐化与艺术性走向专业化与生产力，能应用于电商、教育、建筑、设计等多个行业。比如孩子不会做题，以往需请教老师或下载作业帮，辅导费用高且作业帮讲解文字枯燥、难以理解。但GPT – 4o能生成讲解草稿图，清晰展示函数生成过程和答案推导过程。

再如电商行业的宣传海报，甲方要求生成针对欧美市场的英语海报，需对设计元素和语言进行本地化润色。以往的流程是对接设计师修改元素、用翻译软件润色，再导入PS软件修改，耗时费力。现在GPT – 4o只需一句话“把这张海报改成欧美风，语言变成英语”，就能快速设计出符合要求的海报，跨领域跨学科的集成能力十分强大。

03 不止绘画，大模型的下一站是集成式平台

聊完GPT – 4o的画图出圈，再来探讨一下，作为底层模型的GPT – 4o还有哪些可挖掘之处。

我们知道，Midjourney是基于模型的应用，而GPT – 4o本身就是一个模型，生图只是其能力之一。2022年刚推出的ChatGPT只是一个文字交流的对话助手，后来具备语音打电话功能，现在又能画图，不断在不同维度迭代升级。

图片[8]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

此次GPT – 4o能在绘图赛道脱颖而出，得益于其原生多模态模型能力的显著提升。与Midjourney不同，GPT – 4o有更多技术路径可选。当前文生图领域应用普遍使用的底层模型是扩散模型diffusion model，其原理是先生成大致图像，再消除噪点，还原能力较弱。

而GPT – 4o采用文生图自回归模型，将预测token的逻辑推理能力延伸到文生图领域，通过逐帧绘制的方式，从已生成像素推测下一个像素，本质上是模仿人类画画。这表明，与垂类应用不同，大模型可从底层架构选择不同技术路径，架构升级通常会带来性能提升，基于GPT – 4o等原生模型的功能有更大的发展空间。

图片[9]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

其次，多模态融合会实现跨领域的融会贯通。GPT – 4o作为通用大模型，具备整合文字、音频、图像等不同格式信息的能力，现阶段已能打电话、生图改图。未来，它是否能直接生成音乐和视频，值得期待。实际上，GPT – 4o此次上线的生图功能就源自OpenAI的文生图模型DALL – E。或许，OpenAI旗下的文生视频模型Sora也可能通过某种技术整合到GPT模型中。届时，在一个模型里交叉处理多种模态信息将不再遥远。

多模态创新还表明，模型功能增多后，处理各种任务的能力增强，AI使用总成本降低。

可以预见的趋势是：大模型正试图成为一站式打包站点，将代码、设计、音乐、数据处理等多种任务集成在一起。

未来某一天，类似ChatGPT的模型可能强大到在任何领域都能名列前茅，届时我们无需下载画图的Midjourney、写代码的coze、做音乐的suno等垂类应用，下载一个类似ChatGPT的模型就能解决所有问题。这样既能节省手机内存，又能提高运行效率，还能省下每月约一百块的垂类应用会员定制费，性价比更高。