图片-精准获客

GPT – 4o 为何抢了 Midjourney 的“饭碗”

2025年3月26日凌晨,OpenAI官宣,GPT – 4o的原生多模态图像生成功能正式上线。用户无需登录OpenAI的文生图模型DALL – E,直接在ChatGPT应用里就能调用4o生成、修改图片。

一夜之间,AI生成的吉卜力风格图像在X等社交媒体疯传,互联网被温柔的二次元画风浪潮席卷。人们上传自拍照,输入“吉卜力风格”,几秒后,宫崎骏动画中的唯美梦幻便跃然于画面。就连OpenAI创始人奥特曼也晒出自己的吉卜力头像,为这股热潮再添一把火。

图片[1]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

吉卜力风格图像的火爆只是表象,更关键的是,GPT – 4o的绘图能力出圈,打破了文生图领域的固有格局。以Midjourney等垂类应用为主导的赛道,首次遭到大模型的挑战。

此前,人们使用Midjourney生图时,存在一个致命问题:随机性强。当提示词过于复杂,细节还原度会显著降低。而GPT – 4o控图能力的提升,让人类首次体验到与AI艺术家多轮对话精准改图的魅力。

那么,这个原本在人们印象中只会聊天的通用大模型GPT – 4o,是如何超越文生图领域的专业选手Midjourney的呢?

01 全能画手

实际上,像Midjourney这类应用,早在一年前就能生成吉卜力、赛博朋克、超现实等多种风格的图像,在画面细腻感和解析力上甚至略胜GPT – 4o一筹。但GPT – 4o的高明之处在于,它没有在艺术领域的生图质量上与对手硬刚,而是在应用门槛、修图改图、跨学科能力等细分赛道实现弯道超车。

其一,自然语言对话能力的提升大幅降低了使用门槛。在传统文生图领域,用户需掌握一套复杂的结构化提示指令,涵盖风格、镜头、色彩、角度、背景、主体等方面,稍有偏差,结果便大相径庭。而GPT – 4o能精准理解自然语言命令,用户只需像与好友交流一样,就能轻松实现张嘴画图。

自然语言就是日常的口头表达。比如,若需要一张瀑布图,只需告诉GPT – 4o“帮我生成一幅清晨茂密森林里的彩虹瀑布”即可。但使用Midjourney时,需要像下图那样,用高度结构化的prompt指令,详细告知图像主体、背景颜色、视角(仰角、俯角或平视)、风格(油画、古典或赛博朋克等),即便如此细致,仍可能出现无关画面元素。

图片[2]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

其二,多模态能力带来图生图、图改图功能。类似Midjourney的应用只能接收文字指令,不支持上传图片修改,也无法在AI生图后调整图像分辨率、色彩、背景。若成图效果不理想,只能重写提示词碰运气,之前的图像作废。

GPT – 4o的强大之处在于,用户可随意上传图片多次修改,图片可以是AI生成的,也可以是自己拍摄的。例如,上传一张全身照,能将头型换成大波浪,把衣服换成购物车里的裙子查看上身效果。它支持在现有图片上进行修改,无需学习PS等高难度修图技术。

更厉害的是,它支持多轮对话,可在原图上不限次数修改,直到用户满意。用户可以随时更改头发造型、更换背景为沙漠或调整滤镜风格,只要有需求,它都能满足。

图片[3]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

图源:小红书@Mr.汤先森

除了降低交互门槛和提升控图能力,GPT – 4o的跨学科知识储备也令人惊叹。集成大语言模型原有知识库的GPT – 4o,宛如一个上知天文、下知地理的画家,既能解答高数、物理题,又能还原建筑草图。相比之下,Midjourney作为垂类应用,始终局限于艺术领域,主要为电影宣发、广告等文娱产业服务。

GPT – 4o十分强大,给出题目就能生成函数图像,如同画图指导版的拍照搜题应用。甚至给它一张无色彩的铅笔画建筑草图,它也能生成施工后的房屋实景,完全跨越学科边界,是个文理双全的全能选手。

图片[4]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

图源:小红书@云安

既然GPT – 4o的生图改图功能如此出色,那么它火爆出圈背后,能为普通人带来哪些实际价值呢?

02 超越艺术,GPT – 4o的更多实用性

GPT – 4o上线一周内,Midjourney CEO大卫·霍尔兹坐不住了,发文称:GPT – 4o只是花架子,Midjourney – v7下周上线。

图片[5]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

目前,GPT – 4o和Midjourney谁更优还难以定论。但可以确定的是,GPT – 4o火出圈了,它不再局限于设计师小众圈子,走进了大多数人的工作场景。即便有人完全不了解AI生图,也一定知道社交媒体上出现了能用嘴P图的网络工具。

那么,GPT – 4o为何如此火爆,它给我们带来的最实际价值是什么呢?

首先,它真正实现了应用零门槛,用户无需任何艺术功底和AI基础,普通人也能直接上手。使用Midjourney,需要了解基本的绘画知识,如流派、色彩、光学、框架等,以及/imagine(生成图像)、–ar(图像宽高比)等基础英文提示指令。而使用GPT – 4o,不懂透视、框架、光线,也不知结构化提示词为何物,像与朋友对话般交流就能修图。

图片[6]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

图源:小红书@Geek4Fun

除降低使用门槛外,模型产品的质量和效能也大幅提升。一是生图速度更快,以前Midjourney解析复杂指令约需1分钟,GPT – 4o在20秒内即可完成还原。

二是生图和改图的控制性增强,GPT – 4o能完全按照指令生成图像。例如,给出“给我生成一个猫猫和狗狗在草地里玩耍的场景”指令,GPT – 4o生成的就是一只猫和一只狗在草地上玩耍的画面,无其他多余元素;而Midjourney生成的画面可能在草坪上多一个公园或建筑,不会完全遵循指令。通俗来讲,GPT – 4o更能理解用户需求,像电子仆人一样,让做什么就做什么,精准度更高。

因此,GPT – 4o打开全民赛道,融入我们的工作场景。此前,普通用户使用Midjourney更多是出于兴趣,娱乐属性强、工具属性弱。生成的油画、动漫等风格图像虽美观,但无法提升工作效率,也难以带来收益,主要起造型作用。

图片[7]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

而GPT – 4o的用嘴P图功能,让AI绘图可应用的行业增多,从娱乐化与艺术性走向专业化与生产力,能应用于电商、教育、建筑、设计等多个行业。比如孩子不会做题,以往需请教老师或下载作业帮,辅导费用高且作业帮讲解文字枯燥、难以理解。但GPT – 4o能生成讲解草稿图,清晰展示函数生成过程和答案推导过程。

再如电商行业的宣传海报,甲方要求生成针对欧美市场的英语海报,需对设计元素和语言进行本地化润色。以往的流程是对接设计师修改元素、用翻译软件润色,再导入PS软件修改,耗时费力。现在GPT – 4o只需一句话“把这张海报改成欧美风,语言变成英语”,就能快速设计出符合要求的海报,跨领域跨学科的集成能力十分强大。

03 不止绘画,大模型的下一站是集成式平台

聊完GPT – 4o的画图出圈,再来探讨一下,作为底层模型的GPT – 4o还有哪些可挖掘之处。

我们知道,Midjourney是基于模型的应用,而GPT – 4o本身就是一个模型,生图只是其能力之一。2022年刚推出的ChatGPT只是一个文字交流的对话助手,后来具备语音打电话功能,现在又能画图,不断在不同维度迭代升级。

图片[8]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

此次GPT – 4o能在绘图赛道脱颖而出,得益于其原生多模态模型能力的显著提升。与Midjourney不同,GPT – 4o有更多技术路径可选。当前文生图领域应用普遍使用的底层模型是扩散模型diffusion model,其原理是先生成大致图像,再消除噪点,还原能力较弱。

而GPT – 4o采用文生图自回归模型,将预测token的逻辑推理能力延伸到文生图领域,通过逐帧绘制的方式,从已生成像素推测下一个像素,本质上是模仿人类画画。这表明,与垂类应用不同,大模型可从底层架构选择不同技术路径,架构升级通常会带来性能提升,基于GPT – 4o等原生模型的功能有更大的发展空间。

图片[9]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

其次,多模态融合会实现跨领域的融会贯通。GPT – 4o作为通用大模型,具备整合文字、音频、图像等不同格式信息的能力,现阶段已能打电话、生图改图。未来,它是否能直接生成音乐和视频,值得期待。实际上,GPT – 4o此次上线的生图功能就源自OpenAI的文生图模型DALL – E。或许,OpenAI旗下的文生视频模型Sora也可能通过某种技术整合到GPT模型中。届时,在一个模型里交叉处理多种模态信息将不再遥远。

多模态创新还表明,模型功能增多后,处理各种任务的能力增强,AI使用总成本降低。

可以预见的趋势是:大模型正试图成为一站式打包站点,将代码、设计、音乐、数据处理等多种任务集成在一起。

未来某一天,类似ChatGPT的模型可能强大到在任何领域都能名列前茅,届时我们无需下载画图的Midjourney、写代码的coze、做音乐的suno等垂类应用,下载一个类似ChatGPT的模型就能解决所有问题。这样既能节省手机内存,又能提高运行效率,还能省下每月约一百块的垂类应用会员定制费,性价比更高。

图片[10]-GPT – 4o 为何抢了 Midjourney 的“饭碗”-精准获客

总之,GPT – 4o绘图能力的出圈,让我们看到底层大模型集成多应用的潜力。其愿景是,未来我们能在一个一站式模型中同时使用绘画、音乐、代码等多维能力,且使用门槛极低,即使毫无技术基础、不了解AI的人也能轻松上手。

这或许才是人类发明AI的终极目标——让技术惠及每一个角落。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容