图片-精准获客

UC 头条的广告投放!AIGC 生成广告图的技术方案全面揭晓

技术方案

当下正在构建的制图流程主要涵盖三类:人物类流程、广告底图流程以及意向图文类流程。其中,人物类图片在各类图片的生成需求中最为突出,所面临的挑战也最大,相应地,其制图流程也最为繁杂。

接下来,重点以“人物生成”为例,阐述 uc 头条广告投放制图流程的操作流程,并讲解所涉及的多种技术的运用方式。

1. 制图流程介绍

各类制图技术的流程示意情况如下:

人物类流程:

当下主要能够在人脸 ID、发式、服饰、表情、体态、背景等维度实现可控。

uc 头条广告投放

广告底图类流程:

依据具体的 uc 头条广告投放营销业务要点,运用大语言模型的创意提供能力,整合历史上的高价值物料,梳理高质量 prompt,借助 stable diffusion 的生成能力,创造出多样化的广告底图。

uc 头条广告投放

意向图文类流程:

在广告营销领域中,对“意向”的借用,并搭配与业务点相关的“宣传语”,往往能够达成直击人心的营销成效。在“意向”、“宣传语”的获取方面,AIGC 依然以大语言模型和历史高价值物料为依据;在文字渲染方面,既能够采用传统的选取特定字体、字号、颜色的渲染方式,也能够直接运用模型(deepfloyd IF)的添加文本方式,前者的可控性更强,而后者与图像的整体融合度更为自然,可依据具体情况进行选择。

uc 头条广告投放

2. 人物制图过程

获取人脸素材 – GAN

GAN 属于一种生成对抗网络模型,基于 GAN 技术,能够生成丰富多样的包含不同性别、年龄段、特点的人脸。其生成器为一个深度卷积神经网络,由多个层构成,每个层均包含一组卷积和上采样操作,用于将中间向量转化为图像。

生成的步骤如下:

首先,GAN 借助一组预先训练的人脸图像数据集进行训练,学习人脸的特征与风格。

然后,在训练过程中,GAN 将潜在空间向量与可训练的转换器相结合,以生成具备不同特征和风格的中间向量,形成(向量、风格)pair 对。

最后,将这些中间向量输入至生成器中,便能够获得逼真的人脸图像。

此外,为防止生成的人脸图像呈现棕色或灰色调,GAN 还引入了归一化操作,用于平衡不同层之间的输出。GAN 还引入了一种名为“progressive growing”的新技术,能够在训练过程中逐步增加图像的分辨率,从而生成更高质量的图像。最终,GAN 能够生成高度逼真、多样化且具有可塑性的人脸图像。

uc 头条广告投放

GAN 结构及生成人脸的效果展示

控制人物发式、服饰

人物的发式、服饰控制是基于 StableDiffusion + lora 来实现的。LoRA,英文全称为 Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,是由微软的研究人员为解决大语言模型微调问题而开发的一项技术,使其应用在 cross-attention layers(交叉关注层)时也能够影响文字生成图片的效果。它对人脸的学习效果处于 dreambooth、texual inversion 两者之间,参数文件大小可控,在 2 – 200 MB 之间,对人物的发式、服饰具有极佳的泛化生成能力。

交叉注意力层的权重以矩阵形式排列,LoRA 模型通过将不同的权重添加到这些矩阵中来微调模型。LoRA 模型文件能够做到很小的技巧在于:将矩阵分解为两个较小的(低秩)矩阵,通过这样的操作,便能够存储更少的参数。

uc 头条广告投放

LoRA 矩阵分解示意图

各类文档中往往指明需要至少 3 张相同的人脸图像来进行学习,经过实验,如果对人物面部没有多角度生成的需求(比如广告图中大多数人物形象为正面照),仅使用一张人脸图像进行学习即可(需要为清晰的正面照)。

uc 头条广告投放

目标人物(第一张)& 生成人物示意图

编辑人物表情、体态

在表情方面,AIGC 参考了高价值广告图中的人物表情,用于后续的表情迁移,旨在清晰传达广告图中人物遇到问题时的“苦闷”以及解决问题后的“喜悦”情绪;当前表情迁移技术较为稳定的方案是 controlnet 的面部控制。

在体态方面,参考高价值广告图中的人物体态特征:分别使用 blender、openpose 生成并提取人物姿势;应用 depth 模型提取人物综合的体态特征图(即深度图),相较于姿势图,深度图能够同时刻画“姿势 + 身材”;然后通过 sd + controlnet 来实现,controlnet 作为 sd 的补充网络,生成过程分为两个阶段:

  • 首先,使用预处理模型提取人物表情、姿势、深度图

  • 其次,应用 controlnet 大模型作用于 sd 网络,控制按照指定的表情、姿势进行人物生成。

uc 头条广告投放

controlnet 作用于 stable diffusion 网络示意图

uc 头条广告投放

controlNet 子网络结果图

调整人物背景

针对广告主的营销业务特点,让人物出现在恰当的场景中,例如小说类图像人物出现在:健身房、客厅、卧室、花店等室内场景,以及公园、山谷、海边等户外场景。背景图的自动化生成工作主要包含以下步骤:

首先,收集背景图库,图片可由 sd v2.1 直接生成高清图片,经过人工筛选可用,只需要找到合适的 prompt 。

其次,对包含人物的原图进行抠图,用于后续的背景合成,当前基于 PaddleMatting 进行人物抠图,未来考虑运用 SAM(Segment Anything Model)实现。

最后,按照最终输出图像的比例,应用 pillow 库的 alpha_composite 方法合成至背景图的相应位置。

后置处理过程

上述过程完成后,为了在广告业务中实现更优的营销效果,会在图像中添加广告语、品牌 logo、水印等信息;此外,部分商品按照规定需要在广告图上明确标识出营销产品的基本信息。在这里,AIGC 应用准备好的广告语,以及广告主提供的产品信息,结合人物识别模型,将广告语及产品信息添加至合适的位置上,确保人物不被遮挡。至此,一张能够用于线上投放的人物广告图便完成了。

未来展望

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容