UC 头条的广告投放！AIGC 生成广告图的技术方案全面揭晓

优化师-老杨

9个月前发布

0617

技术方案

当下正在构建的制图流程主要涵盖三类：人物类流程、广告底图流程以及意向图文类流程。其中，人物类图片在各类图片的生成需求中最为突出，所面临的挑战也最大，相应地，其制图流程也最为繁杂。

接下来，重点以“人物生成”为例，阐述 uc 头条广告投放制图流程的操作流程，并讲解所涉及的多种技术的运用方式。

1. 制图流程介绍

各类制图技术的流程示意情况如下：

人物类流程：

当下主要能够在人脸 ID、发式、服饰、表情、体态、背景等维度实现可控。

uc 头条广告投放

广告底图类流程：

依据具体的 uc 头条广告投放营销业务要点，运用大语言模型的创意提供能力，整合历史上的高价值物料，梳理高质量 prompt，借助 stable diffusion 的生成能力，创造出多样化的广告底图。

uc 头条广告投放

意向图文类流程：

在广告营销领域中，对“意向”的借用，并搭配与业务点相关的“宣传语”，往往能够达成直击人心的营销成效。在“意向”、“宣传语”的获取方面，AIGC 依然以大语言模型和历史高价值物料为依据；在文字渲染方面，既能够采用传统的选取特定字体、字号、颜色的渲染方式，也能够直接运用模型（deepfloyd IF）的添加文本方式，前者的可控性更强，而后者与图像的整体融合度更为自然，可依据具体情况进行选择。

uc 头条广告投放

2. 人物制图过程

获取人脸素材 – GAN

GAN 属于一种生成对抗网络模型，基于 GAN 技术，能够生成丰富多样的包含不同性别、年龄段、特点的人脸。其生成器为一个深度卷积神经网络，由多个层构成，每个层均包含一组卷积和上采样操作，用于将中间向量转化为图像。

生成的步骤如下：

首先，GAN 借助一组预先训练的人脸图像数据集进行训练，学习人脸的特征与风格。

然后，在训练过程中，GAN 将潜在空间向量与可训练的转换器相结合，以生成具备不同特征和风格的中间向量，形成（向量、风格）pair 对。

最后，将这些中间向量输入至生成器中，便能够获得逼真的人脸图像。

此外，为防止生成的人脸图像呈现棕色或灰色调，GAN 还引入了归一化操作，用于平衡不同层之间的输出。GAN 还引入了一种名为“progressive growing”的新技术，能够在训练过程中逐步增加图像的分辨率，从而生成更高质量的图像。最终，GAN 能够生成高度逼真、多样化且具有可塑性的人脸图像。

uc 头条广告投放

GAN 结构及生成人脸的效果展示

控制人物发式、服饰

人物的发式、服饰控制是基于 StableDiffusion + lora 来实现的。LoRA，英文全称为 Low-Rank Adaptation of Large Language Models，直译为大语言模型的低阶适应，是由微软的研究人员为解决大语言模型微调问题而开发的一项技术，使其应用在 cross-attention layers（交叉关注层）时也能够影响文字生成图片的效果。它对人脸的学习效果处于 dreambooth、texual inversion 两者之间，参数文件大小可控，在 2 – 200 MB 之间，对人物的发式、服饰具有极佳的泛化生成能力。

交叉注意力层的权重以矩阵形式排列，LoRA 模型通过将不同的权重添加到这些矩阵中来微调模型。LoRA 模型文件能够做到很小的技巧在于：将矩阵分解为两个较小的（低秩）矩阵，通过这样的操作，便能够存储更少的参数。

uc 头条广告投放

LoRA 矩阵分解示意图

各类文档中往往指明需要至少 3 张相同的人脸图像来进行学习，经过实验，如果对人物面部没有多角度生成的需求（比如广告图中大多数人物形象为正面照），仅使用一张人脸图像进行学习即可（需要为清晰的正面照）。

uc 头条广告投放

目标人物（第一张）& 生成人物示意图

编辑人物表情、体态

在表情方面，AIGC 参考了高价值广告图中的人物表情，用于后续的表情迁移，旨在清晰传达广告图中人物遇到问题时的“苦闷”以及解决问题后的“喜悦”情绪；当前表情迁移技术较为稳定的方案是 controlnet 的面部控制。

在体态方面，参考高价值广告图中的人物体态特征：分别使用 blender、openpose 生成并提取人物姿势；应用 depth 模型提取人物综合的体态特征图（即深度图），相较于姿势图，深度图能够同时刻画“姿势 + 身材”；然后通过 sd + controlnet 来实现，controlnet 作为 sd 的补充网络，生成过程分为两个阶段：

首先，使用预处理模型提取人物表情、姿势、深度图

其次，应用 controlnet 大模型作用于 sd 网络，控制按照指定的表情、姿势进行人物生成。

uc 头条广告投放

controlnet 作用于 stable diffusion 网络示意图

uc 头条广告投放

controlNet 子网络结果图

调整人物背景

针对广告主的营销业务特点，让人物出现在恰当的场景中，例如小说类图像人物出现在：健身房、客厅、卧室、花店等室内场景，以及公园、山谷、海边等户外场景。背景图的自动化生成工作主要包含以下步骤：

首先，收集背景图库，图片可由 sd v2.1 直接生成高清图片，经过人工筛选可用，只需要找到合适的 prompt 。

其次，对包含人物的原图进行抠图，用于后续的背景合成，当前基于 PaddleMatting 进行人物抠图，未来考虑运用 SAM（Segment Anything Model）实现。

最后，按照最终输出图像的比例，应用 pillow 库的 alpha_composite 方法合成至背景图的相应位置。

后置处理过程

上述过程完成后，为了在广告业务中实现更优的营销效果，会在图像中添加广告语、品牌 logo、水印等信息；此外，部分商品按照规定需要在广告图上明确标识出营销产品的基本信息。在这里，AIGC 应用准备好的广告语，以及广告主提供的产品信息，结合人物识别模型，将广告语及产品信息添加至合适的位置上，确保人物不被遮挡。至此，一张能够用于线上投放的人物广告图便完成了。

未来展望

1 本站内容观点不代表本站立场，并不代表本站赞同其观点和对其真实性负责；
2 本站部分内容来源于网络，仅供学习与参考，如有侵权，请联系网站管理员删除
3 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
4 精准获客感谢您的访问！希望本站内容对您有所帮助！

THE END