技术方案
当下正在构建的制图流程主要涵盖三类:人物类流程、广告底图流程以及意向图文类流程。其中,人物类图片在各类图片的生成需求中最为突出,所面临的挑战也最大,相应地,其制图流程也最为繁杂。
接下来,重点以“人物生成”为例,阐述 uc 头条广告投放制图流程的操作流程,并讲解所涉及的多种技术的运用方式。
1. 制图流程介绍
各类制图技术的流程示意情况如下:
人物类流程:
当下主要能够在人脸 ID、发式、服饰、表情、体态、背景等维度实现可控。
广告底图类流程:
依据具体的 uc 头条广告投放营销业务要点,运用大语言模型的创意提供能力,整合历史上的高价值物料,梳理高质量 prompt,借助 stable diffusion 的生成能力,创造出多样化的广告底图。
意向图文类流程:
在广告营销领域中,对“意向”的借用,并搭配与业务点相关的“宣传语”,往往能够达成直击人心的营销成效。在“意向”、“宣传语”的获取方面,AIGC 依然以大语言模型和历史高价值物料为依据;在文字渲染方面,既能够采用传统的选取特定字体、字号、颜色的渲染方式,也能够直接运用模型(deepfloyd IF)的添加文本方式,前者的可控性更强,而后者与图像的整体融合度更为自然,可依据具体情况进行选择。
2. 人物制图过程
获取人脸素材 – GAN
GAN 属于一种生成对抗网络模型,基于 GAN 技术,能够生成丰富多样的包含不同性别、年龄段、特点的人脸。其生成器为一个深度卷积神经网络,由多个层构成,每个层均包含一组卷积和上采样操作,用于将中间向量转化为图像。
生成的步骤如下:
首先,GAN 借助一组预先训练的人脸图像数据集进行训练,学习人脸的特征与风格。
然后,在训练过程中,GAN 将潜在空间向量与可训练的转换器相结合,以生成具备不同特征和风格的中间向量,形成(向量、风格)pair 对。
最后,将这些中间向量输入至生成器中,便能够获得逼真的人脸图像。
此外,为防止生成的人脸图像呈现棕色或灰色调,GAN 还引入了归一化操作,用于平衡不同层之间的输出。GAN 还引入了一种名为“progressive growing”的新技术,能够在训练过程中逐步增加图像的分辨率,从而生成更高质量的图像。最终,GAN 能够生成高度逼真、多样化且具有可塑性的人脸图像。
GAN 结构及生成人脸的效果展示
控制人物发式、服饰
人物的发式、服饰控制是基于 StableDiffusion + lora 来实现的。LoRA,英文全称为 Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,是由微软的研究人员为解决大语言模型微调问题而开发的一项技术,使其应用在 cross-attention layers(交叉关注层)时也能够影响文字生成图片的效果。它对人脸的学习效果处于 dreambooth、texual inversion 两者之间,参数文件大小可控,在 2 – 200 MB 之间,对人物的发式、服饰具有极佳的泛化生成能力。
交叉注意力层的权重以矩阵形式排列,LoRA 模型通过将不同的权重添加到这些矩阵中来微调模型。LoRA 模型文件能够做到很小的技巧在于:将矩阵分解为两个较小的(低秩)矩阵,通过这样的操作,便能够存储更少的参数。
LoRA 矩阵分解示意图
各类文档中往往指明需要至少 3 张相同的人脸图像来进行学习,经过实验,如果对人物面部没有多角度生成的需求(比如广告图中大多数人物形象为正面照),仅使用一张人脸图像进行学习即可(需要为清晰的正面照)。
目标人物(第一张)& 生成人物示意图
编辑人物表情、体态
在表情方面,AIGC 参考了高价值广告图中的人物表情,用于后续的表情迁移,旨在清晰传达广告图中人物遇到问题时的“苦闷”以及解决问题后的“喜悦”情绪;当前表情迁移技术较为稳定的方案是 controlnet 的面部控制。
在体态方面,参考高价值广告图中的人物体态特征:分别使用 blender、openpose 生成并提取人物姿势;应用 depth 模型提取人物综合的体态特征图(即深度图),相较于姿势图,深度图能够同时刻画“姿势 + 身材”;然后通过 sd + controlnet 来实现,controlnet 作为 sd 的补充网络,生成过程分为两个阶段:
-
首先,使用预处理模型提取人物表情、姿势、深度图
-
其次,应用 controlnet 大模型作用于 sd 网络,控制按照指定的表情、姿势进行人物生成。
controlnet 作用于 stable diffusion 网络示意图
controlNet 子网络结果图
调整人物背景
针对广告主的营销业务特点,让人物出现在恰当的场景中,例如小说类图像人物出现在:健身房、客厅、卧室、花店等室内场景,以及公园、山谷、海边等户外场景。背景图的自动化生成工作主要包含以下步骤:
首先,收集背景图库,图片可由 sd v2.1 直接生成高清图片,经过人工筛选可用,只需要找到合适的 prompt 。
其次,对包含人物的原图进行抠图,用于后续的背景合成,当前基于 PaddleMatting 进行人物抠图,未来考虑运用 SAM(Segment Anything Model)实现。
最后,按照最终输出图像的比例,应用 pillow 库的 alpha_composite 方法合成至背景图的相应位置。
后置处理过程
上述过程完成后,为了在广告业务中实现更优的营销效果,会在图像中添加广告语、品牌 logo、水印等信息;此外,部分商品按照规定需要在广告图上明确标识出营销产品的基本信息。在这里,AIGC 应用准备好的广告语,以及广告主提供的产品信息,结合人物识别模型,将广告语及产品信息添加至合适的位置上,确保人物不被遮挡。至此,一张能够用于线上投放的人物广告图便完成了。
未来展望
2 本站部分内容来源于网络,仅供学习与参考,如有侵权,请联系网站管理员删除
3 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
4 精准获客感谢您的访问!希望本站内容对您有所帮助!
暂无评论内容