超好用!信息流受众画像的数据分析,若你能看懂那就算我败!

从事广告优化工作许久,也阅览了众多广告后台的受众画像,综合而言,其对于广告数据的分析以及效果的优化所具备的参考价值相对有限,不过总比没有要好一些。

追根溯源,许多广告后台的受众画像数据存在的问题在于,仅仅向我们呈现了观看广告的这部分人群的特征,而缺失了实现转化的那部分用户的画像数据。主要原因有两点:

其一,在大多数广告投放的流程中,前后端的数据是相互分离的。也就是说,媒体能够知晓你投入资金购买的广告被哪些人浏览,但通常不清楚哪些人产生了转化;而甲方通过自身的监测,能够明确转化的用户属于哪一部分,如果监测工作足够出色,也能够了解这部分人群的画像,然而人群画像的判定标准与媒体方可能有所不同,统计的口径不一致,数据难以人工打通。

其二,媒体不太愿意公开过多的数据,甚至受众画像本身就存在一定的问题。

当下,信息流优化已经成为行业内交流的热门话题,优化创意、定向等内容已是屡见不鲜,唯独受众画像的数据分析鲜有人论及,仍有可挖掘的空间。今日借此契机,与大家分享一种受众数据分析的思路。

需要着重指出的是,接下来的广告数据分析存在一个最为基础的前提:假定媒体提供的数据和甲方监测的数据均真实准确。接下来小编会通过一个真实的案例和数据(今日头条,家装类)为大家介绍,如何运用朴素贝叶斯的算法,对今日头条的受众画像展开数据挖掘和分析,进而达成精准定向下的转化率预测。

1、朴素贝叶斯的原理

每次提及贝叶斯定理,我内心的敬仰之情便会情不自禁地涌现,并非由于这个定理有多么高深莫测,而是因为它极为实用。此定理解决了现实生活中频繁遭遇的难题:已知某条件概率,怎样获取两个事件交换后的概率,也就是在已知 P(A|B)的状况下怎样求得 P(B|A)。例如,我了解在发生转化的用户当中,女性所占比例为 36%,那么当一位女性用户看到我的广告时,她产生转化的可能性有多大。

在此先阐释一下何为条件概率:

P(A|B)代表在事件 B 已经发生的前提条件下,事件 A 发生的概率,被称作事件 B 发生下事件 A 的条件概率。其基本的求解公式为:

贝叶斯定理之所以具有实用价值,是因为在我们的日常生活中常常会碰到这样的情况:能够不费吹灰之力地直接获取 P(A|B),而 P(B|A

图片[1]-超好用!信息流受众画像的数据分析,若你能看懂那就算我败!-精准获客

)则很难直接得出,但实际上我们更为关注 P(B|A),在这种时候,贝叶斯定理为我们提供了从 P(A|B)获取 P(B|A)的途径。

下面省略证明的过程,直接给出贝叶斯定理,相信对于高中数学尚有印象的朋友对这个公式不会感到陌生:

2、朴素贝叶斯的数据挖掘原理

下面通过一个简单的实例,介绍朴素贝叶斯的数据挖掘原理。虽然样本数量不多,但足以阐明原理和思路。

这里有一份受众画像数据,总计 20 笔数据,即代表 20 个 UV。填写表单这一字段值为 1 的总计 9 笔,也就是说发生转化的用户数量为 9。

表 1

随后,我们将除了 ID(仅仅是编号,对于挖掘没有价值)、省级地域(因为均为广东,对于挖掘没有价值)之外的其他字段,进行一个占比分布,如下图所示:

表 2

假设,我想要了解 定向 X=(地级市=”佛山”,性别=”男”,年龄=”18-23 岁”,兴趣分类=”房产”)的转化率,即我想要求出:P(填写表单=”1″ | X)。

直接计算是无法得出的,回到前文提到的朴素贝叶斯,其专门处理的就是这类问题,我只要知道 P(X | 填写表单=”1″),就能够通过公式得到 P(填写表单=”1″ | X)。

具体的直接套用公式可得:

P(填写表单=”1″ | X) = P(X | 填写表单=”1″) * P(填写表单=”1″) / P(X)

同理可得,

P(填写表单=”0″ | X) = P(X | 填写表单=”0″) * P(填写表单=”0″) / P(X)

这里需要引入另外一个重要的公式,P(A,B)代表事件 A 与 B 同时发生的概率。

当事件 A 与 B 的发生各自独立时,P(A,B) = P(A|B) * P(B) =P(A)P(B)。

由于,地级市、性别、年龄等这些字段(或定向)的发生能够被理解为是各自独立的,所以 P(X | 填写表单=”1″) = P(X ) * P(填写表单=”1″) ,又 P(X | 填写表单=”1″)= P(地级市=”佛山”,性别=”男”,年龄=”18-23 岁”,兴趣分类=”房产” | 填写表单=”1″)=P(地级市=”佛山” | 填写表单=”1″) * P(性别=”男” | 填写表单=”1″) * P(年龄=”18-23 岁” | 填写表单=”1″) * P(兴趣分类=”房产” | 填写表单=”1″),此时,看似同样无法直接获取的 P(X | 填写表单=”1″),被分解为看起来更为简单的 5 个事件的概率的乘积。

代入具体数值,计算可得:

P(填写表单=”1″ | X) = P(X | 填写表单=”1″) * P(填写表单=”1″) / P(X)= (3/9 * 6/9 * 2/9 * 1/9)*0.45 / P(X) = 0.002469 / P(X)……………………………………………①

P(填写表单=”0″ | X) = P(X | 填写表单=”0″) * P(填写表单=”0″) / P(X)= (2/11 * 5/11 * 2/11 * 2/11)*0.55 / P(X) = 0.0015026 / P(X)……………………………………………②

接下来,碰到一个问题,P(X)是多少,不清楚!不过没关系,当定向 X 的用户进入时,ta 要么转化,要么不转化,所以

P(填写表单=”1″ | X) + P(填写表单=”0″ | X) =1……………………………………………③

联立①②③,最终求出:

P(填写表单=”1″ | X) = 62.2%

P(填写表单=”0″ | X) = 37.8%

因此,当定向为 X 时,朴素贝叶斯数据挖掘模型认为,此类用户的转化率为 62.2%。

3、朴素贝叶斯的数据挖掘的优势

主流的数据挖掘算法,例如神经网络、决策树等。多数依赖如表 1 所示的数据,每一个字段代表用户的不同维度,每一行代表一个独立用户的数据。但在实际的优化过程中,媒体方不可能提供如此详尽的受众画像数据, 然而朴素贝叶斯有所不同,对原始数据的要求稍低一些,只需要提供不同维度组合下的比例,而不必细化到每一个用户的具体情况。

4、朴素贝叶斯的数据挖掘案例解读

1) 原生数据及预处理

我们从今日头条广告后台获取的数据经过简单处理后,呈现如下:

总计 13339 次点击,转化量为 37。

表 3

2)计算字段重要性,确定输入字段

由于所有字段均为类别型字段(区别于数值型字段),这里介绍一个较为通用的算法,用于评估所有可能的输入字段对输出字段的重要性。

公式解读如下:

(注:ABS 函数,用于求取绝对值)

所有可能的输入字段对输出字段的重要性计算结果如下:

一般经验而言,字段重要性小于 0.1 的字段可以不纳入数据挖掘模型当中。

所以,目前依据有限的数据,“性别”这一字段,对于判断用户是否转化的帮助不大,故而在接下来的数据挖掘模型中,输入字段涵盖:地级市、年龄、兴趣分类。

开始进行数据挖掘,具体原理此处不再赘述,直接给出结果。

。。。(中间太长,省略了)

我们可以看到,数据挖掘显示,转化为 1 的最大概率是 1.51%,此时的定向条件是“广州&(50 岁以上)-母婴儿童”。而样本数据的整体转化率是 37/13339 = 0.28%。

下图是转化为 1 的概率分布,可以发现大于 0.28%的数据约占 25%,换句话说,基于朴素贝叶斯的用户数据挖掘,在 324 种定向组合中,找到了约四分之一的组合,能够使预估的转化率高于平均水平 0.28%。随着数据量的增加,模型也会不断改进,对精准定向组合的转化率预测效能也会愈发优良,将有限的广告费用投入到最有可能转化的用户身上。

下面思考如何将这一洞察,应用于广告投放,创造更高的 ROI。比如制作具有针对性的创意、提高出价等等,这个方面各位都是经验丰富之人,在此就不再详细说明了。

最后着重强调一句,受众画像的数据挖掘需要满足一定的条件,即要能够区分转化和未转化的用户。

以上,便是基于朴素贝叶斯的用户数据挖掘,供大家参考。

THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容