数据分析师,究竟需要知晓多少算法模型?

当下,数据分析岗位的招聘愈发内卷,询问“你用过/建过什么模型”的情况愈发常见。这一问题常常给人一种“面试时要求极高,工作中却并非如此”的感受。在实际工作中,真的需要运用如此众多的模型吗???

这使得许多同学心生困惑:

l 究竟数据分析师需要了解多少种算法模型?

l 工作中真的会用到如此多的模型吗?

l 我所做的究竟算不算是模型?

今日来进行系统的阐释。

01.

梳理各方所提及的“模型”

这个问题的核心源于不同人所说的“模型”具有不同的含义。从广义角度来看,只要是对现实问题的抽象化表达,都能够被称作“模型”。然而,一旦涉及到数据、计算过程以及使用场景,就会发现这些形形色色的模型存在着显著的差异。所以想要弄清楚,我们得首先对各方口中的“模型”进行全面的梳理。

▌ 类型一:纯理论模型

这类模型通常源自《管理学》《营销学》等课程,与数据的结合程度几乎为零。就拿 PEST 来说,试问一款 APP 的 DAU 在 8 月份增长了 10 万,其中有多少是由于国家出台的文件导致的?又有多少是源于 2017 年新生人口 1723 万?还有多少是因为华为?没有一个能够确切计算出来。

所以严格来讲,这些东西不能算作数据分析模型,它们仅仅是一种思考方式。除非是政策敏感性极强的行业且政策风向剧烈波动(例如互联网金融),才能够从 PEST 中直观地看到数据的变化;或者处于垄断竞争行业(比如三大电信运营商),业务才会直接受到对手的挑战。在其他场景下,这些东西不过是用于美化 PPT 罢了。

▌ 类型二:半理论模型

这些模型是经典的营销分析模型,但正因如此,它们中的大部分是基于调研数据的,比如用户的态度、感受、评价等,是通过传统的调研手段来获取数据。在当下,获取用户数据的方法众多,直接进行 ABtest,远比通过问卷询问态度再反推来得更为直观。因此,这些模型的适用范围已大幅缩小。理论可以了解,但直接照搬就免了。

有趣的是,为了体现自身的价值,调研公司、咨询公司、广告公司还是很热衷于讲述这一类的模型,毕竟用户的大脑没有接口,即使记录了再多的行为数据,还是无法直接推断出用户的想法。所以当产品经理、运营、研发感到困惑时,还是会向市场调研寻求帮助。

▌ 类型三:基于指标计算模型

这些模型才是业务中被提及频率最高、谈论最多的。这些模型往往直接运用业务部门的 KPI 指标,并以富有逻辑的方式呈现,因此业务部门在讨论问题时能够直接套用,极为实用。同时,这些模型都能够基于指标进一步拆解,所以业务讨论结束后,可以直接按照小组分配任务,并监督任务的完成情况。这两个优势,使得业务部门非常青睐这类模型,甚至还会自行创造几个。

然而,这类模型存在一个致命的缺陷,那就是:关键参数源自经验,对于未来的预测完全依靠主观判断。当你询问业务为何估计转化率是 20%时,得到的回答不是“最近几个月都是 20%”,就是“我觉得它会是 20%”——建立算法模型时还有各种检验值呢,这里却纯粹是拍脑袋决定的。

▌ 类型四:指标计算模型

曲线拟合通常用于预测整体指标的走势,比如整体销量、整体商品数量、用户流失数量等等。这种方式简单直接:不考虑原因,只关注结果,依据结果数据的过往走势来拟合未来的走势。

虽然看起来有些简单粗暴,但却非常实用。因为所需的数据量少!只要有一个结果数据就够了(在很多情况下,简单省事就是真理)。所以适用范围相当广泛。

线性规划模型是经典的科学管理模型,常常被应用在已定目标、分配任务的场景(如下图)。

有趣的是,线性规划模型常常被用于供应链领域,在营销端理论上可以使用,但实际应用较少。其中最大的限制,来源于基础数据的积累:供应链往往对生产力、运力、人力有较多的评估和积累,因此有大量数据可用于建模。而营销端花样百出,业务方又过于执着于玩法创新,懒得为业务打标签和积累数据,自然没有多少数据可供参考。

▌ 类型五:算法模型

这里才是近年来备受瞩目的机器学习算法。不过,这些算法大部分并非用于解决企业的经营问题,而是应用于工业领域,比如安防、辅助驾驶、语音识别、语音控制、内容推荐、商品推荐、反欺诈、风控等等。这些都属于生产系统,而非数据分析/BI 系统。在架构上,一般由专门的算法组/风控模型组负责,不会与数据分析组重合。

在企业经营方面,算法有一些经典的应用场景,比如响应率预测、消费能力预测等等,但始终不是数据分析工作的重点。因为在大部分企业经营场景中,面临的问题是:没有数据!采集数据、整理数据、分析数据才是数据分析组的主要任务。而且大部分算法的解释性较差,业务既无法参与,也难以理解,因此能够输出的成果非常有限,从而限制了算法在分析中的应用。

至于为什么在面试时越来越喜欢询问算法相关的问题,实际上这是数据分析岗位内卷的明显标志:只是单纯报考这个岗位的人太多了,咱们问些难题淘汰一批吧。如果没有独立的算法组,指望招聘一个孤立的数据分析师就能搞定模型,那简直是异想天开。

02.

究竟需要了解多少模型

比如预测 12 月的销量,那么可以这样做:

通过这样直观的对比,就能明白为什么统计学/机器学习算法模型在实际场景中的应用较少。这些模型需要大量的数据,对数据颗粒度的要求精细,建模过程复杂,而输出的结果反而较为简单,业务能基于此开展的工作也少。

相比之下,套用经营分析的模型进行拆解,虽然主要参数大多是主观估计,但也间接地给各个部门下达了任务指标:你必须达成这么多!这样更易于推动业务部门采取行动。使用时间序列法虽然计算出的结果可能无法落地,但它所需的数据少,哪怕只有一串数据也能使用。因此更为省事。

注意:上述对比,并不能表明机器学习方法不适用于经营分析,只是场景不匹配而已。在其他场景中依然能够发挥良好的作用。比如用二分类模型预测用户购买,就有两种典型且好用的用法:

1、在响应率低的时候,压缩业务工作量,提高产出率。最典型的例子就是外呼,用户如果不接电话,任凭外呼员能言善辩也无济于事。而且外呼的成功率特别低,自然成功率只有 1.5%-2%,因此哪怕模型只将接听率提高一个百分点,也能大幅提升外呼员的工作效率。

2、在响应率高的时候,识别自然响应群体,减少投入。最典型的就是营销成本控制。如果想要压缩优惠券的投放,最好的办法就是预测:是否购买,然后将购买概率高的群体的优惠券取消。对于节省费用,效果非常显著。

所以在工作中,基于以下几点量体裁衣,才是能够发挥作用、争取认可的有效做法。

● 数据的丰富程度

● 数据质量的高低

● 结果的使用场景

● 期望的上线时间

毕竟在企业工作中,追求的是低成本高效率地解决问题,如果一味追求复杂和尖端,倒不如回到学校攻读博士,专心从事科研工作。

THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容