归因分析是指在日常的社会交往中,人们为了有效地控制和适应环境,往往对发生于周围环境中的各种社会行为有意识或无意识地做出一定的解释,即认知整体在认知过程中,根据他人某种特定的人格特征或某种行为特点推论出其他未知的特点,以寻求各种特点之间的因果关系。
根据模型采用的算法,可以将归因模型分为两类:
1. 启发式归因
顾名思义,启发式归因主要起启发作用,是一种快速分析方法。它使用简单的算法,计算各个触点、渠道对转化的贡献度。
常见的启发式归因方法有6种,分别是最终点击、最终非直接点击、线性衰减、首次点击、线性、根据衰减。启发式归因的缺点比较明显,它们都是主观的权重分配方法。然而,在实际运营中,不同品类、渠道,甚至不同时期的渠道归因的真实分配规则可能都不一样。
例如“最终点击”、“最终非直接点击”、“首次点击”这三种归因方法将所有的转化贡献归属到N个渠道中的某一个,忽略的其他渠道对转化的贡献。“线性归因”认为所有的渠道贡献都一样,强调广告的提醒功能,不适合长转化路径,这明显会对低估和高估某些渠道的真实贡献。“线性衰减”不适合短转化路径,因为这时候衰减作用还未发生。
目前,广告行业内主流的CPA/CPS结算方式还是按照最终点击计算。为什么大多按照最终点击计算,我们来看一些数据(来自国内某大型广告分发平台的后台数据)。从用户接触的触点数量看,74.3%的所有用户和85.4%的转化用户只接触一个触点,或者说只接触过一次广告。从用户接触的渠道数量看,92.1%的用户只接触了一个渠道。从这些数据可以看出最终点击的归因方式有其合理性,这也是为什么流量作弊存在的重要原因。通过IDFA/Cookie撞库、预点击、替换APK、肉机等方式,我们就可以轻易薅到广告主的羊毛。特别是替换APK的作弊流量,实际上就是真实流量,有转化也有留存,非常难甄别。互联网领域内,买流量、流量作弊的现象非常严重,你花10000块钱推广App,如果不选好渠道,可能只能带来几个真实用户。
2. 算法归因
利用统计或者机器学习方法分析各个触点对最终转化的影响程度。与启发式归因相比,它更加客观,不受到使用者偏好的影响。常见的算法有logistics回归、生存模型、probabilistic模型、markov模型等。
算法归因使用统计方法或者机器学习方法来确定转化贡献度,它是一种客观方法,而上面提到的启发式归因则是主观方法。算法归因本质上是一个分类问题,目标值通常是未来一段时间内用户是否转化(购买、下载等行为)。将渠道、渠道组合的变量二元化,构建分类模型,通过变量重要性计算渠道、渠道组合对转化的贡献度。我们还可以构建算法归因系统,将不同类别(如3C、服装、化妆品等)的数据清洗后输入系统,自动得到相应的渠道归因。
3.归因分析的应用:要不要在这个渠道投放广告
理论上,一个新渠道的运营要经过3个过程:渠道属性分析、投放测试和投放优化。但是有些合作渠道、涉及金额较小的渠道可能很少会去针对性的优化投放。
在实际运营中,第一步的分析工作通常需要借助第三方工具。比如我们可以利用微博指数、百度指数分析渠道相关关键字的人群属性和流量趋势;利用talking data的移动观象台或者quest mobile的数据去了解某个app的运营概况。第二和第三个问题的分析需要从渠道的作用入手。在互联网业务中,渠道有两个主要作用:获取流量和促进转化。不是说一个渠道的转化归因很低就可以不投这个渠道。比如说,我们有一个移动站,100%的流量来自于uc广告,那么从转化贡献度角度来看,uc渠道的算法归因贡献度是0。因为对于logistic归因模型来说,uc渠道是一个冗余变量。但是你能不投uc吗?所以,我们要综合两方面去考虑,用3或7日留存用户数量(使用留存用户是为了排除垃圾流量、低质量流量)与渠道转化贡献度这两个指标来构建象限图,直观的分析渠道质量。
4.总结
理论上来说,归因分析应当是一个非常有用的分析方法。但在实际应用时存在一些难以克服的问题,最大的问题是数据质量的问题,一个模型再好,如果数据质量不行,那也是白搭。