预测——数据分析的终极目标(三)

预测——数据分析的终极目标

预测是数据分析的终极目的

预测的必要性和误差的必然性

经验预测法

类比预测法

惯性法与时间序列分析

逻辑关系预测法

1.5 惯性法与时间序列分析

惯性预测法是根据事物发展的惯性进行预测,其中最典型的就是趋势分析。炒股的人除要看基本的股指点数外,还要看趋势线,并根据趋势线来判断什么地方是拐点等。

例如为了跟踪股票价格的变化趋势,我们会使用10日均线、20日均线、30日均线和60日均线(见下图),根据均线之间的变换我们可以判别股票价格的短线行情和长线行情,这些都是根据惯性来预测股票价格未来发展规律的方法。

(股票行情图)

本质上,惯性只存在于信息不对称的领域,在信息足够对称的情况下,大家转向的风向一致,那么股票价格就不会有这样的波动图形。在信息不对称的环境下,以信息谋取利润的行业就会有更多的暴利。如果信息已经充分对称了,那么以信息谋取利润的行业就会消失。未来商品的价格会越来越透明,根据信息不对称来销售商品的公司会倒闭,例如天猫就会出现问题。而京东则依靠强大的配送能力,将电商公司做成物流公司。物流是可以增值的,例如一件商品在天猫上卖8元,但用户需要等待3~4天才能收到货,而京东卖8.4元,并且用户上午下订单,下午就能够收到货,在这种情况下,用户觉得多花4毛钱是值得的。这是京东在有天猫这么强大的竞争对手的情况下依然能够生存的根本原因。同时天猫的菜鸟速递应该是应对这个问题的,如果它能做起来就有打败京东的优势,就能够成功,否则天猫很难突破。

时间序列分析模型是最典型的惯性分析法,其本质就是探寻一个事物的数量化指标随着时间变化的规律。如果事物完全按照时间顺序发展,则一定会按照一定的规律继续发展下去,如果是向上的趋势,就会继续向上发展;如果是向下的趋势,就会继续向下发展;如果存在周期性,就会按照周期性的规律发展;如果具有循环往复的特征,就会按照循环往复的特征发展下去。

从上面的描述中可以看出时间序列模型最本质的局限:忽略了现在的变化影响因素。即如果事物过去都是向上发展的,则时间序列认为事物还会继续向上发展,但因为某些特殊的原因,出现了下滑,则这个因素不予考虑,会认为是误差或者受随机因素的影响;如果是向下趋势则也是如此。

时间序列模型有多种类型,这些类型的分类是从事物变化是否具有规律性来评价的。如果事物的变化很有规律性,而随机影响(白噪声)较小,则可以通过惯性预测法对事物的变化进行预测;如果事物变化是有规律的,但噪声过大,容易掩盖事物自身的规律,这个时候惯性预测法就不太适用了。噪声大小是我们是否可以使用惯性预测法来预测的非常重要的因素,噪声大,规律就容易被掩盖,噪声小,我们可以通过消除噪声来发现事物的规律,如下图所示。

我们对事物变化规律的认知其实很有限。一般来说,在利用惯性法探测事物变化规律时,我们能够掌握三种变化规律的探测,分别是季节性(Seasonal)、周期性(Cyclical)、趋势性(Trend)。季节性是与时间有关系的变化规律,例如夏天喝冷饮、啤酒的人多,而冬天喝冷饮、啤酒的人少,这就是我们常说的季节性;周期性是与变量取值有关系的,盛极而衰,触底反弹,当取值达到某一临界值的时候,就会反弹,周而复始地变化;趋势性是随着时间呈现增长或者下降的趋势,这个趋势可能是线性的,也可能是幂级增长或者指数增长的,或者更加复杂的趋势。加上受随机因素影响的不规则变化(Irregular),我们可以构建一个TSCI的数学模型,根据具体情况这个模型还分成“乘法模型”和“加法模型”,乘法模型认为这四种因素是相互影响的,彼此有放大作用的;而加法模型则是假设这四种因素对事物变化的影响是孤立的,效果只是简单的叠加。具体哪种情况适用,可以在分析的时候通过尝试来完成。

除常规使用的TSCI模型外,时间序列是一个非常大的数据模型分支,几十种算法在数学家们的研究下得以推广使用,我们常用的SPSS软件本身就提供了数十种时间序列的算法模型,而且随着计算机计算能力提升和SPSS版本的升级,SPSS还给出了一个功能,就是系统自动使用所有算法遍历计算一遍,然后根据预测的效果,向我们推荐几个时间序列预测算法模型。SPSS的这种遍历择优的方式大大减轻了数据分析师的脑力负担。

1.6 逻辑关系预测法

逻辑关系预测法从预测的角度来看是最简单的方法,但从算法探索的角度来看则是最难的方法。两个事物为什么会相关,其背后的逻辑是什么,一直困扰着数据分析师们。

沃尔玛说,在美国买纸尿裤的一般都是老爸,他们喜欢喝啤酒,在给孩子买纸尿裤的时候会顺便买一些啤酒,所以纸尿裤会和啤酒的销售量有较大的相关性。但是这个相关性是否站得住脚,是否有足够的逻辑解释,还是需要数据的支持,没有数据的完美论证,数据分析师都应持有怀疑的态度。经过多方查证,这只是书中的一个案例,并非实际发生的。

在逻辑关系方面,我们可以用各种模型来解读数据,需要不断尝试才能找到一个最佳的逻辑关系。有些逻辑关系只在某些特殊的情境下才成立,而在其他的情景下就不会成立了。我们在分析啤酒和尿布的关系时发现,卖出10片尿布就会卖出3听啤酒,这种关系可能只存在美国的某个城市中。因为在这个城市中儿童的出生率是一定的,喝啤酒的爸爸的比率也是一定的,而爸爸喝酒的量也有一个相对稳定的值,所以才会得出10:3的比例,这个比例在其他城市中可能就会不同了。所以,任何一个逻辑关系被发现后都要根据“此情此景此数”去思考,即为什么会有这个现象,这个现象是不是能够复制到其他的情境下,数据分析必须有足够的敏感性。

我们最常用的逻辑关系是线性回归关系,即构筑像Y=aX+b这样的关系。但在商业经济环境中,这个公式在某个阶段成立,当到达另外一个阶段时,同样是线性关系,但ab的值都会发生变化,这与情景有关系。

就如广告和销售额之间的关系,当广告打得过多时反而会引起消费者的反感,从而影响产品的销售。如果不注意调整广告的频率,那么我们在花费更多的钱后,广告效果反而呈现下降的趋势。

例如,我们在研究投入和产出关系的时候,发现前期投入与产出呈现正相关关系,是一个线性回归的关系,当投入增加时,产出效益递减,边际效应显现,到了后期,前期投入与产出呈现逻辑回归的S曲线模型。不同时期适用不同的模型,我们需要通过深度研究找到事物发展的规律,然后再在不同的历史时期选择不同的数学模型来分析,并在过程中不断验证,确保数学模型能够满足管理需要。如果发现不匹配,则需要马上更新数学模型。

逻辑关系的数学模型不是一成不变的,它会随着时间、市场状况的变化而变化。在广告投放效益模型开发的过程中,我们发现了上述的规律。其中第一阶段,因为几乎所有的消费者都没有听说过这个品牌,多一个传播接触点,就会多一个购买可能性,在购买可能性一致的情况下,我们发现这个品牌产品的销售额随着广告的增多在不断增长,呈线性关系。

但是当更多的人知道这个产品之后,一部分的广告因为传播给了那些已经知道并尝试过产品的消费者而被浪费了,那些多次听过广告的人并没有试图购买更多的产品,所以呈现边际效应线性递减。

到了后期,广告仍然在投放,有的消费者觉得受到了骚扰,开始对广告产生了抵触情绪,投放的广告越多,消费者受到的影响越大,所以呈现出一种广告投放越多销量越低的现象。这个时候厂家应该及时停止投放广告,选择沉寂一段时间。

每个逻辑规律都有其成立的条件。在广告投放初期构建的模型,不见得适合中期和后期;在品牌知名度非常低的时候,广告与销售额的关系会被弱化,边际效应显现;与当公司品牌已经非常强大时,广告本应该承担一个提醒功能,这个时候如果还是采用说服式广告就非常不妥了,消费者会觉得这是“忽悠”,其自我保护机制显现,导致销量不再增加,反而出现负增长。

全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著

该文转载已取得作者认可

 

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】

点击这里免费申请试用>>

 

关闭菜单