导读:大数据是近年来非常热门的一个概念。因其热门,所以吸引了很多保险业人士的关注,普遍认为大数据将给保险业带来新的技术手段,有利于更精准地挖掘客户需求、产品定价和营销、风险防范以及业务决策。但笔者认为,大数据很有可能给保险业在风险管理领域带来前所未有的挑战,保险业一定要预作准备。
大数据分析的是数据,但数据不等于事实
大数据分析数据间的相关关系重于因果关系,而对事实的分析研究必须建立在因果关系基础上。
大数据应用的一个典型例子就是谷歌利用人们在网上的搜索记录来预测流感爆发的趋势。根据维克托·迈尔-舍恩伯格在《大数据时代》这本书中所写,谷歌在2008年统计人们搜索流感关键字的频率,将其与2003年以来的搜索结果均值做对比,准确预测了2009年流感的爆发,准确率高达97%。但这本书没有讲2010年和2011年的预测准确率。实际上,这两年的准确率都大幅走低,其中2010年的预测结果显著低于实际结果,2011年的则显著高于实际结果。
根据2014年3月美国《科学》杂志一篇文章的研究结论,谷歌预测失灵的原因就在于只注重研究数据间的相关性,而忽视了数据间的因果关系。流感关键字的搜索频率同流感爆发之间可能有相关关系,但未必是因果关系。比如某部同流感有关的电影正在热映,某个已故名人是因流感去世的,恰逢他的忌年或生年,这些都可能增加对流感关键字的搜索,但同流感爆发没有因果关系。此外,“预期的自我实现”也是一个原因。“预期的自我实现”在股票市场上体现得最典型。人们预期某支股票股价会上涨,于是纷纷买入,股价随之上涨,人们发现股价真的上涨了,更加坚定信心,大量买入,股价上涨得更为猛烈,预期就这样自我实现了,而股价上涨的信息源头可能只是一则小道消息,与价值重估或业绩好转根本无关。在流感预测上也类似,开始时预测流感有爆发迹象,各种媒体大量转载,人们也纷纷转发各种预防常识,结果流感关键字搜索频率大幅上升,于是预测值也大幅上升,意味着流感可能即将大爆发,最后才发现不过是一场小型流感;如果开始时预测流感不太可能爆发,各方面放松了对流感的警惕,疫苗准备不足,人们也疏于防范,结果一场小型流感反倒大流行起来,因为临时生产疫苗已经来不及了。
实际上,只关注数据间的相关关系,而忽视因果关系,在统计学上被称为“数据挖掘误区”,是早已被批驳过的错误做法。
大数据可能在人们无意识时有效,当人们有意识地使用大数据时,大数据的预测就不准了,这可称为大数据的“测不准原理”。
“测不准原理”是物理学中的一个概念,指测量粒子位置,必然会影响粒子的速度;而测量粒子速度,又必然影响粒子的位置。
这个道理同样适用于大数据结果的运用。比如根据交通流量预测,某条高速公路可能即将发生拥堵,司机知道这个情况后,选择走另外一条路,但当很多司机做出这一选择时,堵车的道路可能恰恰是原本预测不堵车的路,原本预测发生拥堵的高速路反倒没有拥堵。这一问题固然可以通过提高交通流量预测频率的办法解决,但对于那些被堵在路上的司机而言,已经是于事无补了。
再举个例子。根据健康大数据预测某人患某病的概率很高时,可能会对该人收取很高的保险费乃至拒保,但该人知道这一情况后,加强运动、注意饮食、愉悦心情,结果在很大程度上延缓了病症发作,大数据的预测失真了。
当大数据分析成为一门技术时,人们可以很容易地算出风险发生概率,那时只有高风险的人才会买保险。
随着健康管理技术的不断进步,未来人们可以很容易地利用随身设备监测各项身体数据,并整理成可分析的大数据。利用这些数据可以算出自身患病的概率,将患病概率同对应的纯风险损失率作对比,如果低于纯风险损失率,就选择风险自留,不投保;如果高于,就选择投保,把风险转移给保险公司。但当大部分投保人的出险概率都超过计算保费时的纯风险损失率时,保险公司必然是亏损的。
上面讲的不是天方夜谭。目前健康监测技术已经发展到可嵌入人体牙床、血管、内脏的可嵌入设备,乃至根本不用嵌入任何设备的超声波诊断技术。至于如何计算患病概率,不排除以后出现分病种的患病概率计算器,就像现在网上的等额本息还款计算器、提前还款计算器一样,客户只需按要求输入数据,概率自动求出。甚至健康管理设备可以直接算出患病概率,显示给客户。
20年前,胶片相机流行的年代,修理照片还是一门技术活,要由专业人员操作才行。而现在呢,手机拍照,美图秀秀、魔漫相机等各种修图软件争先恐后降低技术门槛,力争让人上手就会。修饰照片已经成为一项普遍技能。20年后,人人都可能成为自身健康的精算师,小病走社保,常见大病先自测,高风险的投保,低风险的自留,残留风险走大病补充,特殊疾病以社交关系为纽带走互助,而保险公司承保的大部分是高风险业务,亏损将成为必然。这一场景不是没有可能。
在其他风险管理领域也可能出现类似情况。2012年8月30日的《纽约时报》报道了一家创新公司,叫气候公司。据当时报道,这家公司计划购买亚马逊提供的气象云服务,在美国全境采集100万个地点的实时气象数据,为客户提供临时、短期和中期的气象预报服务,并可结合客户所在地的土壤、水质等情况,为客户提供气候风险报告。客户根据报告,可以选择是否在保险公司投保农业气候保险。可以想见,只有当客户的气候风险大于计算保费时的纯风险损失率时,客户才会购买气候保险。这一模式如果推广开,美国的农业保险公司恐怕只能承保病虫害和龙卷风、雹灾等突发性气象灾害保险了,洪涝、旱灾等常规性农险责任,要么客户不投保,要么投保的就都是高风险业务。
无独有偶,2014年5月27日,中国气象局公共气象服务中心与阿里云达成合作,海量气象数据将通过阿里云计算平台,变成可实时分析应用的“活数据”。计划深度挖掘利用的数据包括:建国以来的历史气象数据;全国2万多个观测站、卫星、雷达监测的气象观测数据,包括降水、温度、风力风向、地面结冰、太阳辐射、酸雨、空气能见度等30余项;短期、中期、长期的气象预报数据;通过国际交换获取的全球气象观测、预报数据。阿里云计划将气象数据嵌入阿里来往、支付宝、高德地图等产品,多渠道传播气象等灾害预警信息,同时为服装、饮料、空调、旅游等领域客户提供季节性生产、经营建议等,计划涵盖饮料销量、羽绒服销量、空气净化器销量、洗车、太阳能发电、居民用电量、农产品生产、灾害、航班延误、工程工期预测等。