谈到“大数据”,最令人不可思议的事情就是有那么多人都傻呵呵的乐观。是的,“大数据”这个词火了一年多,“数据中藏着财富”的观念也开始被人接受,但是实际情况是,大部分企业、组织和个人,不要说大数据,连自己手上那点小数据都只是刚刚能勉强应付。应付而已,对于其中埋藏的知识和价值不要说发掘,恐怕都没有意识到。在这样的情况下,如果以几何级数增长的数据海啸排山倒海而来,而且其中混杂着大量的模糊数据、非确定性数据和非结构化数据,一个头脑清醒的人首先应该感到的是敬畏,而不是乐观。
所以IBM从来都是把“大数据”跟“分析”放在一起讲的。“大数据”加上“分析”,才有可能得到价值,才有意义。没有“分析”的“大数据”,就是一场淹没一切的数据海啸,是灾难。“分析”才是关键能力,才是点石成金棒,才是降魔杵。
不过人们只谈“大数据”而不谈“分析”也是有道理的。“大数据”这个词在传播上有优势啊!什么词最容易流行?既是新词,又望文知义,既朗朗上口,又能装深刻的词。“大数据”和“物联网”这两个词就有这些特点,所以轻而易举地流行起来。而“分析”则是一个平淡无奇的词,不具备可流行性。我曾经在一个专业的大数据研讨会里听到一位业内极有影响力的前辈人物说,“大数据分析”中的“分析”不是什么新鲜玩意,想当初他的队伍刚开张,坐在部委下属的信息情报所里整天干的就是这个玩意。
这是一个悲剧。因为“分析”不仅是整个游戏的关键,而且它的本意也比字面意义要深刻和有趣的多。它所对应的英文原文是 analytics,而不是 analysis。用于数据分析的时候,这两个词的意思存在细微而意义重大的差别。Analysis是统计、过滤和抽取,基于现有的知识,在数据中找到关键的、有价值的信息。而analytics更进一步,是通过数据的比对和相关性发现,发现新的知识。拿一个老掉牙的例子来说,超市通过analysis 可以知道哪个品牌的啤酒更受本地顾客的欢迎,平均每个周三会销售多少棵大白菜,但是只有通过 analytics 才能知道把啤酒和尿布放在一起能够增加销量。假如第一个翻译 analytics 的人能够更谨慎一点,换一个译法,或许会更有利于大数据的应用真正落地,也不会让那位前辈自以为自己当年做的 analysis 就是今天所说的 analytics。
理解大数据分析不是一件容易的事情。我们能从各种大数据书籍文章里得到的各种大数据故事,大多数都是把大数据问题和最终的效果介绍的浓墨重彩,却对于分析这个环节语焉不详。经典句型是这样的:某牛人有了一个好点子,面向某领域的某某问题,收集了多少多少数据,然后那么一分析啊,就得出了惊世骇俗的结论,然后就发达了。至于怎么分析的,分析的原则、方法和过程,一概略过不谈。这当然也是可以理解的,因为真正的数据分析涉及到许多领域知识、数学原理和算法,非专业人士弄不懂,也没有必要知道那么多。但是这种忽略的一个结果,就是使人们轻视这个分析的过程,以为一个好点子加上一堆大数据就能轻而易举地得出一个值钱的结论。这是大错特错的想法。我想正是这种想法,使得人们对于大数据过度乐观,而失去了应有的敬畏。
好吧,如果你现在已经相信“分析”是一件很重要的事情,那么我们可以谈谈网球了,因为也许网球是帮你理解大数据分析的最好范例。你可以很简单地打开温布尔登、美网、澳网、法网的官网,然后寻找其中 IBM SlamTracker 链接,点击这个链接,你将在20分钟内理解大数据分析。
跟其他的体育项目一样,网球也涉及大量的数据。一发成功率、一发得分率和Ace球是标志球员竞技水平的关键指标,发球速度、接发球成功率、上网成功率、得分点则突出体现了球员的打法特点,如果非受迫性失误和双发失误率上升,那表明球员的心理状态或者体力开始下滑。这就是网球中的数据,众所周知,没啥了不起的。
IBM赞助网球赛事并提供技术支持始于1993年,从2005年以来,IBM通过 SlamTracker 追踪了四大满贯赛事八年来的全部 8,128 场比赛,共收集 4,100 万个数据点。
好,如果在这个层次上,你只是去统计和 analysis,那么也能得到很多有用的结论,比如Ace球数量对比赛结果影响很大,首先被破发的选手失败的可能性比较大,等等。不过,这些大家可能已经知道了。你或许还可以有一些有趣的发现,比如一发速度快的选手上网成功率也比较高,比如纳达尔的得分点几年来从底线逐渐逼近网前,等等。但是这些发现或者是平淡无奇的,或者不是那么重要。在网球这个已经被无数人反复琢磨的领域,想通过数据看出一些新道道,不是一件容易的事情。
图1. 2013年温网决赛的 Keys to the Match 界面
这就是大数据分析(analytics)显身手的时刻了。在 IBM 的 SlamTracker 中大数据分析的精华,就体现在 Keys to the Match 里。它的最后呈现非常简单,只是在每场比赛中为对阵双方的选手找到三个获胜的关键指标。比如说,当温网男单决赛中德约科维奇对阵穆雷的时候,小德的三个获胜关键指标分别是第4拍到第9拍获胜率、Ace球数量、回球成功率,而穆雷的三个获胜关键指标分别是回球得分率、二发成功率和发球成功率。Keys to the Match 不但找到了这三个关键的指标,而且找到了量化的及格线。比如说在今年法网女单决赛里,Keys to the Match 告诉小威廉姆斯,要战胜莎拉波娃,接对方一发的回球得分率要争取超过36%,而反过来,莎拉波娃要打败小威廉姆斯,接对方一发的回球得分率要争取超过28%。如果在这三项指标里A选手比B选手完成的更好,那么A获胜的可能性就大大高于B。
这里神奇的地方在于,这三项关键指标并不都是司空见惯的普通指标。例如,第4拍到第9拍的胜率,接对方一发的回球得分率,这些都不是随便能在电视直播的屏幕上找到的指标。而谁又能想到,这些不起眼的指标才是衡量战局、决定成败的关键点呢?不要说是普通球迷,就是最资深的网球专家,如果仅靠平时的观察和手工的分析,也很难找到这些关键指标,并且把它按重要次序排好。至于为每一个指标设定一个及格线,那更是不可思议的事情。
是的,这就是大数据分析能够办到的事情,也是只有大数据分析才能够办到的事情。8128场比赛,4100万个数据点,动用5500个分析模型,在45个潜在动态指标里选择、对比、分析、判断、猜测、排除、定位、评估、定量、组合,只有在这样基础之上,Keys to the Match才能够为对阵的双方挑选出最重要的三个指标,并且确定及格线。
这才叫大数据分析,用分析从大量的数据中寻找相关性模式,发现以前不为人知的、超越于平凡知识之上的、至关重要的新知识。这样的新知识,是隐藏在表象之下的获胜关键,是决定竞争结局的密码,是价值,是财富,是自我实现之路。这才是为什么那么多商业界的有识之士狂热的追捧大数据的原因所在。
图2. Keys to the Match 的幕后故事
IBM中国公司对外关系部
孟岩