談到“大數據”,最令人不可思議的事情就是有那么多人都傻呵呵的樂觀。是的,“大數據”這個詞火了一年多,“數據中藏著財富”的觀念也開始被人接受,但是實際情況是,大部分企業、組織和個人,不要說大數據,連自己手上那點小數據都只是剛剛能勉強應付。應付而已,對于其中埋藏的知識和價值不要說發掘,恐怕都沒有意識到。在這樣的情況下,如果以幾何級數增長的數據海嘯排山倒海而來,而且其中混雜著大量的模糊數據、非確定性數據和非結構化數據,一個頭腦清醒的人首先應該感到的是敬畏,而不是樂觀。
所以IBM從來都是把“大數據”跟“分析”放在一起講的?!按髷祿奔由稀胺治觥?,才有可能得到價值,才有意義。沒有“分析”的“大數據”,就是一場淹沒一切的數據海嘯,是災難?!胺治觥辈攀顷P鍵能力,才是點石成金棒,才是降魔杵。
不過人們只談“大數據”而不談“分析”也是有道理的。“大數據”這個詞在傳播上有優勢??!什么詞最容易流行?既是新詞,又望文知義,既朗朗上口,又能裝深刻的詞。“大數據”和“物聯網”這兩個詞就有這些特點,所以輕而易舉地流行起來。而“分析”則是一個平淡無奇的詞,不具備可流行性。我曾經在一個專業的大數據研討會里聽到一位業內極有影響力的前輩人物說,“大數據分析”中的“分析”不是什么新鮮玩意,想當初他的隊伍剛開張,坐在部委下屬的信息情報所里整天干的就是這個玩意。
這是一個悲劇。因為“分析”不僅是整個游戲的關鍵,而且它的本意也比字面意義要深刻和有趣的多。它所對應的英文原文是 analytics,而不是 analysis。用于數據分析的時候,這兩個詞的意思存在細微而意義重大的差別。Analysis是統計、過濾和抽取,基于現有的知識,在數據中找到關鍵的、有價值的信息。而analytics更進一步,是通過數據的比對和相關性發現,發現新的知識。拿一個老掉牙的例子來說,超市通過analysis 可以知道哪個品牌的啤酒更受本地顧客的歡迎,平均每個周三會銷售多少棵大白菜,但是只有通過 analytics 才能知道把啤酒和尿布放在一起能夠增加銷量。假如第一個翻譯 analytics 的人能夠更謹慎一點,換一個譯法,或許會更有利于大數據的應用真正落地,也不會讓那位前輩自以為自己當年做的 analysis 就是今天所說的 analytics。
理解大數據分析不是一件容易的事情。我們能從各種大數據書籍文章里得到的各種大數據故事,大多數都是把大數據問題和最終的效果介紹的濃墨重彩,卻對于分析這個環節語焉不詳。經典句型是這樣的:某牛人有了一個好點子,面向某領域的某某問題,收集了多少多少數據,然后那么一分析啊,就得出了驚世駭俗的結論,然后就發達了。至于怎么分析的,分析的原則、方法和過程,一概略過不談。這當然也是可以理解的,因為真正的數據分析涉及到許多領域知識、數學原理和算法,非專業人士弄不懂,也沒有必要知道那么多。但是這種忽略的一個結果,就是使人們輕視這個分析的過程,以為一個好點子加上一堆大數據就能輕而易舉地得出一個值錢的結論。這是大錯特錯的想法。我想正是這種想法,使得人們對于大數據過度樂觀,而失去了應有的敬畏。
好吧,如果你現在已經相信“分析”是一件很重要的事情,那么我們可以談談網球了,因為也許網球是幫你理解大數據分析的最好范例。你可以很簡單地打開溫布爾登、美網、澳網、法網的官網,然后尋找其中 IBM SlamTracker 鏈接,點擊這個鏈接,你將在20分鐘內理解大數據分析。
跟其他的體育項目一樣,網球也涉及大量的數據。一發成功率、一發得分率和Ace球是標志球員競技水平的關鍵指標,發球速度、接發球成功率、上網成功率、得分點則突出體現了球員的打法特點,如果非受迫性失誤和雙發失誤率上升,那表明球員的心理狀態或者體力開始下滑。這就是網球中的數據,眾所周知,沒啥了不起的。
IBM贊助網球賽事并提供技術支持始于1993年,從2005年以來,IBM通過 SlamTracker 追蹤了四大滿貫賽事八年來的全部 8,128 場比賽,共收集 4,100 萬個數據點。
好,如果在這個層次上,你只是去統計和 analysis,那么也能得到很多有用的結論,比如Ace球數量對比賽結果影響很大,首先被破發的選手失敗的可能性比較大,等等。不過,這些大家可能已經知道了。你或許還可以有一些有趣的發現,比如一發速度快的選手上網成功率也比較高,比如納達爾的得分點幾年來從底線逐漸逼近網前,等等。但是這些發現或者是平淡無奇的,或者不是那么重要。在網球這個已經被無數人反復琢磨的領域,想通過數據看出一些新道道,不是一件容易的事情。

圖1. 2013年溫網決賽的 Keys to the Match 界面
這就是大數據分析(analytics)顯身手的時刻了。在 IBM 的 SlamTracker 中大數據分析的精華,就體現在 Keys to the Match 里。它的最后呈現非常簡單,只是在每場比賽中為對陣雙方的選手找到三個獲勝的關鍵指標。比如說,當溫網男單決賽中德約科維奇對陣穆雷的時候,小德的三個獲勝關鍵指標分別是第4拍到第9拍獲勝率、Ace球數量、回球成功率,而穆雷的三個獲勝關鍵指標分別是回球得分率、二發成功率和發球成功率。Keys to the Match 不但找到了這三個關鍵的指標,而且找到了量化的及格線。比如說在今年法網女單決賽里,Keys to the Match 告訴小威廉姆斯,要戰勝莎拉波娃,接對方一發的回球得分率要爭取超過36%,而反過來,莎拉波娃要打敗小威廉姆斯,接對方一發的回球得分率要爭取超過28%。如果在這三項指標里A選手比B選手完成的更好,那么A獲勝的可能性就大大高于B。
這里神奇的地方在于,這三項關鍵指標并不都是司空見慣的普通指標。例如,第4拍到第9拍的勝率,接對方一發的回球得分率,這些都不是隨便能在電視直播的屏幕上找到的指標。而誰又能想到,這些不起眼的指標才是衡量戰局、決定成敗的關鍵點呢?不要說是普通球迷,就是最資深的網球專家,如果僅靠平時的觀察和手工的分析,也很難找到這些關鍵指標,并且把它按重要次序排好。至于為每一個指標設定一個及格線,那更是不可思議的事情。
是的,這就是大數據分析能夠辦到的事情,也是只有大數據分析才能夠辦到的事情。8128場比賽,4100萬個數據點,動用5500個分析模型,在45個潛在動態指標里選擇、對比、分析、判斷、猜測、排除、定位、評估、定量、組合,只有在這樣基礎之上,Keys to the Match才能夠為對陣的雙方挑選出最重要的三個指標,并且確定及格線。
這才叫大數據分析,用分析從大量的數據中尋找相關性模式,發現以前不為人知的、超越于平凡知識之上的、至關重要的新知識。這樣的新知識,是隱藏在表象之下的獲勝關鍵,是決定競爭結局的密碼,是價值,是財富,是自我實現之路。這才是為什么那么多商業界的有識之士狂熱的追捧大數據的原因所在。

圖2. Keys to the Match 的幕后故事
IBM中國公司對外關系部
孟巖