如果電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的致病原因就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時代,我們不必知道現(xiàn)象背后的原因,我們只要讓數(shù)據(jù)自己發(fā)聲。
我們不再需要在還沒有收集數(shù)據(jù)之前,就把我們的分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會注意到很多以前從來沒有意識到的聯(lián)系的存在。
例如,對沖基金通過剖析社交網(wǎng)絡(luò) twitter上的數(shù)據(jù)信息來預(yù)測股市的表現(xiàn);亞馬遜和奈飛(Netflix)根據(jù)用戶在其網(wǎng)站上的類似查詢來進行產(chǎn)品推薦; twitter,facebook和 LinkedIn通過用戶的社交網(wǎng)絡(luò)圖來得知用戶的喜好。
當(dāng)然,人類從數(shù)千年前就開始分析數(shù)據(jù)。古代美索不達米亞平原的記賬人員為了有效地跟蹤記錄信息發(fā)明了書寫。自從圣經(jīng)時代開始,政府就通過進行人口普查來建立大型的國民數(shù)據(jù)庫。兩百多年來,精算師們也一直通過搜集大量的數(shù)據(jù)來進行風(fēng)險規(guī)避。
模擬時代的數(shù)據(jù)收集和分析極其耗時耗力,新問題的出現(xiàn)通常要求我們重新收集和分析數(shù)據(jù)。數(shù)字化的到來使得數(shù)據(jù)管理效率又向前邁出了重要的一步。數(shù)字化將模擬數(shù)據(jù)轉(zhuǎn)換成計算機可以讀取的數(shù)字數(shù)據(jù),使得存儲和處理這些數(shù)據(jù)變得既便宜又容易,從而大大提高了數(shù)據(jù)管理效率。過去需要幾年時間才能完成的數(shù)據(jù)搜集,現(xiàn)在只要幾天就能完成。但是,光有改變還遠遠不夠。數(shù)據(jù)分析者太沉浸于模擬數(shù)據(jù)時代的設(shè)想,即數(shù)據(jù)庫只有單一的用途和價值,而正是我們使用的技術(shù)和方法加深了這種偏見。雖然數(shù)字化是促成向大數(shù)據(jù)轉(zhuǎn)變的重要原因,但僅有計算機的存在卻不足以實現(xiàn)大數(shù)據(jù)。
我們沒有辦法準確描述現(xiàn)在正在發(fā)生的一切,但是在第 4章即將提到的“數(shù)據(jù)化”概念可以幫助我們大致了解這次變革。數(shù)據(jù)化意味著我們把一切都透明化,甚至包括很多我們以前認為和“信息”根本搭不上邊的事情。比方說,一個人所在的位置、引擎的振動、橋梁的承重等。我們要通過量化的方法把這些內(nèi)容轉(zhuǎn)化為數(shù)據(jù)。這就使得我們可以嘗試許多以前無法做到的事情,如根據(jù)引擎的散熱和振動來預(yù)測引擎是否會出現(xiàn)故障。這樣,我們就激發(fā)出了這些數(shù)據(jù)此前未被挖掘的潛在價值。
大數(shù)據(jù)時代開啟了一場尋寶游戲,而人們對于數(shù)據(jù)的看法以及對于由因果關(guān)系向相關(guān)關(guān)系轉(zhuǎn)化時釋放出的潛在價值的態(tài)度,正是主宰這場游戲的關(guān)鍵。新興技術(shù)工具的使用使這一切成為可能。寶貝不止一件,每個數(shù)據(jù)集內(nèi)部都隱藏著某些未被發(fā)掘的價值。這場發(fā)掘和利用數(shù)據(jù)價值的競賽正開始在全球上演。