大數(shù)據(jù)的核心代表著我們分析信息時的三個轉(zhuǎn)變。這些轉(zhuǎn)變將改變我們理解和組建社會的方法。
第一個轉(zhuǎn)變就是,在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機采樣。這部分內(nèi)容將在第 1章闡述。19世紀以來,當面臨大量數(shù)據(jù)時,社會都依賴于采樣分析。但是采樣分析是信息缺乏時代和信息流通受限制的模擬數(shù)據(jù)時代的產(chǎn)物。以前我們通常把這看成了理所當然的限制,但高性能數(shù)字技術(shù)的流行讓我們意識到,這其實是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來了更高的精確性,也讓我們看到了一些以前無法發(fā)現(xiàn)的細節(jié)——大數(shù)據(jù)讓我們更清楚地看到了樣本無法揭示的細節(jié)信息。
第二個改變就是,研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度。這部分內(nèi)容將在第 2章闡述。當我們測量事物的能力受限時,關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。如果購買者不知道牛群里有 80頭牛還是 100頭牛,那么交易就無法進行。直到今天,我們的數(shù)字技術(shù)依然建立在精準的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,數(shù)據(jù)庫引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。
這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因為需要分析的數(shù)據(jù)很少,所以我們必須盡可能精準地量化我們的記錄。在某些方面,我們已經(jīng)意識到了差別。例如,一個小商店在晚上打烊的時候要把收銀臺里的每分錢都數(shù)清楚,但是我們不會、也不可能用“分”這個單位去精確計算國民生產(chǎn)總值。隨著規(guī)模的擴大,對精確度的癡迷將減弱。
達到精確需要有專業(yè)的數(shù)據(jù)庫。針對小數(shù)據(jù)量和特定事情,追求精確性依然是可行的,比如一個人的銀行賬戶上是否有足夠的錢開具支票。但是,在這個大數(shù)據(jù)時代,在很多時候,追求精確度已經(jīng)變得不可行,甚至不受歡迎了。當我們擁有海量即時數(shù)據(jù)時,絕對的精準不再是我們追求的主要目標。
大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個服務器上。擁有了大數(shù)據(jù),我們不再需要對一個現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。
第三個轉(zhuǎn)變因前兩個轉(zhuǎn)變而促成,即我們不再熱衷于尋找因果關(guān)系。這部分內(nèi)容將在第 3章闡述。尋找因果關(guān)系是人類長久以來的習慣。即使確定因果關(guān)系很困難而且用途不大,人類還是習慣性地尋找緣由。相反,在大數(shù)據(jù)時代,我們無須再緊盯事物之間的因果關(guān)系,而應該尋找事物之間的相關(guān)關(guān)系,這會給我們提供非常新穎且有價值的觀點。相關(guān)關(guān)系也許不能準確地告知我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。