正文

《大數(shù)據(jù)時代》全數(shù)據(jù)模式,樣本=總體(4)

大數(shù)據(jù)時代 作者:(英)維克托·邁爾-舍恩伯格


同理,因為大數(shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。是大數(shù)據(jù)讓我們發(fā)現(xiàn)了相撲中的非法操縱比賽結(jié)果、流感的傳播區(qū)域和對抗癌癥需要針對的那部分 DNA。它讓我們能清楚分析微觀層面的情況。

當(dāng)然,有些時候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€資源有限的時代。但是更多時候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。

社會科學(xué)是被“樣本 =總體”撼動得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,社會科學(xué)不再單純依賴于分析經(jīng)驗數(shù)據(jù)。這門學(xué)科過去曾非常依賴樣本分析、研究和調(diào)查問卷。當(dāng)記錄下來的是人們的平常狀態(tài),也就不用擔(dān)心在做研究和調(diào)查問卷時存在的偏見 ①了?,F(xiàn)在,我們可以收集過去無法收集到的信息,不管是通過移動電話表現(xiàn)出的關(guān)系,還是通過 twitter信息表現(xiàn)出的感情。更重要的是,我們現(xiàn)在也不再依賴抽樣調(diào)查了。

艾伯特 -拉斯洛·巴拉巴西( Albert-László Barabási),和他的同事想研究人與人之間的互動。于是他們調(diào)查了四個月內(nèi)所有的移動通信記錄——當(dāng)然是匿名的,這些記錄是一個為全美五分之一人口提供服務(wù)的無線運營商提供的。這是第一次在全社會層面用接近于“樣本 =總體”的數(shù)據(jù)資料進(jìn)行網(wǎng)絡(luò)分析。通過觀察數(shù)百萬人的所有通信記錄,我們可以產(chǎn)生也許通過任何其他方式都無法產(chǎn)生的新觀點。

有趣的是,與小規(guī)模的研究相比,這個團(tuán)隊發(fā)現(xiàn),如果把一個在社區(qū)內(nèi)有很多連接關(guān)系的人從社區(qū)關(guān)系網(wǎng)中剔除開來,這個關(guān)系網(wǎng)會變得沒那么高效但卻不會解體;但如果把一個與所在社區(qū)之外的很多人有著連接關(guān)系的人從這個關(guān)系網(wǎng)中剔除,整個關(guān)系網(wǎng)很快就會破碎成很多小塊。 ③這個研究結(jié)果非常重要也非常的出人意料。誰能想象一個在關(guān)系網(wǎng)內(nèi)有著眾多好友的人的重要性還不如一個只是與很多關(guān)系網(wǎng)外的人聯(lián)系的人呢?這說明一般來說無論是一個集體還是一個社會,多樣性是有額外價值的。這個結(jié)果促使我們重新審視一個人在社會關(guān)系網(wǎng)中的存在價值。

大數(shù)據(jù)洞察

我們總是習(xí)慣把統(tǒng)計抽樣看做文明得以建立的牢固基石,就如同幾何學(xué)定理和萬有引力定律一樣。但是統(tǒng)計抽樣其實只是為了在技術(shù)受限的特定時期,解決當(dāng)時存在的一些特定問題而產(chǎn)生的,其歷史尚不足一百年。如今,技術(shù)環(huán)境已經(jīng)有了很大的改善。在大數(shù)據(jù)時代進(jìn)行抽樣分析就像是在汽車時代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。慢慢地,我們會完全拋棄樣本分析。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號