正文

《大數(shù)據(jù)時(shí)代》小數(shù)據(jù)時(shí)代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息(1)

大數(shù)據(jù)時(shí)代 作者:(英)維克托·邁爾-舍恩伯格


直到最近,私人企業(yè)和個(gè)人才擁有了大規(guī)模收集和分類數(shù)據(jù)的能力。在過(guò)去,這是只有教會(huì)或者政府才能做到的。當(dāng)然,在很多國(guó)家,教會(huì)和政府是等同的。有記載的、最早的計(jì)數(shù)發(fā)生在公元前 8000年的,當(dāng)時(shí)蘇美爾的商人用黏土珠來(lái)記錄出售的商品。大規(guī)模的計(jì)數(shù)則是政府的事情。數(shù)千年來(lái),政府都試圖通過(guò)收集信息來(lái)管理國(guó)民。

以人口普查為例。據(jù)說(shuō)古代埃及曾進(jìn)行過(guò)人口普查,《舊約》和《新約》中對(duì)此都有所提及。那次由奧古斯都凱撒主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。 1086年的《末日審判書(shū)》(The Doomsday Book)對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載?;始椅瘑T穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,后來(lái)這本書(shū)用《圣經(jīng)》中的《末日審判書(shū)》命名,因?yàn)槊總€(gè)人的生活都被赤裸裸地記載下來(lái)的過(guò)程就像接受“最后的審判”一樣。

然而,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情。國(guó)王威廉一世(King William I)在他發(fā)起的《末日審判書(shū)》完成之前就去世了。但是,除非放棄收集信息,否則在當(dāng)時(shí)沒(méi)有其他辦法。盡管如此,當(dāng)時(shí)收集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確記錄下每個(gè)人的信息。實(shí)際上,“人口普查”這個(gè)詞來(lái)源于拉丁語(yǔ)的“ censere”,意思就是推測(cè)、估算。

三百多年前,一個(gè)名叫約翰·格朗特(John Graunt)①的英國(guó)縫紉用品商提出了一個(gè)很有新意的方法。他采用了一個(gè)新方法推算出鼠疫時(shí)期倫敦的人口數(shù),這種方法就是后來(lái)的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算。雖然這個(gè)方法比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來(lái)獲取人口的整體情況。

雖然后來(lái)證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時(shí)他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此無(wú)論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用具體計(jì)數(shù)這種“野蠻”的方法。

考慮到人口普查的復(fù)雜性以及耗時(shí)耗費(fèi)的特點(diǎn),政府極少進(jìn)行普查。古羅馬人在人口以萬(wàn)計(jì)數(shù)的時(shí)候每 5年普查一次。美國(guó)憲法規(guī)定每 10年進(jìn)行一次人口普查,因?yàn)殡S著國(guó)家人口越來(lái)越多,只能以百萬(wàn)計(jì)數(shù)了。但是到 19世紀(jì)為止,即使這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過(guò)了人口普查局統(tǒng)計(jì)分析的能力。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)