正文

《大數(shù)據(jù)時(shí)代》小數(shù)據(jù)時(shí)代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息(3)

大數(shù)據(jù)時(shí)代 作者:(英)維克托·邁爾-舍恩伯格


認(rèn)為樣本選擇的隨機(jī)性比樣本數(shù)量更重要,這種觀點(diǎn)是非常有見地的。這種觀點(diǎn)為我們開辟了一條收集信息的新道路。通過收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精準(zhǔn)度的推斷。因此,政府每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只能每十年進(jìn)行一次。事實(shí)上,政府也這樣做了。例如,除了十年一次的人口大普查,美國(guó)人口普查局每年都會(huì)用隨機(jī)采樣的方法對(duì)經(jīng)濟(jì)和人口進(jìn)行 200多次小規(guī)模的調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時(shí),隨機(jī)采樣就成為應(yīng)對(duì)信息過量的辦法。

很快,隨機(jī)采樣就不僅應(yīng)用于公共部門和人口普查了。在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問題變成了社會(huì)科學(xué)問題。

隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)。

最近,以固定電話用戶為基礎(chǔ)進(jìn)行投票民調(diào)就面臨了這樣的問題,采樣缺乏隨機(jī)性,因?yàn)闆]有考慮到只使用移動(dòng)電話的用戶——這些用戶一般更年輕和更熱愛自由。沒有考慮到這些用戶,自然就得不到正確的預(yù)測(cè)。 2008年在奧巴馬與麥凱恩之間進(jìn)行的美國(guó)總統(tǒng)大選中,蓋洛普咨詢公司、皮尤研究中心(Pew)、美國(guó)廣播公司和華盛頓郵報(bào)這些主要的民調(diào)組織都發(fā)現(xiàn),如果他們不把移動(dòng)用戶考慮進(jìn)來,民意測(cè)試結(jié)果就會(huì)出現(xiàn)三個(gè)點(diǎn)的偏差,而一旦考慮進(jìn)來,偏差就只有一個(gè)點(diǎn)。鑒于這次大選的票數(shù)差距極其微弱,這已經(jīng)是非常大的偏差了。

更糟糕的是,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。這很容易理解。倘若你有一份隨機(jī)采樣的調(diào)查結(jié)果,是關(guān)于 1 000個(gè)人在下一次競(jìng)選中的投票意向。如果采樣時(shí)足夠隨機(jī),這份調(diào)查的結(jié)果就有可能在 3%的誤差范圍內(nèi)顯示全民的意向。但是如果這個(gè) 3%左右的誤差本來就是不確定的,卻又把這個(gè)調(diào)查結(jié)果根據(jù)性別、地域和收入進(jìn)行細(xì)分,結(jié)果是不是越來越不準(zhǔn)確呢?用這些細(xì)分過后的結(jié)果來表現(xiàn)全民的意愿,是否合適呢?

你設(shè)想一下,一個(gè)對(duì) 1 000個(gè)人進(jìn)行的調(diào)查,如果要細(xì)分到“東北部的富裕女性”,調(diào)查的人數(shù)就遠(yuǎn)遠(yuǎn)少于 1 000人了。即使是完全隨機(jī)的調(diào)查,倘若只用了幾十個(gè)人來預(yù)測(cè)整個(gè)東北部富裕女性選民的意愿,還是不可能得到精確結(jié)果?。《?,一旦采樣過程中存在任何偏見,在細(xì)分領(lǐng)域所做的預(yù)測(cè)就會(huì)大錯(cuò)特錯(cuò)。

 


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)