增加1萬個(gè)樣本也只能改變0.1%的標(biāo)準(zhǔn)誤差
那么,對于那些不喜歡看數(shù)學(xué)公式的人,讓我們換一種說法解釋標(biāo)準(zhǔn)誤差的變化程度。
比如說,從10萬名顧客的數(shù)據(jù)中對男女性別比率進(jìn)行調(diào)查的結(jié)果,假設(shè)顧客中女性的比率占70%。那么關(guān)于這一結(jié)果的標(biāo)準(zhǔn)誤差,在增加抽樣調(diào)查的人數(shù)之后會發(fā)生怎樣的變化呢。結(jié)果如圖2–3所示。
當(dāng)抽樣人數(shù)只有100名的時(shí)候,標(biāo)準(zhǔn)誤差為4.6%,那么“顧客中女性比率占70%”的結(jié)果實(shí)際上在綜合考慮后就應(yīng)該是“女性比率占61%~79%”。但是當(dāng)抽樣人數(shù)增加到1 000人時(shí),標(biāo)準(zhǔn)誤差就降低到1.4%,綜合的結(jié)果為“女性比率占67%~73%”;當(dāng)抽樣人數(shù)增加至8 000人時(shí),標(biāo)準(zhǔn)誤差為0.5%,綜合的結(jié)果為“女性比率占69%~71%”。
而在此基礎(chǔ)上“繼續(xù)增加抽樣調(diào)查人數(shù)對標(biāo)準(zhǔn)誤差的影響越來越小”,當(dāng)抽樣人數(shù)為1萬人時(shí),標(biāo)準(zhǔn)誤差為0.4%,抽樣人數(shù)為2萬人時(shí),標(biāo)準(zhǔn)誤差為0.3%。
這一結(jié)果,就算與花高價(jià)投資的數(shù)據(jù)處理服務(wù)器所得到的“女性比率占70%”的準(zhǔn)確結(jié)果相比,對于判斷可以說也幾乎沒有影響。
隨機(jī)抽取8 000名顧客的數(shù)據(jù),對于數(shù)據(jù)庫管理員來說易如反掌,而將這8 000條數(shù)據(jù)記錄在Excel表格中,就連打工的學(xué)生也能輕松完成。至于數(shù)據(jù)庫管理員的加班費(fèi)和學(xué)生的報(bào)酬大概只要幾萬日元就搞定了吧。為了那僅僅不到1%的準(zhǔn)確度,有必要投資數(shù)千萬日元嗎?
雖然這種方法與現(xiàn)在大數(shù)據(jù)時(shí)代的思考方式剛好相反,但是每當(dāng)有人向我進(jìn)行數(shù)據(jù)分析的咨詢時(shí),我都會推薦他們“先找到為了進(jìn)行正確的判斷所必需的最少數(shù)據(jù)”。如果1%的誤差在今后幾年內(nèi)不斷累積,會對數(shù)千萬日元的銷售額和成本產(chǎn)生影響,那么在這種情況下大數(shù)據(jù)分析技術(shù)就會派上用場吧??墒羌幢阍谶@種情況下,也沒有必要從一開始就對全部數(shù)據(jù)進(jìn)行分析。