聯(lián)邦政府的每一個(gè)機(jī)構(gòu)和部門,都需要制定一個(gè)應(yīng)對(duì)“大數(shù)據(jù)”的戰(zhàn)略。
——《規(guī)劃數(shù)字化的未來(lái):美國(guó)總統(tǒng)科學(xué)技術(shù)顧問(wèn)委員會(huì)給總統(tǒng)和國(guó)會(huì)的報(bào)告》2010年
業(yè)務(wù)工作的管理數(shù)據(jù),民意社情的調(diào)查數(shù)據(jù),以及對(duì)大自然、動(dòng)植物的特點(diǎn)和變化進(jìn)行監(jiān)控而產(chǎn)生的環(huán)境數(shù)據(jù),是聯(lián)邦政府的三大數(shù)據(jù)來(lái)源。這三種數(shù)據(jù),其發(fā)展各有先后,收集方式各不相同,數(shù)據(jù)量也大小不一。它們之間,存在著一些交叉和重疊,有一些民意調(diào)查的數(shù)據(jù),是業(yè)務(wù)數(shù)據(jù),而一些因環(huán)境監(jiān)控產(chǎn)生的數(shù)據(jù),也可以是業(yè)務(wù)工作的數(shù)據(jù)。
由于無(wú)線傳感器的快速普及,環(huán)境數(shù)據(jù)增長(zhǎng)得最快,成為聯(lián)邦政府?dāng)?shù)據(jù)量最大的來(lái)源。
雖然環(huán)境數(shù)據(jù)增長(zhǎng)得最快,但這三種數(shù)據(jù),其實(shí)都在爆炸。這種爆炸,并不僅僅是數(shù)量一個(gè)維度的。2001年,著名的高德納咨詢公司(Gartner)在一份研究報(bào)告21中指出,數(shù)據(jù)的爆炸是“三維的”、是立體的,這三個(gè)維度,主要表現(xiàn)在以下三個(gè)方面:
一是同一類型的數(shù)據(jù)量在快速增大;
二是數(shù)據(jù)增長(zhǎng)的速度在加快;
三是數(shù)據(jù)的多樣性,即新的數(shù)據(jù)來(lái)源和新的數(shù)據(jù)種類在不斷增加。
數(shù)據(jù)的爆炸性增長(zhǎng),也不僅僅限于聯(lián)邦政府。如前文所述,2011年麥肯錫公司在其研究報(bào)告《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)率的前沿》中指出,在美國(guó),僅僅制造行業(yè)就擁有比美國(guó)政府還多一倍的數(shù)據(jù),此外,新聞業(yè)、銀行業(yè)、醫(yī)療業(yè)、投資業(yè)、零售業(yè)都擁有可以和美國(guó)政府相提并論的海量數(shù)據(jù)。
哈爾·范里安(Hal Varian)是谷歌的首席經(jīng)濟(jì)學(xué)家,也是美國(guó)研究信息經(jīng)濟(jì)學(xué)的著名學(xué)者。2000年,他對(duì)數(shù)據(jù)和信息產(chǎn)生的速度進(jìn)行了研究,他認(rèn)為,人類社會(huì)每年產(chǎn)生的信息量,實(shí)在太大了,已經(jīng)沒(méi)辦法用準(zhǔn)確的方法來(lái)計(jì)算現(xiàn)有的數(shù)字信息總量,只能估算。他估計(jì)2000年新產(chǎn)生的數(shù)據(jù)量為1000拍到2000拍。但到2010年,僅僅全球企業(yè)一年新存儲(chǔ)的數(shù)據(jù)量就超過(guò)了7000拍,而全球消費(fèi)者新存儲(chǔ)的數(shù)據(jù)量約為6000拍。
這種數(shù)據(jù)量的增長(zhǎng),已經(jīng)大大超出了人類的預(yù)期和想象。時(shí)至今日,數(shù)據(jù)已經(jīng)像“洪流”一樣,在全球的政治、經(jīng)濟(jì)生活當(dāng)中奔騰。而且,隨著信息技術(shù)的普及和進(jìn)步,新的支流還在不斷產(chǎn)生,各個(gè)支流流動(dòng)、交匯和整合的速度,還在繼續(xù)加快。
作為美國(guó)社會(huì)的信息樞紐,聯(lián)邦政府當(dāng)然要正面迎對(duì)這個(gè)挑戰(zhàn)。
2010年12月,總統(tǒng)行政辦公室下屬的科學(xué)技術(shù)顧問(wèn)委員會(huì)(PCAST)、信息技術(shù)顧問(wèn)委員會(huì)(PITAC)向奧巴馬和國(guó)會(huì)提交了《規(guī)劃數(shù)字化未來(lái)》的專門報(bào)告,該報(bào)告把數(shù)據(jù)收集和使用的工作,提到了戰(zhàn)略的高度。
這個(gè)報(bào)告列舉了5個(gè)貫穿各個(gè)科技領(lǐng)域的共同挑戰(zhàn),報(bào)告指出“每一個(gè)挑戰(zhàn)都至關(guān)重要”,而第一個(gè)挑戰(zhàn)就是“數(shù)據(jù)”問(wèn)題。報(bào)告說(shuō):
“如何收集、保存、維護(hù)、管理、分析、共享正在呈指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)是我們必須面對(duì)的一個(gè)重要挑戰(zhàn)。從網(wǎng)絡(luò)攝像頭、博客、天文望遠(yuǎn)鏡到超級(jí)計(jì)算機(jī)的仿真,來(lái)自于不同渠道的數(shù)據(jù)以不同的形式如潮水一般向我們涌來(lái)。這些數(shù)據(jù)以不同的格式存儲(chǔ)在不同的環(huán)境中,有的在計(jì)算機(jī)的硬盤里,有的在數(shù)據(jù)倉(cāng)庫(kù)之內(nèi)。
如何保證這些數(shù)據(jù)現(xiàn)在、將來(lái)的完整性和可用性,我們面臨著很多的問(wèn)題和挑戰(zhàn)。如何使用這些數(shù)據(jù),則是另外一個(gè)挑戰(zhàn)……應(yīng)對(duì)好這些挑戰(zhàn),將引導(dǎo)我們?cè)诳蒲?、醫(yī)療、商業(yè)和國(guó)家安全方面開(kāi)創(chuàng)新的成功?!?/p>
在報(bào)告中,兩個(gè)委員會(huì)還例舉了美國(guó)癌癥研究所以及中央情報(bào)局如何通過(guò)收集海量數(shù)據(jù)、建立數(shù)據(jù)倉(cāng)庫(kù)、實(shí)施以數(shù)據(jù)挖掘?yàn)楹诵牡淖詣?dòng)分析技術(shù),獲得了出人意料的創(chuàng)新和成功。
委員會(huì)一致認(rèn)為,如何有效地利用數(shù)據(jù)將貫穿所有科技領(lǐng)域的挑戰(zhàn)。最后,兩個(gè)委員會(huì)向奧巴馬建議:聯(lián)邦政府的每一個(gè)機(jī)構(gòu)和部門,都需要制定一個(gè)“大數(shù)據(jù)”的戰(zhàn)略。
其實(shí),“大數(shù)據(jù)”這個(gè)名詞并不新鮮,早在1980年代,美國(guó)就有人提出了“大數(shù)據(jù)”的概念。20多年來(lái),各個(gè)領(lǐng)域的數(shù)據(jù)量都在迅猛增長(zhǎng),美國(guó)的企業(yè)界、學(xué)術(shù)界也不斷地對(duì)這個(gè)現(xiàn)象及其意義進(jìn)行探討,“大數(shù)據(jù)”這個(gè)名詞變得越來(lái)越流行、越來(lái)越重要,最后成為了國(guó)家和政府層面的發(fā)展戰(zhàn)略。
之所以要稱之為戰(zhàn)略,是因?yàn)椤按髷?shù)據(jù)”之“大”,并不僅僅在于其“容量之大”。當(dāng)然,由于數(shù)據(jù)容量的爆炸,數(shù)據(jù)的收集、保存、維護(hù)以及共享等等任務(wù),都成為具有研究意義的現(xiàn)象和挑戰(zhàn)。但“大數(shù)據(jù)”之“大”,更多的意義在于:人類可以“分析和使用”的數(shù)據(jù)在大量增加,通過(guò)這些數(shù)據(jù)的交換、整合和分析,人類可以發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來(lái)“大知識(shí)”、“大科技”、“大利潤(rùn)”和“大發(fā)展”。
如前文所述,數(shù)據(jù),是記錄信息的載體,是知識(shí)的來(lái)源。數(shù)據(jù)的激增,意味著人類的記錄范圍、測(cè)量范圍和分析范圍在不斷擴(kuò)大,知識(shí)的邊界在不斷延伸。
2007年,雅虎的首席科學(xué)家沃茨博士在《自然》上發(fā)表了一篇文章《21世紀(jì)的科學(xué)》22,他發(fā)現(xiàn),得益于計(jì)算機(jī)技術(shù)和海量數(shù)據(jù)庫(kù)的發(fā)展,個(gè)人在真實(shí)世界的活動(dòng)得到了前所未有的記錄,這種記錄的粒度23很高,頻度在不斷增加,為社會(huì)科學(xué)的定量分析提供了極為豐富的數(shù)據(jù)。由于能測(cè)得更準(zhǔn)、計(jì)算得更加精確,他認(rèn)為,社會(huì)科學(xué)將脫下“準(zhǔn)科學(xué)”的外衣,在21世紀(jì)全面邁進(jìn)科學(xué)的殿堂。例如,新聞的跟帖、網(wǎng)站的下載記錄、社交平臺(tái)的互動(dòng)記錄等等都為政治行為的研究提供了大量的數(shù)據(jù),政治學(xué)這門古老的學(xué)科,將登堂入室,成為地道的“科學(xué)”。
麻省理工學(xué)院的教授布倫喬爾森(Erik Brynjolfsson)則比喻說(shuō),大數(shù)據(jù)的影響,就像4個(gè)世紀(jì)之前人類發(fā)明的顯微鏡一樣。顯微鏡把人類對(duì)自然界的觀察和測(cè)量水平推進(jìn)到了“細(xì)胞”的級(jí)別,給人類社會(huì)帶來(lái)了歷史性的進(jìn)步和革命。24 而大數(shù)據(jù),將成為我們下一個(gè)觀察人類自身社會(huì)行為的“顯微鏡”和監(jiān)測(cè)大自然的“儀表盤”。
這個(gè)新的顯微鏡,將再一次擴(kuò)大人類科學(xué)的范圍,推動(dòng)人類知識(shí)的增長(zhǎng),引領(lǐng)新的經(jīng)濟(jì)繁榮。麥肯錫全球研究所在其2011年的報(bào)告中最后概括說(shuō):大數(shù)據(jù),將成為全世界下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)率提高的前沿。
搶占這個(gè)前沿,無(wú)異于搶占下一個(gè)時(shí)代的“石油”和“金礦”。
2012年3月29日,奧巴馬政府又進(jìn)一步推進(jìn)了其“大數(shù)據(jù)”戰(zhàn)略。奧巴馬的高級(jí)顧問(wèn)、總統(tǒng)科學(xué)技術(shù)顧問(wèn)委員會(huì)(PCAST)的主席霍爾德倫(John Holdren)代表國(guó)防部、能源部等6個(gè)聯(lián)邦政府部門宣布,將投入2億多美元立即啟動(dòng)“大數(shù)據(jù)發(fā)展研究計(jì)劃”(Big Data Research and Development Initiative),以推動(dòng)大數(shù)據(jù)的提取、存儲(chǔ)、分析、共享和可視化?;魻柕聜愐彩枪鸫髮W(xué)肯尼迪政府學(xué)院的知名教授,他在講話中表示:像美國(guó)歷史上對(duì)超級(jí)計(jì)算和互聯(lián)網(wǎng)的投資一樣,這個(gè)大數(shù)據(jù)發(fā)展研究計(jì)劃將對(duì)美國(guó)的創(chuàng)新、科研、教育和國(guó)防產(chǎn)生深遠(yuǎn)的影響。
奧巴馬則強(qiáng)調(diào)聯(lián)邦政府必須和公司、大學(xué)結(jié)盟,全民動(dòng)員(All Hands on Deck),來(lái)應(yīng)對(duì)“大數(shù)據(jù)”時(shí)代的挑戰(zhàn)。