聯(lián)邦政府的每一個機(jī)構(gòu)和部門,都需要制定一個應(yīng)對“大數(shù)據(jù)”的戰(zhàn)略。
——《規(guī)劃數(shù)字化的未來:美國總統(tǒng)科學(xué)技術(shù)顧問委員會給總統(tǒng)和國會的報告》2010年
業(yè)務(wù)工作的管理數(shù)據(jù),民意社情的調(diào)查數(shù)據(jù),以及對大自然、動植物的特點和變化進(jìn)行監(jiān)控而產(chǎn)生的環(huán)境數(shù)據(jù),是聯(lián)邦政府的三大數(shù)據(jù)來源。這三種數(shù)據(jù),其發(fā)展各有先后,收集方式各不相同,數(shù)據(jù)量也大小不一。它們之間,存在著一些交叉和重疊,有一些民意調(diào)查的數(shù)據(jù),是業(yè)務(wù)數(shù)據(jù),而一些因環(huán)境監(jiān)控產(chǎn)生的數(shù)據(jù),也可以是業(yè)務(wù)工作的數(shù)據(jù)。
由于無線傳感器的快速普及,環(huán)境數(shù)據(jù)增長得最快,成為聯(lián)邦政府?dāng)?shù)據(jù)量最大的來源。
雖然環(huán)境數(shù)據(jù)增長得最快,但這三種數(shù)據(jù),其實都在爆炸。這種爆炸,并不僅僅是數(shù)量一個維度的。2001年,著名的高德納咨詢公司(Gartner)在一份研究報告21中指出,數(shù)據(jù)的爆炸是“三維的”、是立體的,這三個維度,主要表現(xiàn)在以下三個方面:
一是同一類型的數(shù)據(jù)量在快速增大;
二是數(shù)據(jù)增長的速度在加快;
三是數(shù)據(jù)的多樣性,即新的數(shù)據(jù)來源和新的數(shù)據(jù)種類在不斷增加。
數(shù)據(jù)的爆炸性增長,也不僅僅限于聯(lián)邦政府。如前文所述,2011年麥肯錫公司在其研究報告《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)率的前沿》中指出,在美國,僅僅制造行業(yè)就擁有比美國政府還多一倍的數(shù)據(jù),此外,新聞業(yè)、銀行業(yè)、醫(yī)療業(yè)、投資業(yè)、零售業(yè)都擁有可以和美國政府相提并論的海量數(shù)據(jù)。
哈爾·范里安(Hal Varian)是谷歌的首席經(jīng)濟(jì)學(xué)家,也是美國研究信息經(jīng)濟(jì)學(xué)的著名學(xué)者。2000年,他對數(shù)據(jù)和信息產(chǎn)生的速度進(jìn)行了研究,他認(rèn)為,人類社會每年產(chǎn)生的信息量,實在太大了,已經(jīng)沒辦法用準(zhǔn)確的方法來計算現(xiàn)有的數(shù)字信息總量,只能估算。他估計2000年新產(chǎn)生的數(shù)據(jù)量為1000拍到2000拍。但到2010年,僅僅全球企業(yè)一年新存儲的數(shù)據(jù)量就超過了7000拍,而全球消費(fèi)者新存儲的數(shù)據(jù)量約為6000拍。
這種數(shù)據(jù)量的增長,已經(jīng)大大超出了人類的預(yù)期和想象。時至今日,數(shù)據(jù)已經(jīng)像“洪流”一樣,在全球的政治、經(jīng)濟(jì)生活當(dāng)中奔騰。而且,隨著信息技術(shù)的普及和進(jìn)步,新的支流還在不斷產(chǎn)生,各個支流流動、交匯和整合的速度,還在繼續(xù)加快。
作為美國社會的信息樞紐,聯(lián)邦政府當(dāng)然要正面迎對這個挑戰(zhàn)。
2010年12月,總統(tǒng)行政辦公室下屬的科學(xué)技術(shù)顧問委員會(PCAST)、信息技術(shù)顧問委員會(PITAC)向奧巴馬和國會提交了《規(guī)劃數(shù)字化未來》的專門報告,該報告把數(shù)據(jù)收集和使用的工作,提到了戰(zhàn)略的高度。
這個報告列舉了5個貫穿各個科技領(lǐng)域的共同挑戰(zhàn),報告指出“每一個挑戰(zhàn)都至關(guān)重要”,而第一個挑戰(zhàn)就是“數(shù)據(jù)”問題。報告說:
“如何收集、保存、維護(hù)、管理、分析、共享正在呈指數(shù)級增長的數(shù)據(jù)是我們必須面對的一個重要挑戰(zhàn)。從網(wǎng)絡(luò)攝像頭、博客、天文望遠(yuǎn)鏡到超級計算機(jī)的仿真,來自于不同渠道的數(shù)據(jù)以不同的形式如潮水一般向我們涌來。這些數(shù)據(jù)以不同的格式存儲在不同的環(huán)境中,有的在計算機(jī)的硬盤里,有的在數(shù)據(jù)倉庫之內(nèi)。
如何保證這些數(shù)據(jù)現(xiàn)在、將來的完整性和可用性,我們面臨著很多的問題和挑戰(zhàn)。如何使用這些數(shù)據(jù),則是另外一個挑戰(zhàn)……應(yīng)對好這些挑戰(zhàn),將引導(dǎo)我們在科研、醫(yī)療、商業(yè)和國家安全方面開創(chuàng)新的成功?!?/p>
在報告中,兩個委員會還例舉了美國癌癥研究所以及中央情報局如何通過收集海量數(shù)據(jù)、建立數(shù)據(jù)倉庫、實施以數(shù)據(jù)挖掘為核心的自動分析技術(shù),獲得了出人意料的創(chuàng)新和成功。
委員會一致認(rèn)為,如何有效地利用數(shù)據(jù)將貫穿所有科技領(lǐng)域的挑戰(zhàn)。最后,兩個委員會向奧巴馬建議:聯(lián)邦政府的每一個機(jī)構(gòu)和部門,都需要制定一個“大數(shù)據(jù)”的戰(zhàn)略。
其實,“大數(shù)據(jù)”這個名詞并不新鮮,早在1980年代,美國就有人提出了“大數(shù)據(jù)”的概念。20多年來,各個領(lǐng)域的數(shù)據(jù)量都在迅猛增長,美國的企業(yè)界、學(xué)術(shù)界也不斷地對這個現(xiàn)象及其意義進(jìn)行探討,“大數(shù)據(jù)”這個名詞變得越來越流行、越來越重要,最后成為了國家和政府層面的發(fā)展戰(zhàn)略。
之所以要稱之為戰(zhàn)略,是因為“大數(shù)據(jù)”之“大”,并不僅僅在于其“容量之大”。當(dāng)然,由于數(shù)據(jù)容量的爆炸,數(shù)據(jù)的收集、保存、維護(hù)以及共享等等任務(wù),都成為具有研究意義的現(xiàn)象和挑戰(zhàn)。但“大數(shù)據(jù)”之“大”,更多的意義在于:人類可以“分析和使用”的數(shù)據(jù)在大量增加,通過這些數(shù)據(jù)的交換、整合和分析,人類可以發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。
如前文所述,數(shù)據(jù),是記錄信息的載體,是知識的來源。數(shù)據(jù)的激增,意味著人類的記錄范圍、測量范圍和分析范圍在不斷擴(kuò)大,知識的邊界在不斷延伸。
2007年,雅虎的首席科學(xué)家沃茨博士在《自然》上發(fā)表了一篇文章《21世紀(jì)的科學(xué)》22,他發(fā)現(xiàn),得益于計算機(jī)技術(shù)和海量數(shù)據(jù)庫的發(fā)展,個人在真實世界的活動得到了前所未有的記錄,這種記錄的粒度23很高,頻度在不斷增加,為社會科學(xué)的定量分析提供了極為豐富的數(shù)據(jù)。由于能測得更準(zhǔn)、計算得更加精確,他認(rèn)為,社會科學(xué)將脫下“準(zhǔn)科學(xué)”的外衣,在21世紀(jì)全面邁進(jìn)科學(xué)的殿堂。例如,新聞的跟帖、網(wǎng)站的下載記錄、社交平臺的互動記錄等等都為政治行為的研究提供了大量的數(shù)據(jù),政治學(xué)這門古老的學(xué)科,將登堂入室,成為地道的“科學(xué)”。
麻省理工學(xué)院的教授布倫喬爾森(Erik Brynjolfsson)則比喻說,大數(shù)據(jù)的影響,就像4個世紀(jì)之前人類發(fā)明的顯微鏡一樣。顯微鏡把人類對自然界的觀察和測量水平推進(jìn)到了“細(xì)胞”的級別,給人類社會帶來了歷史性的進(jìn)步和革命。24 而大數(shù)據(jù),將成為我們下一個觀察人類自身社會行為的“顯微鏡”和監(jiān)測大自然的“儀表盤”。
這個新的顯微鏡,將再一次擴(kuò)大人類科學(xué)的范圍,推動人類知識的增長,引領(lǐng)新的經(jīng)濟(jì)繁榮。麥肯錫全球研究所在其2011年的報告中最后概括說:大數(shù)據(jù),將成為全世界下一個創(chuàng)新、競爭和生產(chǎn)率提高的前沿。
搶占這個前沿,無異于搶占下一個時代的“石油”和“金礦”。
2012年3月29日,奧巴馬政府又進(jìn)一步推進(jìn)了其“大數(shù)據(jù)”戰(zhàn)略。奧巴馬的高級顧問、總統(tǒng)科學(xué)技術(shù)顧問委員會(PCAST)的主席霍爾德倫(John Holdren)代表國防部、能源部等6個聯(lián)邦政府部門宣布,將投入2億多美元立即啟動“大數(shù)據(jù)發(fā)展研究計劃”(Big Data Research and Development Initiative),以推動大數(shù)據(jù)的提取、存儲、分析、共享和可視化?;魻柕聜愐彩枪鸫髮W(xué)肯尼迪政府學(xué)院的知名教授,他在講話中表示:像美國歷史上對超級計算和互聯(lián)網(wǎng)的投資一樣,這個大數(shù)據(jù)發(fā)展研究計劃將對美國的創(chuàng)新、科研、教育和國防產(chǎn)生深遠(yuǎn)的影響。
奧巴馬則強(qiáng)調(diào)聯(lián)邦政府必須和公司、大學(xué)結(jié)盟,全民動員(All Hands on Deck),來應(yīng)對“大數(shù)據(jù)”時代的挑戰(zhàn)。