今年春節(jié)期間,出版社告訴我,作為中國大數(shù)據(jù)領域的開山之作,《大數(shù)據(jù)》很受歡迎,他們希望滿足市場的需求,推出第三個版本,囑咐我寫點東西。
之所以受到歡迎,可能是因為獨樹一幟。一提到大數(shù)據(jù),很多人的第一反應,是數(shù)據(jù)在商業(yè)領域中的作用,所津津樂道的,也是精準營銷,即通過數(shù)據(jù)分析增強對用戶的洞察、擴大營銷收入。但本書所強調(diào)的,卻是“數(shù)據(jù)不僅可以治國,還可以強國”。
數(shù)據(jù)治國,是指要憑借對數(shù)據(jù)的有效收集、處理和分析來治理國家,決定國家的大政方針和具體政策。
從定義看,數(shù)據(jù)是對客觀世界進行量化和記錄的結果。量化,是人類進行科學研究最根本的手段,就此而言,數(shù)據(jù)治國也可以理解為“用定量分析、實證研究的科學方法來治理國家”。此外,數(shù)據(jù)表示的是過去,關注、表達的卻是未來。數(shù)據(jù)之中蘊藏著社會發(fā)展的規(guī)律,“數(shù)據(jù)治國”的提法,也暗含著“人類可以更好地把握未來”之意。
回顧人類的歷史,任何一個國家的治理,都需要參照數(shù)據(jù),但由于信息技術的進步、記錄手段的普及,物理世界的狀態(tài)、個人的社會行為得到了前所未有的記錄,這種記錄的粒度越來越細、維度越來越多、頻度越來越密,形成了“大數(shù)據(jù)”。今天的數(shù)據(jù)治國,含義遠遠超出了“參照數(shù)據(jù)”。
例如,當前國人關心的頭號問題,莫過于空氣質(zhì)量。要解決好這個問題,從環(huán)境的監(jiān)測、傳感器的安裝,到空氣標準的設立、污染原因的分析,再到高污染、高能耗、低產(chǎn)值傳統(tǒng)產(chǎn)業(yè)的轉型,和智能電網(wǎng)、智能電表的使用和普及,整個治理鏈條都貫穿了數(shù)據(jù)。又例如交通擁堵,如今很多城市,立交橋高達三四層、地鐵線也在快速擴張,卻趕不上車輛增加的速度,在資源增長、空間有限的情況下,唯一的出路,是用好大數(shù)據(jù),對城市的狀態(tài)進行實時的分析和預測,不斷優(yōu)化現(xiàn)有資源的使用情況。還有當下智慧城市的建設,大數(shù)據(jù)的作用可謂重中之重。
今天的政府,無論是東方、西方,都有人在不斷嘗試,試圖把“憑借數(shù)據(jù)來治理社會”的模式推到極致。本書第七章“全國隱私風波”重點闡述了十幾年前美國各方力量圍繞“萬維信息觸角計劃”(TIA)產(chǎn)生的糾結和較量。2002年,在國防部長拉姆斯菲爾德、海軍中將波因德克斯特的主導下,美國國防部高級項目研究所(DARPA)試圖建立一個超級數(shù)據(jù)庫,把全社會每一個人的基本資料、信用卡交易信息、醫(yī)療保險記錄、出入境記錄、航空和酒店信息、電子郵件、電話記錄、網(wǎng)絡搜索記錄等等數(shù)據(jù)都整合到一起,然后通過數(shù)據(jù)挖掘和監(jiān)控,在大量的信息當中發(fā)現(xiàn)“信號”,實現(xiàn)有效的社會治理和管控。這個計劃,因為可能侵犯公民的隱私,在美國國會不斷受阻,但美國國防部卻屢次變換名目、暗中推動項目進展。這段歷史,堪稱2013年“斯諾登事件”的前傳,因為后來大面積曝光,最終震驚世界。
西方不亮東方亮。這期間,新加坡的國防部長Peter Ho在美國訪問,他獲知萬維信息觸角計劃之后,大為贊賞。不久后,該計劃在美國觸礁流產(chǎn),波因德克斯特被迫辭職,新加坡卻重金引進了這個項目組的一批人員,并聘波因德克斯特為國防部顧問,視為上賓。在波因德克斯特的指導下,新加坡快速建立了一套萬維信息觸角,命名為“風險評估和全景掃描”(RAHS)。
RAHS最初的目的,是通過全社會的數(shù)據(jù)聯(lián)通和挖掘,在錯綜復雜的社會現(xiàn)象中發(fā)現(xiàn)恐怖襲擊、流行病疫情等突發(fā)事件的“信號”,達到未雨綢繆、有效治理的目的。之后,由于行之有效,新加坡政府將系統(tǒng)不斷擴大,推廣到經(jīng)濟、文化、社會管理的種種領域。房屋管理局用它來了解人們對于住房體系的批評和期待,人口部門通過它掌握大眾的生育態(tài)度變化,旅游部門用它來預測各地游客數(shù)量的周期,食品部門通過它決策是否應該減少對進口食品的依賴等等。從這個角度說,新加坡是數(shù)據(jù)治國的一個實驗室,它不僅將大數(shù)據(jù)用于情報和反恐,還用于構建和諧社會。
在中國,特別要強調(diào)的是,數(shù)據(jù)治國不是“數(shù)字治國”。一些官員一談起轄區(qū)人口面積、GDP增長幅度、項目投資多少、惠及領域若干、利稅增加幾何都有“數(shù)”在胸,還特別喜歡用“三項原則”、“五個重點”、“八項規(guī)定”等等數(shù)字范式對工作進行總結,各項工作的考核也都與數(shù)據(jù)掛鉤,大有唯“數(shù)據(jù)”盛行之勢。這不是不好,但這些都是孤立的、靜態(tài)的數(shù)字,并不是“數(shù)據(jù)治國”的真義。大數(shù)據(jù)時代,數(shù)據(jù)治國更關注的是動態(tài)的數(shù)據(jù)、系統(tǒng)化的數(shù)據(jù),以不間斷“流”的形式存在的、成片的、活的數(shù)據(jù),它們應該成為公共決策的資源為政府和社會所廣泛使用。歸根結底,公共決策最重要的依據(jù)將是系統(tǒng)的、成片的、動態(tài)的數(shù)據(jù)流,而不是個人經(jīng)驗或長官意志,過去深入群眾、實地考察的工作方法雖仍然有效,但對社會治理而言,系統(tǒng)采集的數(shù)據(jù)、科學分析的結果更為重要。
我認為,數(shù)據(jù)不僅可以治國,還可以強國。其中的原因,是因為數(shù)據(jù)正在成為各行各業(yè)最重要的創(chuàng)新資源。
以農(nóng)業(yè)為例,來自天氣、土壤和農(nóng)作物的數(shù)據(jù),可以實現(xiàn)自動化的灌溉、防治蟲災、決定如何種植和收割、節(jié)省水利資源、提高單位產(chǎn)量;在教育領域,以大數(shù)據(jù)為基礎的在線智能學習平臺(MOOC),可以突破教室的限制,讓成千上萬的學生同時得到個性化的教學和輔導;再以醫(yī)療領域為例,IBM公司的Watson系統(tǒng)可以快速地檢索幾百萬名患者的病例、最新的醫(yī)療研究報告和成果,做出更快、更準確的診斷;工業(yè)領域更不待言,汽車、飛機正在被大數(shù)據(jù)改造,成為無人駕駛汽車、無人駕駛飛機;還有金融領域,利用電商平臺的交易數(shù)據(jù),“阿里小貸”可以在幾分鐘之內(nèi)判斷企業(yè)的信用,為近百萬小微企業(yè)發(fā)放貸款。今年年初,阿里巴巴又推出了基于個體消費者的“芝麻信用”,用的創(chuàng)新資源還是數(shù)據(jù)。一百年前的美國,用了幾十年的時間才建立全民信用體系。因為擁有無處不在的充沛數(shù)據(jù),今天中國的全民信用體系可能在更短的時間內(nèi)、以更低的成本就可以建立起來。
毫不夸張地說,基于數(shù)據(jù)的創(chuàng)新將帶動人類社會的各個領域都實現(xiàn)巨大的飛躍,這種飛躍是前人難以想象的。今天的年輕人面臨的創(chuàng)新機會要遠遠多于前幾代人,因為他們擁有人類有史以來最偉大的創(chuàng)新資源:數(shù)據(jù)。
和其他的創(chuàng)新資源相比,數(shù)據(jù)之所以偉大,是因為它不會被它所激發(fā)的思想和創(chuàng)新所消耗,它可以重復使用,可以同時被無數(shù)人使用,此數(shù)據(jù)和彼數(shù)據(jù)整合,還可以產(chǎn)生新的價值和效用。在空間的拓展中和時間的延伸中,數(shù)據(jù)的能量將在人類社會層層放大,數(shù)據(jù)的不斷積累是資源和知識的持續(xù)增加。
但要成就數(shù)據(jù)的“偉大”,還有個前提,這就是數(shù)據(jù)的開放。正是出于這個原因,本書用了相當?shù)钠鶃碛懻摗伴_放數(shù)據(jù)”。
對于“開放數(shù)據(jù)”,中國社會目前還存在不少誤解。一是將開放等同于公開,其實開放和公開是兩個完全不同的概念。公開是信息層面的,是一條一條的;開放是數(shù)據(jù)庫資源層面的,是一片一片的。開放數(shù)據(jù),指的是將原始的數(shù)據(jù)及其相關的元數(shù)據(jù)以可以下載的電子格式讓第三方自由使用。開放也不一定代表免費,因為開放是有成本的,企業(yè)可以以收費的形式開放數(shù)據(jù)。開放也可以有層次、有范圍,針對某個特定的組織和群體開放,不一定面對全體社會大眾。
開放數(shù)據(jù)之于當下中國社會的意義,在于推動知識經(jīng)濟和網(wǎng)絡經(jīng)濟的發(fā)展,在于促進中國經(jīng)濟由粗放向精細、從“制造”向“創(chuàng)造”的轉型升級,在于釋放社會生產(chǎn)力、催生創(chuàng)新。通過開放更多的數(shù)據(jù),讓創(chuàng)新的資源自由地流動,李克強總理提出的“大眾創(chuàng)業(yè),萬眾創(chuàng)新”才能更快、更好地在中國大地形成燎原之勢。
大眾創(chuàng)新、創(chuàng)業(yè)的趨勢,也可以在美國社會的發(fā)展過程中觀察到。根據(jù)美國科學基金會(NSF)的數(shù)據(jù),1981年,大公司(超過25000人)的研發(fā)投入占全美研發(fā)投入的70%,可謂主導了美國的創(chuàng)新;到2007年,大公司的研發(fā)投入仍然在上升,但格局卻發(fā)生了改變,盡管絕對數(shù)量增長了4倍,其占全美研發(fā)投入的比例卻下降到35%。同期,1000人以下小公司的研發(fā)投入增長了50倍,其占全美的比例從1981年的4%上升到2007年的24%。這些數(shù)據(jù)表明,研發(fā)和創(chuàng)新呈現(xiàn)分散化,在向小公司和個人轉移,其中最根本的原因,就是知識、信息特別是數(shù)據(jù)資源的深度開放,不再受大公司、大組織的壟斷,不再是精英階層的專利。
文化靠沉淀,文明靠創(chuàng)新。創(chuàng)新,才是一個國家持續(xù)發(fā)展、不斷邁向強大的真正動力。今天的中國,創(chuàng)新已經(jīng)成為共識。就此而言,數(shù)據(jù)強國我們正在路上。
記得《大數(shù)據(jù)》首版上市,是2012年7月。當時我在美國,半年多之后,美國才出版了第一本有影響力的專著《大數(shù)據(jù)時代》,比中國晚了整整半年。撫今追昔,我感嘆不已,新的思想和觀念在全球自由地流動,在奔涌的浪潮之中,我也從美國硅谷回到了中國的杭州。
除了增補自序、重要的專欄文章以及我在第一屆世界互聯(lián)網(wǎng)大會上的演講等,本版還增加了索引。一本好書不能沒有索引,這是我一直的觀點。幾經(jīng)曲折,《大數(shù)據(jù)》第三版終于加上了索引,除了出版社的支持,還要感謝馮啟娜、趙瀚林、陳競芬等志愿者,因為他們的協(xié)助,這個心愿得以達成。
涂子沛
2015年3月22日于杭州