正文

大數(shù)據的特征(1)

智慧政府:大數(shù)據治國時代的來臨 作者:徐繼華


2001年,高德納分析員道格·萊尼在一份與其2001年的研究相關的演講中指出,數(shù)據增長有三個方向的挑戰(zhàn)和機遇:量(Volume),即數(shù)據多少;速(Velocity),即資料輸入、輸出的速度;類(Variety),即多樣性。

在萊尼的理論基礎上,IBM提出大數(shù)據的4V特征,得到了業(yè)界的廣泛認可。第一,數(shù)量(Volume),即數(shù)據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數(shù)據類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據,還包括來自互聯(lián)網的網絡日志、視頻、圖片、地理位置信息等;第三,速度(Velocity),即處理速度快;第四,真實性(Veracity),即追求高質量的數(shù)據。雖然不同學者、不同研究機構對大數(shù)據的定義不盡相同,但都廣泛提及了這4個基本特征。

大容量

天文學和基因學是最早產生大數(shù)據變革的領域。2000年,斯隆數(shù)字巡天項目啟動時,位于新墨西哥州的望遠鏡在短短幾周內搜集到的數(shù)據已經比天文學歷史上總共搜集的數(shù)據還要多;在智利的大型視場全景巡天望遠鏡一旦于2016年投入使用,其在5天之內搜集到的信息量將相當于前者10年的信息檔案。2003年,人類第一次破譯人體基因密碼時,用了10年才完成了30億對堿基對的排序;而在10年之后,世界范圍內的基因儀15分鐘就可以完成同樣的工作量。

伴隨著各種隨身設備、物聯(lián)網和云計算、云存儲等技術的發(fā)展,人和物的所有軌跡都可以被記錄,數(shù)據因此被大量生產出來。移動互聯(lián)網的核心網絡節(jié)點是人,不再是網頁。人人都成為數(shù)據制造者,短信、微博、照片、錄像都是其數(shù)據產品;數(shù)據來自無數(shù)自動化傳感器、自動記錄設施、生產監(jiān)測、環(huán)境監(jiān)測、交通監(jiān)測、安防監(jiān)測等;來自自動流程記錄,刷卡機、收款機、電子不停車收費系統(tǒng),互聯(lián)網點擊、電話撥號等設施以及各種辦事流程登記等。大量自動或人工產生的數(shù)據通過互聯(lián)網聚集到特定地點,包括電信運營商、互聯(lián)網運營商、政府、銀行、商場、企業(yè)、交通樞紐等機構,形成了大數(shù)據之海。

我們周圍到底有多少數(shù)據?數(shù)據量的增長速度有多快?許多人試圖測量出一個確切的數(shù)字。

2011年,馬丁·希爾伯特和普里西利亞·洛佩茲在《科學》上發(fā)表了一篇文章,對1986 ~2007年人類所創(chuàng)造、存儲和傳播的一切信息數(shù)量進行了追蹤計算。其研究范圍大約涵蓋了60種模擬和數(shù)字技術:書籍、圖畫、信件、電子郵件、照片、音樂、視頻(模擬和數(shù)字)、電子游戲、電話、汽車導航等。


上一章目錄下一章

Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號