據(jù)他們估算:2007年,人類(lèi)大約存儲(chǔ)了超過(guò)300EB的數(shù)據(jù);1986~2007年,全球數(shù)據(jù)存儲(chǔ)能力每年提高23%,雙向通信能力每年提高28%,通用計(jì)算能力每年提高58%;預(yù)計(jì)到2013年,世界上存儲(chǔ)的數(shù)據(jù)能達(dá)到約1.2ZB。
這樣大的數(shù)據(jù)量意味著什么?據(jù)估算,如果把這些數(shù)據(jù)全部記在書(shū)中,這些書(shū)可以覆蓋整個(gè)美國(guó)52次。如果存儲(chǔ)在只讀光盤(pán)上,這些光盤(pán)可以堆成5堆,每堆都可以伸到月球。在公元前3世紀(jì),希臘時(shí)代最著名的圖書(shū)館亞歷山大圖書(shū)館竭力搜集了當(dāng)時(shí)其所能搜集到的書(shū)寫(xiě)作品,可以代表當(dāng)時(shí)世界上其所能搜集到的知識(shí)量。但當(dāng)數(shù)字?jǐn)?shù)據(jù)洪流席卷世界之后,每個(gè)人都可以獲得大量數(shù)據(jù)信息,相當(dāng)于當(dāng)時(shí)亞歷山大圖書(shū)館存儲(chǔ)的數(shù)據(jù)總量的320倍之多。
多樣性
隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的飛速發(fā)展,組織中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來(lái)自網(wǎng)頁(yè)、互聯(lián)網(wǎng)日志文件(包括點(diǎn)擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)格式變得越來(lái)越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號(hào)等不同的類(lèi)型;數(shù)據(jù)來(lái)源也越來(lái)越多樣,不僅產(chǎn)生于組織內(nèi)部運(yùn)作的各個(gè)環(huán)節(jié),也來(lái)自于組織外部。例如,在交通領(lǐng)域,北京市交通智能化分析平臺(tái)數(shù)據(jù)來(lái)自路網(wǎng)攝像頭/傳感器、公交、軌道交通、出租車(chē)以及省際客運(yùn)、旅游、化危運(yùn)輸、停車(chē)、租車(chē)等運(yùn)輸行業(yè),還有問(wèn)卷調(diào)查和地理信息系統(tǒng)數(shù)據(jù)。4萬(wàn)輛浮動(dòng)車(chē)每天產(chǎn)生2 000萬(wàn)條記錄,交通卡刷卡記錄每天1 900萬(wàn)條,手機(jī)定位數(shù)據(jù)每天1 800萬(wàn)條,出租車(chē)運(yùn)營(yíng)數(shù)據(jù)每天100萬(wàn)條,電子停車(chē)收費(fèi)系統(tǒng)數(shù)據(jù)每天50萬(wàn)條,定期調(diào)查覆蓋8萬(wàn)戶(hù)家庭,等等,這些數(shù)據(jù)在體量和速度上都達(dá)到了大數(shù)據(jù)的規(guī)模。發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性,是大數(shù)據(jù)做前人之未做、能前人所不能的機(jī)會(huì)。
大數(shù)據(jù)不僅是處理巨量數(shù)據(jù)的利器,更為處理不同來(lái)源、不同格式的多元化數(shù)據(jù)提供了可能。例如,為了使計(jì)算機(jī)能夠理解人的意圖,人類(lèi)就必須要將需解決的問(wèn)題的思路、方法和手段通過(guò)計(jì)算機(jī)能夠理解的形式告訴計(jì)算機(jī),使得計(jì)算機(jī)能夠根據(jù)人的指令一步一步工作,完成某種特定的任務(wù)。在以往,人們只能通過(guò)編程這種規(guī)范化計(jì)算機(jī)語(yǔ)言發(fā)出指令。隨著自然語(yǔ)言處理技術(shù)的發(fā)展,人們可以用計(jì)算機(jī)處理自然語(yǔ)言,實(shí)現(xiàn)人與計(jì)算機(jī)之間基于文本和語(yǔ)音的有效通信。為此,還出現(xiàn)了專(zhuān)門(mén)提供結(jié)構(gòu)化語(yǔ)言解決方案的組織—語(yǔ)言數(shù)據(jù)公司。自然語(yǔ)言無(wú)疑是一個(gè)新的數(shù)據(jù)來(lái)源,而且也是一種更復(fù)雜、更多樣的數(shù)據(jù),它包含諸如省略、指代、更正、重復(fù)、強(qiáng)調(diào)、倒序等大量的語(yǔ)言現(xiàn)象,還包括噪聲、含混不清、口頭語(yǔ)和音變等語(yǔ)音現(xiàn)象。