“人類歷史上最早的一批城市都誕生在河邊,河流為人類提供了食物、水和交通。而我們要做的就是創(chuàng)造一條數(shù)據(jù)的河流,滋養(yǎng)信息經(jīng)濟(jì)的發(fā)展?!?/span>
——紐約一家數(shù)據(jù)網(wǎng)站首頁的標(biāo)語
什么是大數(shù)據(jù)
“大數(shù)據(jù)”一詞已經(jīng)無處不在,然而其概念仍然存在混淆。有人從數(shù)量大、速度快、種類多等特征定義大數(shù)據(jù);有人把大數(shù)據(jù)看作一項新技術(shù),例如大數(shù)據(jù)處理技術(shù)Hadoop和非關(guān)系型數(shù)據(jù)庫NoSQL;有人從大數(shù)據(jù)與數(shù)據(jù)的區(qū)別角度提出,大數(shù)據(jù)不僅包括人們過去搜集、存儲和分析的交易數(shù)據(jù),更包括人們從點擊網(wǎng)頁等操作中得到的交互數(shù)據(jù)以及機(jī)器自動搜集的觀察數(shù)據(jù);還有人認(rèn)為大數(shù)據(jù)是一種新的預(yù)測信號,在傳統(tǒng)情況下,當(dāng)數(shù)據(jù)被記錄時,人們已經(jīng)無法對它們采取任何行動,組織在不斷管理“失效的數(shù)據(jù)”,而在“新世界”,組織可以使用信號數(shù)據(jù)預(yù)測將發(fā)生什么,并通過干預(yù)改善情況。
值得注意的是,無論如何定義,業(yè)界幾乎所有人都普遍認(rèn)同,大數(shù)據(jù)不只是更多的數(shù)據(jù),大數(shù)據(jù)是一個大事件,在未來幾年將帶來重大的機(jī)遇。
大數(shù)據(jù)與數(shù)據(jù)有何不同
“大數(shù)據(jù)”一詞由英文“Big Data”翻譯而來。很多文章在介紹大數(shù)據(jù)這一概念時都側(cè)重于強(qiáng)調(diào)其“大”,即需要處理的信息量過大,已經(jīng)超出了一般計算機(jī)在處理數(shù)據(jù)時所能使用的內(nèi)存量,因此工程師們必須改進(jìn)處理數(shù)據(jù)的工具。
然而,究竟多大才算是大數(shù)據(jù)?這個問題并沒有標(biāo)準(zhǔn)答案,因為大數(shù)據(jù)的標(biāo)準(zhǔn)是不斷調(diào)整的。麥肯錫全球研究所報告對大數(shù)據(jù)有以下定義:大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群。這個定義有意地帶有主觀性,即我們不以超過多少TB為大數(shù)據(jù)的標(biāo)準(zhǔn)。我們假設(shè)隨著時間的推移和技術(shù)的進(jìn)步,大數(shù)據(jù)的量仍會增加。還應(yīng)注意到,該定義可以因部門的不同而有所差異,這取決于什么類型的軟件工具是通用的,以及某個特定行業(yè)的數(shù)據(jù)集通常的大小。因此,今天眾多行業(yè)的大數(shù)據(jù)范圍可以從幾十TB到數(shù)千TB。
有人可能有這樣的疑問:大數(shù)據(jù)不就是數(shù)據(jù)分析的另一種說法嗎?大數(shù)據(jù)與數(shù)據(jù)究竟有何不同?大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)挖掘相比,與其說是一種量的進(jìn)步,不如說是一種質(zhì)的飛躍。人們在大數(shù)據(jù)的基礎(chǔ)上可以做到的事情,在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法完成的。