“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系,然而直到最近,我們對(duì)此似乎還是難以把握。 IBM的資深“大數(shù)據(jù)”專家杰夫·喬納斯( Jeff Jonas)提出要讓數(shù)據(jù)“說(shuō)話”。從某種層面上來(lái)說(shuō),這聽(tīng)起來(lái)很平常。人們使用數(shù)據(jù)已經(jīng)有相當(dāng)長(zhǎng)一段時(shí)間了,無(wú)論是日常進(jìn)行的大量非正式觀察,還是過(guò)去幾個(gè)世紀(jì)里在專業(yè)層面上用高級(jí)算法進(jìn)行的量化研究,都與數(shù)據(jù)有關(guān)。
在數(shù)字化時(shí)代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬(wàn)的數(shù)據(jù)。但當(dāng)我們談?wù)撃堋罢f(shuō)話”的數(shù)據(jù)時(shí),我們指的遠(yuǎn)遠(yuǎn)不止這些。
實(shí)際上,大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān),這三個(gè)轉(zhuǎn)變是相互聯(lián)系和相互作用的。
·首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。
·其次,我們樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。
·最后,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
本章就將介紹第一個(gè)轉(zhuǎn)變:利用所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。
很長(zhǎng)一段時(shí)間以來(lái),準(zhǔn)確分析大量數(shù)據(jù)對(duì)我們而言都是一種挑戰(zhàn)。過(guò)去,因?yàn)橛涗洝?chǔ)存和分析數(shù)據(jù)的工具不夠好,我們只能收集少量數(shù)據(jù)進(jìn)行分析,這讓我們一度很苦惱。為了讓分析變得簡(jiǎn)單,我們會(huì)把數(shù)據(jù)量縮減到最少。這是一種無(wú)意識(shí)的自?。何覀儼雅c數(shù)據(jù)交流的困難看成是自然的,而沒(méi)有意識(shí)到這只是當(dāng)時(shí)技術(shù)條件下的一種人為的限制。如今,技術(shù)條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,也永遠(yuǎn)是有限的,但是我們可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來(lái)會(huì)越來(lái)越多。
在某些方面,我們依然沒(méi)有完全意識(shí)到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力。我們還是在信息匱乏的假設(shè)下做很多事情,建立很多機(jī)構(gòu)組織。我們假定自己只能收集到少量信息,結(jié)果就真的如此了。這是一個(gè)自我實(shí)現(xiàn)的過(guò)程。我們甚至發(fā)展了一些使用盡可能少的信息的技術(shù)。別忘了,統(tǒng)計(jì)學(xué)的一個(gè)目的就是用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn)。事實(shí)上,我們形成了一種習(xí)慣,那就是在我們的制度、處理過(guò)程和激勵(lì)機(jī)制中盡可能地減少數(shù)據(jù)的使用。為了理解大數(shù)據(jù)時(shí)代的轉(zhuǎn)變意味著什么,我們需要首先回顧一下過(guò)去。