正文

大數(shù)據(jù)的特征(4)

智慧政府:大數(shù)據(jù)治國(guó)時(shí)代的來(lái)臨 作者:徐繼華


吳甘沙提出,天下武功,唯快不破。為什么要“快”?第一,時(shí)間就是金錢(qián)。如果說(shuō)價(jià)值是分子,那么時(shí)間就是分母,分母越小,單位價(jià)值就越大。面臨同樣大的數(shù)據(jù)“礦山”,“挖礦”效率是競(jìng)爭(zhēng)優(yōu)勢(shì)。第二,像其他商品一樣,數(shù)據(jù)的價(jià)值會(huì)折舊,等量數(shù)據(jù)在不同時(shí)間點(diǎn)上價(jià)值不等。NewSQL(新的可擴(kuò)展性/高性能數(shù)據(jù)庫(kù))的先行者VoltDB(內(nèi)存數(shù)據(jù)庫(kù))發(fā)明了一個(gè)概念叫作“數(shù)據(jù)連續(xù)統(tǒng)一體”:數(shù)據(jù)存在于一個(gè)連續(xù)的時(shí)間軸上,每個(gè)數(shù)據(jù)項(xiàng)都有它的年齡,不同年齡的數(shù)據(jù)有不同的價(jià)值取向,新產(chǎn)生的數(shù)據(jù)更具有個(gè)體價(jià)值,產(chǎn)生時(shí)間較為久遠(yuǎn)的數(shù)據(jù)集合起來(lái)更能發(fā)揮價(jià)值。第三,數(shù)據(jù)跟新聞一樣具有時(shí)效性。很多傳感器的數(shù)據(jù)產(chǎn)生幾秒之后就失去意義了。美國(guó)國(guó)家海洋和大氣管理局的超級(jí)計(jì)算機(jī)能夠在日本地震后9分鐘計(jì)算出海嘯的可能性,但9分鐘的延遲對(duì)于瞬間被海浪吞噬的生命來(lái)說(shuō)還是太長(zhǎng)了。

越來(lái)越多的數(shù)據(jù)挖掘趨于前端化,即提前感知預(yù)測(cè)并直接提供服務(wù)對(duì)象所需要的個(gè)性化服務(wù)。例如,對(duì)絕大多數(shù)商品來(lái)說(shuō),找到顧客“觸點(diǎn)”的最佳時(shí)機(jī)并非在結(jié)賬以后,而是在顧客還提著籃子逛街時(shí)。電子商務(wù)網(wǎng)站從點(diǎn)擊流、瀏覽歷史和行為(如放入購(gòu)物車)中實(shí)時(shí)發(fā)現(xiàn)顧客的即時(shí)購(gòu)買意圖和興趣,并據(jù)此推送商品,這就是“快”的價(jià)值。

真實(shí)性

在以上3項(xiàng)特征的基礎(chǔ)上,IBM歸納總結(jié)了大數(shù)據(jù)的第四個(gè)特征—真實(shí)性。數(shù)據(jù)的重要性就在于對(duì)決策的支持。數(shù)據(jù)的規(guī)模并不能決定其能否為決策提供幫助,數(shù)據(jù)的真實(shí)性和質(zhì)量才是獲得真知和思路最重要的因素,是制定成功決策最堅(jiān)實(shí)的基礎(chǔ)。

追求高數(shù)據(jù)質(zhì)量是一項(xiàng)重要的大數(shù)據(jù)要求和挑戰(zhàn)。即使最優(yōu)秀的數(shù)據(jù)清理方法也無(wú)法消除某些數(shù)據(jù)固有的不可預(yù)測(cè)性,例如,人的感情和誠(chéng)實(shí)性、天氣形勢(shì)、經(jīng)濟(jì)因素以及未來(lái)。在處理這些類型的數(shù)據(jù)時(shí),數(shù)據(jù)清理無(wú)法修正這種不確定性。然而,盡管存在不確定性,數(shù)據(jù)仍然包含寶貴的信息。我們必須承認(rèn)、接受大數(shù)據(jù)的不確定性,并確定如何充分利用這一點(diǎn),例如,采取數(shù)據(jù)融合,即通過(guò)結(jié)合多個(gè)可靠性較低的來(lái)源創(chuàng)建更準(zhǔn)確、更有用的數(shù)據(jù)點(diǎn),或者通過(guò)魯棒優(yōu)化技術(shù)和模糊邏輯方法等先進(jìn)的數(shù)學(xué)方法。

業(yè)界還有人把大數(shù)據(jù)的基本特征從4V擴(kuò)展到了11V,包括價(jià)值密度低(Value)、可視化(Visualization)、有效性(Validity)等。例如,價(jià)值密度低是指隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無(wú)處不在,信息海量,但在連續(xù)不間斷的視頻監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅一兩秒。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”,是大數(shù)據(jù)時(shí)代亟待解決的難題。

國(guó)際數(shù)據(jù)公司報(bào)告里有一句話,概括出了大數(shù)據(jù)基本特征之間的關(guān)系:大數(shù)據(jù)技術(shù)通過(guò)使用高速的采集、發(fā)現(xiàn)或分析,從超大容量的多樣數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值。

除了上述主流的定義,還有人使用3S 或者3I 描述大數(shù)據(jù)的特征。3S指的是:大?。⊿ize)、速度(Speed)和結(jié)構(gòu)(Structure)。3I指的是:(1)定義不明確的(Ill-de.ned):多個(gè)主流的大數(shù)據(jù)定義都強(qiáng)調(diào)了數(shù)據(jù)規(guī)模需要超過(guò)傳統(tǒng)方法處理數(shù)據(jù)的規(guī)模,而隨著技術(shù)的進(jìn)步,數(shù)據(jù)分析的效率不斷提高,符合大數(shù)據(jù)定義的數(shù)據(jù)規(guī)模也會(huì)相應(yīng)不斷變大,因而并沒(méi)有一個(gè)明確的標(biāo)準(zhǔn);(2)令人生畏的(Intimidating):從管理大數(shù)據(jù)到使用正確的工具獲取它的價(jià)值,利用大數(shù)據(jù)的過(guò)程中充滿了各種挑戰(zhàn);(3)即時(shí)的(Immediate):數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間快速衰減。因此為了保證大數(shù)據(jù)的可控性,需要縮短數(shù)據(jù)搜集到獲得數(shù)據(jù)洞察之間的時(shí)間,使得大數(shù)據(jù)成為真正的即時(shí)大數(shù)據(jù)。這意味著能盡快地分析數(shù)據(jù)對(duì)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)至關(guān)重要。由于相關(guān)表述都異曲同工,在此不做詳細(xì)介紹。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)