正文

05 統(tǒng)計學(xué)家的大數(shù)據(jù)“狂想曲”(3)

看穿一切數(shù)字的統(tǒng)計學(xué) 作者:(日)西內(nèi)啟


Hadoop

系統(tǒng) 對數(shù)據(jù)進(jìn)行分散處理的JAVA(一種程序語言)軟件工作模式,主要負(fù)責(zé)分散處理“最關(guān)鍵的部分”。最近,我們所聽說的大規(guī)模數(shù)據(jù)分散處理軟件大部分都是基于Hadoop系統(tǒng)運行的。

AWS平臺 亞馬遜開發(fā)的數(shù)據(jù)庫和數(shù)據(jù)分析云計算服務(wù),也能夠?qū)?yīng)大數(shù)據(jù)的分散處理。

非結(jié)構(gòu)化

數(shù)據(jù) 以甲骨文為首的傳統(tǒng)數(shù)據(jù)庫(RDB)是以“構(gòu)造化的表”與“表之間的聯(lián)系”為基礎(chǔ)對數(shù)據(jù)進(jìn)行保存和檢索的。這種傳統(tǒng)的數(shù)據(jù)庫形式無法很好地進(jìn)行整理的數(shù)據(jù)被稱為非構(gòu)造化數(shù)據(jù)。

(續(xù))

NoSQL RDB的處理是使用結(jié)構(gòu)化查詢語言(SQL)記述的,使用其他不同方法保存數(shù)據(jù)進(jìn)行處理的方法就被稱為NoSQL。

KVS Key Value Store的簡稱。RDB是以既定的格式對表和表之間的聯(lián)系進(jìn)行處理,而KVS則是利用表中的值(Value)和值之間的聯(lián)系(Key)來對數(shù)據(jù)進(jìn)行處理。對包括非結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模數(shù)據(jù)進(jìn)行分散處理非常方便。

R語言 開源的統(tǒng)計分析用語言。全世界的專家們可以隨心所欲地制作分析方法并且將其公開的庫。那些買不起收費軟件的貧窮學(xué)者們都喜歡使用這個,最近忽然受到了大家的關(guān)注。似乎可以直接從Exadata系統(tǒng)、Greenplum系統(tǒng)甚至“統(tǒng)計產(chǎn)品與服務(wù)解決方案”軟件(SPSS)之中直接調(diào)用R語言庫。與“大數(shù)據(jù)”相關(guān)的商品和專業(yè)術(shù)語如表2–1所示。

通過高速化的數(shù)據(jù)處理,網(wǎng)站就算面對大量增加的用戶也能夠提供快捷的服務(wù),公司內(nèi)部系統(tǒng)也能夠在短時間內(nèi)收集指定的數(shù)據(jù)并且完成作業(yè)。由此應(yīng)該也會帶來人工費的節(jié)約與效率的提高。我們所聽到的“大數(shù)據(jù)技術(shù)的成功體驗”多數(shù)來自這些方面。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號