表2–1 專業(yè)術語簡單介紹
數(shù)據(jù)挖掘 從已經存在的大量數(shù)據(jù)中找出有價值的信息和假設的方法,被稱為數(shù)據(jù)挖掘。這種方法在擁有一定準確度的前提下更加重視速度,通過重復比較簡單的計算過程就能夠實現(xiàn),所以應用比較廣泛。最常見的例子是對超市的POS(銷售終端)數(shù)據(jù)進行數(shù)據(jù)挖掘,結果顯示同時購買尿片與啤酒的概率出人意料得高。
文本挖掘 對文字進行數(shù)據(jù)分析的方法。將語言學的方法延展,使其也能夠應用于商務活動。通過被稱為語素分析(將文章拆分成單詞)的過程,對出現(xiàn)過的某些單詞,以及單詞之間的關聯(lián)性進行分析。
Exadata
系統(tǒng) 常年以來,一直占據(jù)數(shù)據(jù)庫業(yè)界老大地位的甲骨文公司經過巨額收購后終于完成的大數(shù)據(jù)相關主力商品。在軟件和硬件兩方面都能夠最快地分散數(shù)據(jù)進行高速處理。性能和價格都很高。
Greenplum系統(tǒng) Exadata系統(tǒng)的競爭對手。充分地利用了開源技術,比Exadata系統(tǒng)便宜很多,同時也能夠對龐大的數(shù)據(jù)進行高速處理。
分散處理 對于難以處理的龐大數(shù)據(jù),如果分散到100臺服務器上分別處理,最后將結果統(tǒng)計一下就能夠得到比單一處理高100倍的效率。由于數(shù)據(jù)的構造和計算程序算法的不同,想要實現(xiàn)“完美分散后統(tǒng)計結果”所消耗的時間也不同,這是這種方法最大的難點所在。
內存
數(shù)據(jù)庫 為了提高數(shù)據(jù)讀寫的速度,將數(shù)據(jù)記錄在內存(RAM)上的方法。當然,如果切斷電源數(shù)據(jù)就會消失,所以為了彌補這一缺陷嘗試使用SSD(固態(tài)硬盤)和RAM相結合的方法。