注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件大數(shù)據(jù)猩球:海量數(shù)據(jù)處理實踐指南

大數(shù)據(jù)猩球:海量數(shù)據(jù)處理實踐指南

大數(shù)據(jù)猩球:海量數(shù)據(jù)處理實踐指南

定 價:¥69.00

作 者: (美)Philip Kromer(菲利普·克羅默),Russell Jurney(拉塞爾·賈米)
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 數(shù)據(jù)庫 數(shù)據(jù)庫理論

ISBN: 9787121294181 出版時間: 2016-08-01 包裝: 平塑
開本: 頁數(shù): 212 字數(shù):  

內(nèi)容簡介

  本書以實用的、可操作的視角解釋了大數(shù)據(jù)——采用黑猩猩和大象的隱喻,基于棒球統(tǒng)計數(shù)據(jù)集,使用Apache Hadoop和Pig等工具展示了如何處理大規(guī)模數(shù)據(jù)。此外,通過處理真實數(shù)據(jù)、解決現(xiàn)實問題,作者還以實例的形式總結了一些實踐分析模式,為有創(chuàng)造力的分析人員提供了最強大、最有價值的方法。本書特別適合那些需要大數(shù)據(jù)工具箱來解決實際問題的人們。

作者簡介

  唐李洋,女,博士,中國電子科技集團公司第三十八研究所,工程師,目前從事公共安全等領域相關的大數(shù)據(jù)分析與數(shù)據(jù)挖掘工作。譯有《高可用MySQL》(第1和第2版)、《R語言高性能編程》等書。 Philip Kromer是云大數(shù)據(jù)平臺領先者Infochimps的創(chuàng)始人和CTO,以及Vigilante的聯(lián)合創(chuàng)始人。他的其中一個項目WuKong,是Hadoop Ruby流處理最常使用的框架之一。Russell Jurney是全球經(jīng)濟市場地圖創(chuàng)業(yè)公司Relato的創(chuàng)始人和CEO。他曾任LinkedIn產(chǎn)品分析數(shù)據(jù)科學家,還是一個Hadoop傳道士。

圖書目錄

前言 ..................................................................................................XI 第一部分 入門 :理論和工具 第 1 章 Hadoop 基礎 ........................................................................3 黑猩猩和大象創(chuàng)業(yè) .................................................................................................................4 Map-Only 作業(yè) :逐個處理記錄 ...........................................................................................5 Pig Latin Map-Only 作業(yè)........................................................................................................6 創(chuàng)建 Docker Hadoop 集群 ......................................................................................................8 運行作業(yè) .......................................................................................................................12 小結 .......................................................................................................................................15 第 2 章 MapReduce........................................................................17 黑猩猩和大象拯救圣誕節(jié) ...................................................................................................17 玩具島上的麻煩 ...........................................................................................................17 黑猩猩把信件變成帶標簽的玩具表 ...........................................................................19 小象將玩具表送到適當?shù)墓ぷ髋_ .......................................................................................21 示例 :馴鹿游戲 ...................................................................................................................23 UFO 數(shù)據(jù) ......................................................................................................................24 根據(jù)報道延遲對 UFO 目擊分組 .................................................................................24 Mapper ..........................................................................................................................24 Reducer .........................................................................................................................26 數(shù)據(jù)可視化 ...................................................................................................................29 馴鹿小結 .......................................................................................................................30 Hadoop 與傳統(tǒng)數(shù)據(jù)庫 .........................................................................................................30 MapReduce 俳句 ...................................................................................................................31 Map 階段簡述 ..............................................................................................................32 Group-Sort 階段簡述 ...................................................................................................32 Reduce 階段簡述 ..........................................................................................................32 小結 .......................................................................................................................................33 第 3 章 棒球數(shù)據(jù)集速覽 ..................................................................35 數(shù)據(jù) .......................................................................................................................................35 縮略詞和術語 .......................................................................................................................36 規(guī)則和目標 ...........................................................................................................................37 評價指標 ...............................................................................................................................37 小結 .......................................................................................................................................38 第 4 章 Pig 入門 ..............................................................................39 Pig 幫助 Hadoop 處理數(shù)據(jù)表,而不是記錄 ......................................................................39 維基百科訪問數(shù)統(tǒng)計 ...................................................................................................41 基本數(shù)據(jù)操作 .......................................................................................................................43 控制操作 .......................................................................................................................44 管道操作 .......................................................................................................................44 結構化操作 ...................................................................................................................44 LOAD 定位并描述你的數(shù)據(jù) ...............................................................................................46 簡單類型 .......................................................................................................................46 復雜類型 1,元組 :帶類型字段的固長序列 ............................................................47 復雜類型 2,袋 :元組的無限集合 ............................................................................47 定義變換后的記錄模式 ...............................................................................................48 STORE 將數(shù)據(jù)寫入磁盤 .....................................................................................................49 輔助命令 ...............................................................................................................................50 DESCRIBE ...................................................................................................................50 DUMP ...........................................................................................................................50 SAMPLE .......................................................................................................................50 ILLUSTRATE ...............................................................................................................51 EXPLAIN......................................................................................................................51 Pig 函數(shù) .................................................................................................................................51 Piggybank ..............................................................................................................................53 Apache DataFu ......................................................................................................................56 小結 .......................................................................................................................................59 第二部分 戰(zhàn)術 :分析模式 第 5 章 Map-Only 操作 ...................................................................63 模式用法 .......................................................................................................................63 清除數(shù)據(jù) ...............................................................................................................................64 選擇滿足條件的記錄 :FILTER 等 .....................................................................................65 選擇滿足多個條件的記錄 ...........................................................................................66 選擇或丟棄空值記錄 ...................................................................................................66 選擇匹配正則表達式的記錄(MATCHES) ..............................................................67 根據(jù)固定的值列表匹配記錄 .......................................................................................70 按字段名投影字段 ...............................................................................................................71 使用 FOREACH 選擇、重命名和重排序字段 ..........................................................71 抽取記錄的隨機樣本 ...................................................................................................73 按 key 抽取一致性樣本 ...............................................................................................74 僅加載部分 part-Files 實現(xiàn)粗略抽樣 .........................................................................75 使用 LIMIT 選擇固定數(shù)量的記錄..............................................................................75 其他數(shù)據(jù)消除模式 .......................................................................................................76 變換記錄 ...............................................................................................................................76 使用 FOREACH 逐個變換記錄 ..................................................................................76 嵌套 FOREACH 允許使用中間表達式 ......................................................................77 根據(jù)模版格式化字符串 ...............................................................................................79 使用復雜類型組裝字面值 ...........................................................................................80 操縱字段的類型 ...........................................................................................................84 整型、浮點型和取整 ...................................................................................................86 從外部包調(diào)用用戶自定義函數(shù) ...................................................................................87 將一個表分裂成多個表的操作 ...........................................................................................88 將數(shù)據(jù)條件定向到多個數(shù)據(jù)流 (SPLIT) ....................................................................88 將幾個表聯(lián)合成一個表的操作 ...........................................................................................89 將多個 Pig 關系表合并成一個表(堆砌行集) .........................................................89 小結 .......................................................................................................................................91 第 6 章 分組操作 .............................................................................93 按 key 將記錄分組到袋 .......................................................................................................93 模式用法 .......................................................................................................................97 統(tǒng)計 key 的出現(xiàn)次數(shù) ...................................................................................................97 使用帶分隔符的字符串表示值的集合 .......................................................................99 使用帶分隔符的字符串表示復雜數(shù)據(jù)結構 .............................................................101 使用 JSON 編碼的字符串表示復雜數(shù)據(jù)結構 .........................................................102 分組和聚合 .........................................................................................................................106 聚合組的統(tǒng)計數(shù)據(jù) .....................................................................................................106 完全匯總字段 .............................................................................................................108 匯總整個表的聚合統(tǒng)計值 .........................................................................................110 匯總字符串字段 ......................................................................................................... 111 使用直方圖計算數(shù)值型值的分布情況 .............................................................................113 模式用法 .....................................................................................................................114 直方圖的數(shù)據(jù)分箱 .....................................................................................................114 確定箱子的大小 .........................................................................................................116 解釋直方圖和分位數(shù) .................................................................................................118 將數(shù)據(jù)分箱到規(guī)模呈指數(shù)變化的塊 .........................................................................119 為通用代碼段創(chuàng)建 Pig 宏 .........................................................................................121 比賽分布情況 .............................................................................................................121 極端情況和干擾因子 .................................................................................................122 不要相信尾部分布 .....................................................................................................125 計算相對分布直方圖 .................................................................................................126 重新注入全局值 .........................................................................................................127 在組內(nèi)計算直方圖 .....................................................................................................128 導出可讀結果 .............................................................................................................130 匯總技巧 .............................................................................................................................132 統(tǒng)計組的條件子集——匯總技巧 .............................................................................132 同時匯總組的多個子集 .............................................................................................134 測試組內(nèi)某個值是否缺失 .........................................................................................136 小結 .....................................................................................................................................137 參考文獻 .............................................................................................................................138 第 7 章 表連接 ..............................................................................139 匹配表記錄(內(nèi)連接) ......................................................................................................140 將一個表的記錄與另一個表的記錄直接匹配連接(直接內(nèi)連接) .......................140 連接是怎么工作的 .............................................................................................................142 連接就是 COGROUP+FLATTEN .............................................................................142 連接就是在表名上進行二次排序的 MapReduce 作業(yè) ...........................................143 處理連接和分組中的空值和不匹配 .........................................................................145 枚舉多對多關系 .................................................................................................................147 連接表和它自己(自連接) ...............................................................................................148 包含不匹配記錄的連接(外連接) ...................................................................................150 模式用法 .....................................................................................................................152 連接不含外鍵關系的表 .............................................................................................153 連接整型表填補列表中的空白 .................................................................................155 僅選擇與另一個表不匹配的記錄(反連接) ...................................................................157 僅選擇與另一個表匹配的記錄(半連接) .......................................................................158 反連接的另一種方式 :使用 COGROUP .................................................................158 小結 .....................................................................................................................................160 第 8 章 排序操作 ...........................................................................161 準備職業(yè)生涯時期 .............................................................................................................161 對所有記錄進行全排序 .....................................................................................................163 多字段排序 .................................................................................................................164 表達式排序(行不通) ...............................................................................................164 大小寫不敏感的字符串排序 .....................................................................................165 排序的空值處理 .........................................................................................................165 將值放到排序順序的頂部或底端 .............................................................................166 組內(nèi)排序 .............................................................................................................................167 模式用法 .....................................................................................................................169 根據(jù)字段值的 Top-K 選擇行 ....................................................................................169 組內(nèi) Top-K .................................................................................................................170 按照排序順序給記錄編號 .................................................................................................170 找出最大值對應的記錄 .............................................................................................171 對一組記錄進行混排 .................................................................................................171 小結 .....................................................................................................................................172 第 9 章 重復記錄和唯一記錄 .........................................................173 處理重復 .............................................................................................................................173 消除表中的重復記錄 .................................................................................................174 消除組內(nèi)的重復記錄 .................................................................................................174 基于鍵消除重復 .........................................................................................................175 基于鍵選擇唯一(或重復)記錄 .............................................................................176 集合操作 .............................................................................................................................177 全表上的集合操作 .....................................................................................................178 Distinct Union .............................................................................................................179 Distinct Union(其他方法) .......................................................................................179 Set Intersection ............................................................................................................179 Set Difference .............................................................................................................180 Symmetric Difference :(A-B)+(B-A) ........................................................................180 Set Equality .................................................................................................................181 組內(nèi)集合操作 .............................................................................................................182 構造一個集合序列 .....................................................................................................182 某個組內(nèi)的集合操作 .................................................................................................183 小結 .....................................................................................................................................185 索引 ................................................................................................187

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號