注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)深入大型數(shù)據(jù)集:并行與分布化Python代碼

深入大型數(shù)據(jù)集:并行與分布化Python代碼

深入大型數(shù)據(jù)集:并行與分布化Python代碼

定 價(jià):¥99.00

作 者: [美] J.T.Wolohan(J.T.沃勒翰) 著,張若飛 譯
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121403682 出版時(shí)間: 2021-01-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 320 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)共分3部分,主要介紹如何使用Python語(yǔ)言來(lái)處理大型數(shù)據(jù)集。第1部分介紹map和reduce編程風(fēng)格,以及Python中基礎(chǔ)的map和reduce函數(shù),并介紹如何將對(duì)象持久化,通過(guò)惰性函數(shù)和并行函數(shù)來(lái)加快大型數(shù)據(jù)集的處理速度。第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫(kù)來(lái)編寫(xiě)Hadoop作業(yè),如何實(shí)現(xiàn)PageRank算法,如何使用Spark來(lái)實(shí)現(xiàn)決策樹(shù)和隨機(jī)森林的機(jī)器學(xué)習(xí)模型。第3部分重點(diǎn)介紹云計(jì)算和云存儲(chǔ)的基礎(chǔ)知識(shí),包括如何通過(guò)boto3的Python庫(kù)將文件上傳到AWS S3服務(wù),以及如何在AWS的EMR集群中運(yùn)行分布式的Hadoop和Spark作業(yè)。本書(shū)適合有一定Python編程基礎(chǔ),且希望掌握大型數(shù)據(jù)集處理能力的開(kāi)發(fā)人員和數(shù)據(jù)科學(xué)家閱讀。

作者簡(jiǎn)介

  J.T. Wolohan是Booz Allen Hamilton公司的一名高級(jí)人工智能和自然語(yǔ)言處理架構(gòu)師。他教過(guò)各種層次的學(xué)生學(xué)習(xí)編程:從小學(xué)、初中學(xué)生到研究生、專業(yè)人士。除對(duì)分布式和并行計(jì)算感興趣之外,J.T.還喜歡跑步、烹飪和與家人共度時(shí)光。張若飛,曾任多家互聯(lián)網(wǎng)金融公司CTO,在宜人貸、雅虎北研、金山云等知名公司擔(dān)任架構(gòu)師。十余年互聯(lián)網(wǎng)研發(fā)及技術(shù)管理經(jīng)驗(yàn),對(duì)搭建海量數(shù)據(jù)、大型分布式系統(tǒng)有豐富經(jīng)驗(yàn)。著有十余本技術(shù)譯著,包括《Grails權(quán)威指南》《給大忙人看的JavaSE 8》《代碼不朽:編寫(xiě)可維護(hù)軟件的十大原則》《面向可伸縮架構(gòu)》《云原生Java》《云原生模式》等書(shū),總計(jì)400余萬(wàn)字。

圖書(shū)目錄

第1部分
第1章 入門(mén)介紹
1.1 你將從本書(shū)中學(xué)到什么
1.2 為什么是大型數(shù)據(jù)集
1.3 什么是并行計(jì)算
1.3.1 理解并行計(jì)算
1.3.2 擁有map和reduce編程風(fēng)格的可擴(kuò)展計(jì)算
1.3.3 何時(shí)應(yīng)該使用map和reduce編程風(fēng)格
1.4 map和reduce編程風(fēng)格
1.4.1 用來(lái)轉(zhuǎn)換數(shù)據(jù)的map函數(shù)
1.4.2 用于高級(jí)轉(zhuǎn)換的reduce函數(shù)
1.4.3 用于數(shù)據(jù)轉(zhuǎn)譯管道的map和reduce函數(shù)
1.5 可提升速度和可擴(kuò)展性的分布式計(jì)算
1.6 Hadoop:一個(gè)map和reduce的分布式框架
1.7 提供高性能map、reduce和其他功能的Spark
1.8 AWS Elastic MapReduce―云上的大型數(shù)據(jù)集
總結(jié)
第2章 加速大型數(shù)據(jù)集處理任務(wù):map函數(shù)和并行計(jì)算
2.1 map函數(shù)簡(jiǎn)介
2.1.1 通過(guò)map函數(shù)來(lái)獲取URL
2.1.2 惰性函數(shù)(比如map)對(duì)大型數(shù)據(jù)集的強(qiáng)大功能
2.2 并行處理
2.2.1 處理器和處理過(guò)程
2.2.2 并行化和序列化
2.2.3 順序和并行化
2.2.4 狀態(tài)和并行化
2.3 把它們拼在一起:抓取維基百科(Wikipedia)網(wǎng)站
2.3.1 可視化我們的圖
2.3.2 回到map函數(shù)
2.4 練習(xí)
2.4.1  并行化的問(wèn)題
2.4.2 map函數(shù)
2.4.3 并行化和速度
2.4.4 存儲(chǔ)序列化
2.4.5 Web抓取數(shù)據(jù)
2.4.6 異構(gòu)的map轉(zhuǎn)換
總結(jié)
第3章 用來(lái)映射復(fù)雜轉(zhuǎn)換的函數(shù)管道
3.1 輔助函數(shù)和函數(shù)鏈
3.2 揭露黑客的通信手段
3.2.1 創(chuàng)建輔助函數(shù)
3.2.2 創(chuàng)建一個(gè)管道
3.3 Twitter人口預(yù)測(cè)
3.3.1 推文級(jí)別的管道
3.3.2 用戶級(jí)別的管道
3.3.3 應(yīng)用管道
3.4 練習(xí)
3.4.1 輔助函數(shù)和函數(shù)管道
3.4.2 數(shù)學(xué)老師的“把戲”
3.4.3 愷撒密碼
總結(jié)
第4章 用惰性工作流來(lái)處理大型數(shù)據(jù)集
4.1 什么是惰性計(jì)算
4.2 一些你需要知道的惰性函數(shù)
4.2.1 用filter函數(shù)過(guò)濾序列
4.2.2 用zip函數(shù)合并序列
4.2.3 用iglob函數(shù)進(jìn)行惰性文件搜索
4.3 理解迭代器:Python惰性能力背后的魔法
4.3.1 惰性Python的支柱:迭代器
4.3.2 生成器:用來(lái)創(chuàng)建數(shù)據(jù)的函數(shù)
4.4 詩(shī)歌謎題:如何惰性處理大型數(shù)據(jù)集
4.4.1 生成這個(gè)示例的數(shù)據(jù)
4.4.2 用iglob函數(shù)來(lái)讀取詩(shī)的內(nèi)容
4.4.3 清理詩(shī)的正則表達(dá)式類(lèi)
4.4.4 計(jì)算詩(shī)歌內(nèi)容的比率
4.5 惰性模擬:模擬漁村場(chǎng)景
4.5.1 創(chuàng)建一個(gè)村莊類(lèi)
4.5.2 為我們的漁村場(chǎng)景設(shè)計(jì)一個(gè)模擬類(lèi)
4.6 練習(xí)
4.6.1 惰性函數(shù)
4.6.2 fizz buzz問(wèn)題生成器
4.6.3 重復(fù)訪問(wèn)
4.6.4 并行模擬
4.6.5 拼字游戲單詞
總結(jié)
第5章 使用reduce進(jìn)行累加操作
5.1 使用reduce函數(shù)進(jìn)行N-X的轉(zhuǎn)換
5.2 reduce函數(shù)的三個(gè)部分
5.2.1 reduce中的累加函數(shù)
5.2.2 使用lambda函數(shù)的簡(jiǎn)化累加
5.2.3 reduce函數(shù)中用于啟動(dòng)復(fù)雜行為的初始值
5.3 你熟悉的歸約函數(shù)
5.3.1 使用reduce函數(shù)來(lái)模擬filter函數(shù)
5.3.2 使用reduce函數(shù)來(lái)模擬frequencies函數(shù)
5.4 同時(shí)使用map函數(shù)和reduce函數(shù)
5.5 使用reduce來(lái)分析汽車(chē)銷(xiāo)售趨勢(shì)
5.5.1 使用map函數(shù)來(lái)清洗汽車(chē)數(shù)據(jù)
5.5.2 使用reduce來(lái)計(jì)算汽車(chē)銷(xiāo)售的總利潤(rùn)和總數(shù)量
5.5.3 對(duì)汽車(chē)數(shù)據(jù)應(yīng)用map和reduce模式
5.6 加速map和reduce
5.7 練習(xí)
5.7.1 需要使用reduce的情況
5.7.2 lambda函數(shù)
5.7.3 最大的數(shù)字
5.7.4 按長(zhǎng)度分組單詞
總結(jié)
第6章 使用高級(jí)并行化來(lái)加速map和reduce
6.1 充分利用并行map
6.1.1 分塊大小以及如何最大化地利用并行map
6.1.2 帶有可變序列和分塊大小的并行map運(yùn)行時(shí)
6.1.3 更多的并行map:imap和starmap函數(shù)
6.2 解決并行map和reduce的悖論
6.2.1 用來(lái)更快進(jìn)行歸約的并行reduce
6.2.2 組合函數(shù)以及并行reduce工作流
6.2.3 使用fold實(shí)現(xiàn)并行求和、filter和frequencies
總結(jié)
第2部分
第7章 使用Hadoop和Spark處理真正的大型數(shù)據(jù)集
7.1 分布式計(jì)算
7.2 用于批處理的Hadoop
7.3 使用Hadoop找到高分單詞
7.3.1 使用Python和Hadoop Streaming實(shí)現(xiàn)MapReduce作業(yè)
7.3.2 使用Hadoop Streaming對(duì)單詞進(jìn)行評(píng)分
7.4 用于交互式工作流的Spark
7.4.1 用Spark在內(nèi)存中處理大型數(shù)據(jù)集
7.4.2 結(jié)合Python和Spark的PySpark
7.4.3 使用Spark SQL進(jìn)行企業(yè)數(shù)據(jù)分析
7.4.4 用Spark DataFrame來(lái)處理列式數(shù)據(jù)
7.5 用Spark來(lái)記錄單詞得分
7.5.1 搭建Spark環(huán)境
7.5.2 通過(guò)spark-submit來(lái)運(yùn)行MapReduce Spark作業(yè)
7.6 練習(xí)
7.6.1 Hadoop Streaming腳本
7.6.2 Spark接口
7.6.3 RDD
7.6.4 在多個(gè)步驟之間傳遞數(shù)據(jù)
總結(jié)
第8章 使用Apache Streaming和mrjob處理大數(shù)據(jù)的最佳實(shí)踐
8.1 非結(jié)構(gòu)化數(shù)據(jù):日志和文檔
8.2 使用Hadoop對(duì)網(wǎng)球球員進(jìn)行分析
8.2.1 用來(lái)讀取比賽數(shù)據(jù)的mapper函數(shù)
8.2.2 計(jì)算網(wǎng)球選手等級(jí)的reducer函數(shù)
8.3 通過(guò)mrjob工具,以Python的方式來(lái)使用Hadoop Streaming
8.3.1 一個(gè)mrjob作業(yè)的Python結(jié)構(gòu)
8.3.2 使用mrjob統(tǒng)計(jì)錯(cuò)誤數(shù)量
8.4 使用mrjob來(lái)分析網(wǎng)球比賽
8.4.1 按場(chǎng)地類(lèi)型統(tǒng)計(jì)塞雷娜的戰(zhàn)績(jī)
8.4.2 統(tǒng)計(jì)威廉姆斯姐妹之間的長(zhǎng)期競(jìng)爭(zhēng)
8.5 練習(xí)
8.5.1 Hadoop的數(shù)據(jù)格式
8.5.2 更多的Hadoop數(shù)據(jù)格式
8.5.3 Hadoop的原生編程語(yǔ)言
8.5.4 在MRJob中設(shè)計(jì)通用的模式
總結(jié)
第9章 在PySpark中使用map和reduce來(lái)實(shí)現(xiàn)PageRank算法
9.1 近距離了解PySpark
9.1.1 PySpark中類(lèi)似于map函數(shù)的方法
9.1.2 PySpark中類(lèi)似于reduce函數(shù)的方法
9.1.3 PySpark中的簡(jiǎn)便方法
9.2 在PySpark中使用Elo和PageRank算法對(duì)網(wǎng)球選手進(jìn)行評(píng)分
9.2.1 使用PySpark重新實(shí)現(xiàn)Elo評(píng)分
9.2.2 介紹PageRank算法
9.2.3 用PageRank來(lái)計(jì)算網(wǎng)球選手的評(píng)分
9.3 練習(xí)
9.3.1 sumByKey
9.3.2 用toolz庫(kù)來(lái)實(shí)現(xiàn)sumByKey
9.3.3 Spark和toolz庫(kù)
9.3.4 維基百科的PageRank算法
總結(jié)
第10章 使用機(jī)器學(xué)習(xí)和PySpark進(jìn)行更快的決策
10.1 什么是機(jī)器學(xué)習(xí)
10.1.1 機(jī)器學(xué)習(xí)是一種可以自我調(diào)節(jié)的判斷型算法
10.1.2 機(jī)器學(xué)習(xí)的常見(jiàn)應(yīng)用程序
10.2 機(jī)器學(xué)習(xí)基礎(chǔ)與決策樹(shù)分類(lèi)器
10.2.1 設(shè)計(jì)決策樹(shù)分類(lèi)器
10.2.2 在PySpark中實(shí)現(xiàn)一個(gè)決策樹(shù)
10.3 PySpark中的快速隨機(jī)森林分類(lèi)
10.3.1 理解隨機(jī)森林分類(lèi)器
10.3.2 實(shí)現(xiàn)一個(gè)隨機(jī)森林分類(lèi)器
總結(jié)
第3部分
第11章 使用Amazon Web Services和S3在云計(jì)算環(huán)境中處理大型數(shù)據(jù)集
11.1 AWS Simple Storage Service―針對(duì)大型數(shù)據(jù)集的解決方案
11.1.1 用S3實(shí)現(xiàn)無(wú)限的存儲(chǔ)
11.1.2 云存儲(chǔ)的可擴(kuò)展性
11.1.3 方便的存儲(chǔ)異構(gòu)對(duì)象
11.1.4 用于管理大型數(shù)據(jù)集的管理服務(wù)
11.1.5 管理大型數(shù)據(jù)集的生命周期策略
11.2 使用S3在云中存儲(chǔ)數(shù)據(jù)
11.2.1 通過(guò)瀏覽器來(lái)存儲(chǔ)S3數(shù)據(jù)
11.2.2 使用Python和boto通過(guò)編程方式訪問(wèn)S3
11.3 練習(xí)
11.3.1 S3存儲(chǔ)類(lèi)型
11.3.2 S3存儲(chǔ)區(qū)域
11.3.3 對(duì)象存儲(chǔ)
總結(jié)
第12章 使用Amazon的Elastic MapReduce在云上實(shí)現(xiàn)MapReduce
12.1 在EMR上通過(guò)mrjob來(lái)運(yùn)行Hadoop
12.1.1 用EMR方便地創(chuàng)建云計(jì)算集群
12.1.2 使用mrjob啟動(dòng)EMR集群
12.1.3 AWS的EMR瀏覽器界面
12.2 在EMR上使用Spark來(lái)進(jìn)行機(jī)器學(xué)習(xí)
12.2.1 編寫(xiě)機(jī)器學(xué)習(xí)模型
12.2.2 為Spark搭建一個(gè)EMR集群
12.2.3 在集群中運(yùn)行PySpark作業(yè)
12.3 練習(xí)
12.3.1 R系列集群
12.3.2 相關(guān)聯(lián)的Hadoop工作
12.3.3 實(shí)例類(lèi)型
總結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)