注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動化技術(shù)、計(jì)算技術(shù)Spark快速數(shù)據(jù)處理

Spark快速數(shù)據(jù)處理

Spark快速數(shù)據(jù)處理

定 價(jià):¥29.00

作 者: (美)Holden Karau 著,余璜,張磊 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò)

ISBN: 9787111463115 出版時(shí)間: 2014-04-01 包裝: 平裝
開本: 16開 頁數(shù): 66 字?jǐn)?shù):  

內(nèi)容簡介

  Spark是一個(gè)開源的通用并行分布式計(jì)算框架,由加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室開發(fā),支持內(nèi)存計(jì)算、多迭代批量處理、即席查詢、流處理和圖計(jì)算等多種范式。Spark內(nèi)存計(jì)算框架適合各種迭代算法和交互式數(shù)據(jù)分析,能夠提升大數(shù)據(jù)處理的實(shí)時(shí)性和準(zhǔn)確性,現(xiàn)已逐漸獲得很多企業(yè)的支持,如阿里巴巴、百度、網(wǎng)易、英特爾等公司?!禨park快速數(shù)據(jù)處理》系統(tǒng)講解Spark的使用方法,包括如何在多種機(jī)器上安裝Spark,如何配置一個(gè)Spark集群,如何在交互模式下運(yùn)行第一個(gè)Spark作業(yè),如何在Spark集群上構(gòu)建一個(gè)生產(chǎn)級的脫機(jī)/獨(dú)立作業(yè),如何與Spark集群建立連接和使用SparkContext,如何創(chuàng)建和保存RDD(彈性分布式數(shù)據(jù)集),如何用Spark分布式處理數(shù)據(jù),如何設(shè)置Shark,將Hive查詢集成到你的Spark作業(yè)中來,如何測試Spark作業(yè),以及如何提升Spark任務(wù)的性能。

作者簡介

  Holden Karau,資深軟件開發(fā)工程師,現(xiàn)就職于Databricks公司,之前曾就職于谷歌、亞馬遜、微軟和Foursquare等著名公司。他對開源情有獨(dú)鐘,參與了許多開源項(xiàng)目,如Linux內(nèi)核無線驅(qū)動、Android程序監(jiān)控、搜索引擎等,對存儲系統(tǒng)、推薦系統(tǒng)、搜索分類等都有深入研究?!∽g者簡介余璜,阿里巴巴核心系統(tǒng)研發(fā)工程師,OceanBase核心開發(fā)人員,對分布式系統(tǒng)理論和工程實(shí)踐有深刻理解,專注于分布式系統(tǒng)設(shè)計(jì)、大規(guī)模數(shù)據(jù)處理,樂于分享,在CSDN上分享了大量技術(shù)文章。張磊,Spark愛好者,曾參與分布式OLAP數(shù)據(jù)庫系統(tǒng)核心開發(fā),熱衷于大數(shù)據(jù)處理、分布式計(jì)算。

圖書目錄

譯者序
作者簡介
前言
第1章 安裝Spark以及構(gòu)建Spark集群 / 1
1.1 單機(jī)運(yùn)行Spark / 4
1.2 在EC2上運(yùn)行Spark / 5
1.3 在ElasticMapReduce上部署Spark / 11
1.4 用Chef(opscode)部署Spark / 12
1.5 在Mesos上部署Spark / 14
1.6 在Yarn上部署Spark / 15
1.7 通過SSH部署集群 / 16
1.8 鏈接和參考 / 21
1.9 小結(jié) / 21
第2章 Spark shell的使用 / 23
2.1 加載一個(gè)簡單的text文件 / 24
2.2 用Spark shell運(yùn)行邏輯回歸 / 26
2.3 交互式地從S3加載數(shù)據(jù) / 28
2.4 小結(jié) / 30
第3章 構(gòu)建并運(yùn)行Spark應(yīng)用 / 31
3.1 用sbt構(gòu)建Spark作業(yè) / 32
3.2 用Maven構(gòu)建Spark作業(yè) / 36
3.3 用其他工具構(gòu)建Spark作業(yè) / 39
3.4 小結(jié) / 39
第4章 創(chuàng)建SparkContext / 41
4.1 Scala / 43
4.2 Java / 43
4.3 Java和Scala共享的API / 44
4.4 Python / 45
4.5 鏈接和參考 / 45
4.6 小結(jié) / 46
第5章 加載與保存數(shù)據(jù) / 47
5.1 RDD / 48
5.2 加載數(shù)據(jù)到RDD中 / 49
5.3 保存數(shù)據(jù) / 54
5.4 連接和參考 / 55
5.5 小結(jié) / 55
第6章 操作RDD / 57
6.1 用Scala和Java操作RDD / 58
6.2 用Python操作RDD / 79
6.3 鏈接和參考 / 83
6.4 小結(jié) / 84
第7章 Shark-Hive和Spark的綜合運(yùn)用 / 85
7.1 為什么用Hive/Shark / 86
7.2 安裝Shark / 86
7.3 運(yùn)行Shark / 88
7.4 加載數(shù)據(jù) / 88
7.5 在Spark程序中運(yùn)行HiveQL查詢 / 89
7.6 鏈接和參考 / 92
7.7 小結(jié) / 93
第8章 測試 / 95
8.1 用Java和Scala測試 / 96
8.2 用Python測試 / 103
8.3 鏈接和參考 / 104
8.4 小結(jié) / 105
第9章 技巧和竅門 / 107
9.1 日志位置 / 108
9.2 并發(fā)限制 / 108
9.3 內(nèi)存使用與垃圾回收 / 109
9.4 序列化 / 110
9.5 IDE集成環(huán)境 / 111
9.6 Spark與其他語言 / 112
9.7 安全提示 / 113
9.8 郵件列表 / 113
9.9 鏈接和參考 / 113
9.10 小結(jié) / 114

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號