注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書教育/教材/教輔教材研究生/本科/??平滩?/a>大數(shù)據(jù)原理及實踐

大數(shù)據(jù)原理及實踐

大數(shù)據(jù)原理及實踐

定 價:¥39.00

作 者: 張曉燕,王筱莉,李躍文,謝妍曦 主編
出版社: 上海財經(jīng)大學(xué)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787564239091 出版時間: 2023-03-01 包裝:
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《大數(shù)據(jù)原理及實踐》分為八章。首章介紹Hadoop生態(tài)系統(tǒng)及其發(fā)展歷程。大家可以通過此章內(nèi)容了解到Hadoop是一個開放的生態(tài)系統(tǒng),里面有很多項目組成,包括數(shù)據(jù)采集類的項目、數(shù)據(jù)處理類的項目和數(shù)據(jù)可視化類的項目等;第二章介紹Hadoop的核心組件,包括HDFS、MapReduce和Yarn,通過此章的學(xué)習(xí)。大家可以了解到Hadoop三大核心組件的基本組成及運行原理;第三章介紹Hadoop集群環(huán)境的搭建?!洞髷?shù)據(jù)原理及實踐》選用Cloudera版本(Cloudera's Distribution Including Apache Hadoop,CDH)作為集群安裝,在介紹集群安裝之前普及一些Linux常用的命令,為安裝做技術(shù)鋪墊;第四章主要介紹Hadoop生態(tài)系統(tǒng)中非常常用、非常實用又簡單易用的Hive組件,介紹其原理及安裝方法;第五章主要介紹Hive的使用,了解Hive中DDL和DML語法知識(通過前面五章的學(xué)習(xí)。大家可以獨立搭建Hadoop集群,并上傳文件到HDFS中,并且利用MapReduce或者Hive對數(shù)據(jù)文件進行統(tǒng)計分析);第六章進入Hadoop生態(tài)系統(tǒng)中內(nèi)存計算的學(xué)習(xí),選用Spark組件,著重介紹Spark的內(nèi)存計算的原理及運行模式;第七章介紹Spark的編程及SparkSQL的使用。通過這兩部分的學(xué)習(xí),大家可以完成Spark的安裝部署,了解Spark的適用場合,學(xué)會Spark編程和SparkSQL對數(shù)據(jù)進行分析;第八章為SparkMLLib的內(nèi)容。通過這一章的學(xué)習(xí),大家可以利用SparkMLLib完成較復(fù)雜的一些數(shù)據(jù)分析,例如分類、聚類和關(guān)聯(lián)分析等。通過《大數(shù)據(jù)原理及實踐》的學(xué)習(xí),大家可以從零基礎(chǔ)開始了解大數(shù)據(jù)平臺,能夠完成利用相關(guān)組件進行簡單或復(fù)雜的數(shù)據(jù)分析的任務(wù)。

作者簡介

暫缺《大數(shù)據(jù)原理及實踐》作者簡介

圖書目錄

第1章 Hadoop生態(tài)系統(tǒng)簡介/001

1.1 大數(shù)據(jù)發(fā)展/001

1.2 Hadoop平臺介紹/006

1.3 相關(guān)的公司/009

1.4 Hadoop生態(tài)系統(tǒng)/011

第2章 Hadoop核心組件及其基本原理/014

2.1 HDFS基本原理/014

2.2 MapReduce分布式計算框架/022

2.3 Yarn介紹/029

第3章 Hadoop環(huán)境搭建/033

3.1 Linux基礎(chǔ)/033

3.2 Linux的文件系統(tǒng)結(jié)構(gòu)/036

3.3 文件類型/038

3.4 Linux基本操作命令/039

3.5 Linux下常用的工具軟件/047

3.6 Hadoop環(huán)境搭建/051

第4章 Hive基本原理及安裝部署/063

4.1 Hive基本原理/063

4.2 Hive的數(shù)據(jù)存儲/064

4.3 Hive的安裝部署/066

第5章 Hive的基本操作/070

5.1 Hive的DDL(data define language)操作/070

5.2 Hive的DML(data managed language)操作/076

5.3 Hive shell 參數(shù)/093

第6章 Spark基礎(chǔ)知識/095

6.1 Spark原理/095

6.2 Spark架構(gòu)及生態(tài)/098

6.3 Spark運行流程及特點/100

6.4 Spark運行模式/108

第7章 Spark RDD編程/114

7.1 RDD設(shè)計與運行原理/114

7.2 RDD基本操作/122

7.3 Spark SQL簡介/132

第8章 基于MLLIB機器學(xué)習(xí)/140

8.1 概述/140

8.2 Spark分類和預(yù)測/142

8.3 決策樹算法/145

8.4 樸素貝葉斯算法/152

8.5 回歸分析與預(yù)測技術(shù)/157

8.6 聚類分析/167

大數(shù)據(jù)原理及實踐

8.7 k-means聚類算法簡介/172

8.8 DBSCAN聚類算法簡介/179

8.9 關(guān)聯(lián)規(guī)則分析簡介/185

8.10 Apriori算法和FP Tree算法簡介/188

參考文獻/200


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號