數(shù)據(jù)分析實(shí)用技術(shù)：阿里云大數(shù)據(jù)分析師ACP認(rèn)證培訓(xùn)教程

定　價(jià)：￥55.00

作　者：	趙強(qiáng) 著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787121419232	出版時(shí)間：	2021-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	264	字?jǐn)?shù)：

內(nèi)容簡介

　　本書關(guān)注大數(shù)據(jù)分析師所需掌握的最重要的基礎(chǔ)能力。首先，本書闡述了大數(shù)據(jù)分析師的職業(yè)特點(diǎn)。其次，根據(jù)數(shù)據(jù)分析經(jīng)常涉及的技術(shù)要求，按順序介紹了什么是數(shù)據(jù)庫，如何使用數(shù)據(jù)庫，大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)庫Hadoop、阿里云MaxCompute，以及相對應(yīng)的數(shù)據(jù)庫查詢語言SQL、MapReduce、Hive、Pig等基本的編程技術(shù)。為了提高數(shù)據(jù)分析工作的質(zhì)量與效率，本書還詳細(xì)介紹了數(shù)據(jù)項(xiàng)目質(zhì)量控制的理論和實(shí)踐，其中涉及了數(shù)據(jù)預(yù)處理、數(shù)據(jù)脫敏和臟數(shù)據(jù)處理的技能知識，同時(shí)介紹了在數(shù)據(jù)項(xiàng)目中SQL編程的優(yōu)秀實(shí)踐方法。作為一本介紹數(shù)據(jù)分析的入門書籍，本書詳細(xì)介紹了數(shù)據(jù)分析中常見的方法（如EDA），包括指標(biāo)計(jì)算的一些常見形式。在企業(yè)環(huán)境中，數(shù)據(jù)分析常常以項(xiàng)目的形式出現(xiàn)，本書也向讀者介紹了數(shù)據(jù)分析項(xiàng)目是如何承接、分解和實(shí)施的。最后，本書還向讀者介紹了常用的數(shù)據(jù)挖掘技術(shù)，如決策樹、聚類分析和關(guān)聯(lián)分析，讓讀者對算法在數(shù)據(jù)分析中的應(yīng)用有直觀的了解。本書可作為阿里云大數(shù)據(jù)分析師ACP認(rèn)證培訓(xùn)的教材，也可作為高校大數(shù)據(jù)相關(guān)專業(yè)的學(xué)生教材，還可供希望從事大數(shù)據(jù)分析工作的讀者閱讀參考。

作者簡介

　　趙強(qiáng)，杭州決明數(shù)據(jù)科技有限公司負(fù)責(zé)人，從事大數(shù)據(jù)應(yīng)用與教育近20年，現(xiàn)為加拿大約克大學(xué)舒立克商學(xué)院MBA特聘教授，阿里云大學(xué)特聘專家教授。曾服務(wù)于世界500強(qiáng)企業(yè)中的零售、銀行、電信企業(yè)和全球性的管理咨詢公司，參與了眾多國際企業(yè)營銷和數(shù)據(jù)戰(zhàn)略規(guī)劃的制定和決策。對云計(jì)算與大數(shù)據(jù)應(yīng)用結(jié)合有深刻體會，了解企業(yè)的需求，能夠幫助企業(yè)制定優(yōu)化的云計(jì)算大數(shù)據(jù)應(yīng)用方案，樂于交流，愿意分享，在培訓(xùn)教育行業(yè)有一定知名度。

圖書目錄

目錄
第1章大數(shù)據(jù)分析領(lǐng)域職業(yè)介紹
1．1 職業(yè)路徑
1．1．1 大數(shù)據(jù)職業(yè)生態(tài)
1．1．2 大數(shù)據(jù)工程師職業(yè)方向
1．1．3 大數(shù)據(jù)分析師職業(yè)方向
1．1．4 大數(shù)據(jù)工作入門
1．2 技能要求
1．2．1 基本職業(yè)素養(yǎng)
1．2．2 從數(shù)據(jù)中挖掘金礦
1．2．3 大數(shù)據(jù)工程師的技能要求
1．2．4 大數(shù)據(jù)分析師的技能要求
1．3 工作情況
1．3．1 典型的工作狀態(tài)
1．3．2 大數(shù)據(jù)職業(yè)的現(xiàn)狀
1．4 職業(yè)前景
1．4．1 大數(shù)據(jù)職業(yè)的發(fā)展
1．4．2 大數(shù)據(jù)的未來
1．4．3 大數(shù)據(jù)職業(yè)的規(guī)劃
第2章初識大數(shù)據(jù)
2．1 大數(shù)據(jù)的基礎(chǔ)知識
2．1．1 什么是大數(shù)據(jù)
2．1．2 大數(shù)據(jù)為什么重要
2．1．3 大數(shù)據(jù)的維度
2．2 大數(shù)據(jù)的類型
2．2．1 結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)
2．2．2 幾個(gè)大數(shù)據(jù)的例子
2．3 大數(shù)據(jù)的行業(yè)應(yīng)用
2．4 企業(yè)面臨的大數(shù)據(jù)挑戰(zhàn)類型
2．4．1 大數(shù)據(jù)從何而來
2．4．2 企業(yè)如何獲取大數(shù)據(jù)
2．4．3 大數(shù)據(jù)的存儲問題
2．4．4 大數(shù)據(jù)對分析人才的要求
2．4．5 大數(shù)據(jù)帶來的挑戰(zhàn)類型
第3章數(shù)據(jù)庫基礎(chǔ)
3．1 數(shù)據(jù)庫簡介
3．1．1 數(shù)據(jù)管理技術(shù)發(fā)展史
3．1．2 數(shù)據(jù)庫的應(yīng)用
3．1．3 數(shù)據(jù)庫系統(tǒng)概述
3．2 關(guān)系型數(shù)據(jù)庫
3．2．1 數(shù)據(jù)模型概述
3．2．2 關(guān)系數(shù)據(jù)模型
3．2．3 E-R數(shù)據(jù)模型
3．2．4 關(guān)系型數(shù)據(jù)庫的設(shè)計(jì)原則
3．3 數(shù)據(jù)倉庫
3．3．1 數(shù)據(jù)倉庫的歷史
3．3．2 數(shù)據(jù)倉庫系統(tǒng)的組成
3．3．3 ETL
3．3．4 數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫的關(guān)系
3．4 Hadoop與分布式數(shù)據(jù)存儲
3．4．1 大數(shù)據(jù)對存儲技術(shù)的挑戰(zhàn)和Hadoop的起源
3．4．2 Hadoop生態(tài)圈及系統(tǒng)架構(gòu)
3．4．3 Hadoop應(yīng)用場景
3．4．4 Hadoop局限性
3．5 阿里云MaxCompute
3．5．1 MaxCompute簡介
3．5．2 MaxCompute的基本概念
3．5．3 MaxCompute數(shù)據(jù)的導(dǎo)入導(dǎo)出
3．5．4 MaxCompute SQL
3．5．5 函數(shù)
3．5．6 MaxCompute MapReduce
3．5．7 MaxCompute權(quán)限與安全
3．6 常用Linux指令簡介
3．6．1 安裝和登錄指令
3．6．2 文件處理指令
3．6．3 系統(tǒng)管理相關(guān)指令
3．6．4 網(wǎng)絡(luò)操作指令
3．6．5 系統(tǒng)安全相關(guān)指令
3．6．6 其他指令
第4章數(shù)據(jù)分析工具與語言
4．1 SQL基礎(chǔ)
4．1．1 SQL簡介
4．1．2 MySQL數(shù)據(jù)類型
4．1．3 數(shù)據(jù)定義語言
4．1．4 數(shù)據(jù)操作語言
4．1．5 join
4．1．6 數(shù)據(jù)表的合并、交集
4．1．7 SQL實(shí)用函數(shù)
4．2 MapReduce
4．2．1 MapReduce Job
4．2．2 MapReduce主程序
4．2．3 MapReduce主程序運(yùn)行詳解
4．2．4 MapReduce數(shù)據(jù)流與控制流詳解
4．2．5 MapReduce小結(jié)
4．3 Hive
4．4 Pig
4．5 HDFS
4．5．1 HDFS的相關(guān)概念
4．5．2 HDFS的基本操作
4．5．3 HDFS常用的Java API介紹
第5章數(shù)據(jù)可視化
5．1 數(shù)據(jù)可視化概念
5．1．1 數(shù)據(jù)可視化的定義與原則
5．1．2 數(shù)據(jù)可視化的設(shè)計(jì)思路
5．2 數(shù)據(jù)可視化元素
5．2．1 表格
5．2．2 柱狀圖
5．2．3 折線圖
5．2．4 餅圖
5．2．5 地圖
5．2．6 散點(diǎn)圖
5．2．7 其他常見圖
5．3 數(shù)據(jù)可視化設(shè)計(jì)原則
5．4 DataV設(shè)計(jì)
5．5 BI報(bào)表設(shè)計(jì)
第6章數(shù)據(jù)項(xiàng)目質(zhì)量控制
6．1 數(shù)據(jù)質(zhì)量控制理論
6．1．1 數(shù)據(jù)質(zhì)量的五個(gè)維度
6．1．2 臟數(shù)據(jù)類型
6．2 評估數(shù)據(jù)的質(zhì)量及其對項(xiàng)目的影響
6．2．1 數(shù)據(jù)如何創(chuàng)造價(jià)值――DIK
6．2．2 數(shù)據(jù)質(zhì)量問題對企業(yè)創(chuàng)造價(jià)值的影響
6．3 數(shù)據(jù)預(yù)處理
6．3．1 數(shù)據(jù)預(yù)處理的五大步驟
6．3．2 數(shù)據(jù)清洗場景
6．3．3 臟數(shù)據(jù)清洗過程
6．3．4 臟數(shù)據(jù)與臟數(shù)據(jù)清洗的基本方法
6．3．5 臟數(shù)據(jù)處理的案例
6．3．6 SQL處理臟數(shù)據(jù)示例
6．4 數(shù)據(jù)脫敏
6．4．1 確定數(shù)據(jù)脫敏對象
6．4．2 隱私數(shù)據(jù)泄露類型
6．4．3 隱私數(shù)據(jù)脫敏的要求
6．4．4 常見的數(shù)據(jù)脫敏算法
6．5 數(shù)據(jù)項(xiàng)目質(zhì)量控制的類型
第7章數(shù)據(jù)編程基礎(chǔ)
7．1 面向分析的數(shù)據(jù)編程范例
7．1．1 數(shù)據(jù)項(xiàng)目的特點(diǎn)
7．1．2 數(shù)據(jù)項(xiàng)目編程的流程
7．1．3 面向分析的數(shù)據(jù)編程范例
7．2 編程效率和程序運(yùn)行效率
7．2．1 編程效率
7．2．2 程序運(yùn)行效率
7．3 編程質(zhì)量控制流程
第8章數(shù)據(jù)項(xiàng)目設(shè)計(jì)與執(zhí)行
8．1 數(shù)據(jù)分析項(xiàng)目計(jì)劃管理流程
8．2 數(shù)據(jù)項(xiàng)目設(shè)計(jì)方法
8．2．1 項(xiàng)目目標(biāo)
8．2．2 背景調(diào)查
8．2．3 分析范圍
8．2．4 分析結(jié)果交付形式
8．3 數(shù)據(jù)分析項(xiàng)目的分類
8．4 項(xiàng)目前分析和項(xiàng)目績效考評
第9章數(shù)據(jù)分析技術(shù)
9．1 指標(biāo)體系
9．1．1 績效指標(biāo)(KPI)的定義
9．1．2 企業(yè)構(gòu)建指標(biāo)體系
9．1．3 平衡計(jì)分卡常見指標(biāo)
9．2 數(shù)據(jù)分析
9．2．1 數(shù)據(jù)分析的定義
9．2．2 數(shù)據(jù)分析的目的
9．2．3 數(shù)據(jù)分析的作用
9．3 探索性數(shù)據(jù)分析(EDA)
9．3．1 EDA簡介
9．3．2 單一變量探索性分析
9．3．3 多變量探索性分析
9．4 探索性數(shù)據(jù)分析應(yīng)用案例
9．4．1 情況介紹
9．4．2 數(shù)據(jù)介紹
9．4．3 EDA探索分析遵循銀行政策情況
9．4．4 EDA探索分析懶惰的銀行客戶代表
9．4．5 EDA探索分析銀行客戶代表是否執(zhí)行了有效的溝通
9．5 EDA中的指標(biāo)變換形式
9．5．1 總量指標(biāo)
9．5．2 相對指標(biāo)
第10章常用數(shù)據(jù)挖掘技術(shù)
10．1 決策樹
10．1．1 決策樹概述
10．1．2 信息熵
10．1．3 ID3算法
10．1．4 C4．5算法
10．1．5 CART算法
10．2 聚類分析
10．2．1 聚類概述
10．2．2 樣本間距離
10．2．3 K-means聚類
10．2．4 群體距離
10．2．5 層次聚類
10．2．6 聚類算法的評估
10．3 關(guān)聯(lián)分析
10．3．1 關(guān)聯(lián)規(guī)則量化指標(biāo)
10．3．2 Apriori算法