注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論

數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論

數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論

定 價(jià):¥59.00

作 者: [美] 凱西·斯特拉 著,唐金川 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 數(shù)據(jù)科學(xué)與工程技術(shù)叢書(shū)
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787111600343 出版時(shí)間: 2018-06-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 175 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)概要介紹了如何使用Hadoop和Spark處理數(shù)據(jù)科學(xué)涉及的一系列主題:數(shù)據(jù)提取、數(shù)據(jù)再加工(datamunging,通常包含數(shù)據(jù)清洗和整合)、特征提取、機(jī)器學(xué)習(xí)、預(yù)測(cè)建模、異常檢測(cè)和自然語(yǔ)言處理。整書(shū)側(cè)重于具體的例子,并通過(guò)不同方式來(lái)提供對(duì)商業(yè)價(jià)值的洞察,全書(shū)共分三部分,第 一部分包括第1、2、3章,第二部分包括第4、5、6章,第三部分包括第7、8、9、10、11、12章,后在附錄中提供了本書(shū)參考材料。

作者簡(jiǎn)介

  Ofer Mendelevitch是Lendup公司的數(shù)據(jù)科學(xué)副總裁,領(lǐng)導(dǎo)著Lendup的機(jī)器學(xué)習(xí)和高級(jí)分析小組。之前,Ofer是Hortonworks的數(shù)據(jù)科學(xué)總監(jiān),負(fù)責(zé)幫助Hortonwork的客戶使用Hadoop和Spark將數(shù)據(jù)科學(xué)應(yīng)用于醫(yī)療保健、金融、零售和其他行業(yè)。Casey Stella是Hortonworks的首席數(shù)據(jù)科學(xué)家,領(lǐng)導(dǎo)著正在孵化開(kāi)源Apache Metron這個(gè)網(wǎng)絡(luò)安全項(xiàng)目的分析和數(shù)據(jù)科學(xué)團(tuán)隊(duì)。之前,Casey是Explorys這家醫(yī)學(xué)信息學(xué)公司的架構(gòu)師。

圖書(shū)目錄

目  錄
譯者序

前言
致謝
關(guān)于作者
第一部分 Hadoop中的數(shù)據(jù)科學(xué)概覽
第1章 數(shù)據(jù)科學(xué)概述2
1.1 數(shù)據(jù)科學(xué)究竟是什么2
1.2 示例:搜索廣告3
1.3 數(shù)據(jù)科學(xué)史一瞥4
1.3.1 統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)4
1.3.2 互聯(lián)網(wǎng)巨頭的創(chuàng)新5
1.3.3 現(xiàn)代企業(yè)中的數(shù)據(jù)科學(xué)6
1.4 數(shù)據(jù)科學(xué)家的成長(zhǎng)之路6
1.4.1 數(shù)據(jù)工程師7
1.4.2 應(yīng)用科學(xué)家7
1.4.3 過(guò)渡到數(shù)據(jù)科學(xué)家角色8
1.4.4 數(shù)據(jù)科學(xué)家的軟技能9
1.5 數(shù)據(jù)科學(xué)團(tuán)隊(duì)的組建10
1.6 數(shù)據(jù)科學(xué)項(xiàng)目的生命周期11
1.6.1 問(wèn)正確的問(wèn)題11
1.6.2 數(shù)據(jù)攝取12
1.6.3 數(shù)據(jù)清洗:注重?cái)?shù)據(jù)質(zhì)量12
1.6.4 探索數(shù)據(jù)和設(shè)計(jì)模型特征13
1.6.5 構(gòu)建和調(diào)整模型13
1.6.6 部署到生產(chǎn)環(huán)境14
1.7 數(shù)據(jù)科學(xué)項(xiàng)目的管理14
1.8 小結(jié)15
第2章 數(shù)據(jù)科學(xué)用例16
2.1 大數(shù)據(jù)—變革的驅(qū)動(dòng)力16
2.1.1 容量:更多可用數(shù)據(jù)17
2.1.2 多樣性:更多數(shù)據(jù)類型17
2.1.3 速度:快速數(shù)據(jù)攝取18
2.2 商業(yè)用例18
2.2.1 產(chǎn)品推薦18
2.2.2 客戶流失分析19
2.2.3 客戶細(xì)分19
2.2.4 銷售線索的優(yōu)先級(jí)20
2.2.5 情感分析20
2.2.6 欺詐檢測(cè)21
2.2.7 預(yù)測(cè)維護(hù)22
2.2.8 購(gòu)物籃分析22
2.2.9 預(yù)測(cè)醫(yī)學(xué)診斷23
2.2.10 預(yù)測(cè)患者再入院23
2.2.11 檢測(cè)異常訪問(wèn)24
2.2.12 保險(xiǎn)風(fēng)險(xiǎn)分析24
2.2.13 預(yù)測(cè)油氣井生產(chǎn)水平24
2.3 小結(jié)25
第3章 Hadoop與數(shù)據(jù)科學(xué)26
3.1 Hadoop 究竟為何物26
3.1.1 分布式文件系統(tǒng)27
3.1.2 資源管理器和調(diào)度程序28
3.1.3 分布式數(shù)據(jù)處理框架29
3.2 Hadoop的演進(jìn)歷史31
3.3 數(shù)據(jù)科學(xué)的Hadoop工具32
3.3.1 Apache Sqoop33
3.3.2 Apache Flume33
3.3.3 Apache Hive34
3.3.4 Apache Pig35
3.3.5 Apache Spark36
3.3.6 R37
3.3.7 Python38
3.3.8 Java機(jī)器學(xué)習(xí)軟件包39
3.4 Hadoop為何對(duì)數(shù)據(jù)科學(xué)家有用39
3.4.1 成本有效的存儲(chǔ)39
3.4.2 讀取模式40
3.4.3 非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)40
3.4.4 多語(yǔ)言工具41
3.4.5 強(qiáng)大的調(diào)度和資源管理功能41
3.4.6 分布式系統(tǒng)抽象分層42
3.4.7 可擴(kuò)展的模型創(chuàng)建42
3.4.8 模型的可擴(kuò)展應(yīng)用43
3.5 小結(jié)43
第二部分 用Hadoop準(zhǔn)備和可視化數(shù)據(jù)
第4章 將數(shù)據(jù)導(dǎo)入Hadoop46
4.1 Hadoop數(shù)據(jù)湖46
4.2 Hadoop分布式文件系統(tǒng)47
4.3 直接傳輸文件到 HDFS48
4.4 將數(shù)據(jù)從文件導(dǎo)入Hive表49
4.5 使用Spark將數(shù)據(jù)導(dǎo)入Hive表52
4.5.1 使用Spark將CSV文件導(dǎo)入Hive52
4.5.2 使用Spark將JSON文件導(dǎo)入Hive54
4.6 使用Apache Sqoop獲取關(guān)系數(shù)據(jù)55
4.6.1 使用Sqoop導(dǎo)入和導(dǎo)出數(shù)據(jù)55
4.6.2 Apache Sqoop版本更改56
4.6.3 使用Sqoop版本2:基本示例57
4.7 使用Apache Flume獲取數(shù)據(jù)流63
4.8 使用Apache Oozie管理Hadoop工作和數(shù)據(jù)流67
4.9 Apache Falcon68
4.10 數(shù)據(jù)攝取的下一步是什么69
4.11 小結(jié)70
第5章 使用 Hadoop 進(jìn)行數(shù)據(jù)再加工 71
5.1 為什么選擇Hadoop做數(shù)據(jù)再加工72
5.2 數(shù)據(jù)質(zhì)量72
5.2.1 什么是數(shù)據(jù)質(zhì)量72
5.2.2 處理數(shù)據(jù)質(zhì)量問(wèn)題73
5.2.3 使用Hadoop進(jìn)行數(shù)據(jù)質(zhì)量控制76
5.3 特征矩陣78
5.3.1 選擇“正確”的特征78
5.3.2 抽樣:選擇實(shí)例79
5.3.3 生成特征80
5.3.4 文本特征81
5.3.5 時(shí)間序列特征84
5.3.6 來(lái)自復(fù)雜數(shù)據(jù)類型的特征84
5.3.7 特征操作85
5.3.8 降維86
5.4 小結(jié)88
第6章 探索和可視化數(shù)據(jù)89
6.1 為什么要可視化數(shù)據(jù)89
6.1.1 示例:可視化網(wǎng)絡(luò)吞吐量89
6.1.2 想象未曾發(fā)生的突破92
6.2 創(chuàng)建可視化93
6.2.1 對(duì)比圖94
6.2.2 組成圖96
6.2.3 分布圖98
6.2.4 關(guān)系圖99
6.3 針對(duì)數(shù)據(jù)科學(xué)使用可視化101
6.4 流行的可視化工具101
6.4.1 R101
6.4.2 Python:Matplotlib、Seaborn和其他102
6.4.3 SAS102
6.4.4 Matlab103
6.4.5 Julia103
6.4.6 其他可視化工具103
6.5 使用Hadoop可視化大數(shù)據(jù)103
6.6 小結(jié)104
第三部分 使用Hadoop進(jìn)行數(shù)據(jù)建模
第7章 Hadoop與機(jī)器學(xué)習(xí)106
7.1 機(jī)器學(xué)習(xí)概述106
7.2 術(shù)語(yǔ)107
7.3 機(jī)器學(xué)習(xí)中的任務(wù)類型107
7.4 大數(shù)據(jù)和機(jī)器學(xué)習(xí)108
7.5 機(jī)器學(xué)習(xí)工具109
7.6 機(jī)器學(xué)習(xí)和人工智能的未來(lái)110
7.7 小結(jié)110
第8章 預(yù)測(cè)建模111
8.1 預(yù)測(cè)建模概述111
8.2 分類與回歸112
8.3 評(píng)估預(yù)測(cè)模型113
8.3.1 評(píng)估分類器114
8.3.2 評(píng)估回歸模型116
8.3.3 交叉驗(yàn)證117
8.4 有監(jiān)督學(xué)習(xí)算法117
8.5 構(gòu)建大數(shù)據(jù)預(yù)測(cè)模型的解決方案118
8.5.1 模型訓(xùn)練118
8.5.2 批量預(yù)測(cè)120
8.5.3 實(shí)時(shí)預(yù)測(cè)120
8.6 示例:情感分析121
8.6.1 推文數(shù)據(jù)集121
8.6.2 數(shù)據(jù)準(zhǔn)備122
8.6.3 特征生成122
8.6.4 建立一個(gè)分類器125
8.7 小結(jié)126
第9章 聚類127
9.1 聚類概述127
9.2 聚類的使用128
9.3 設(shè)計(jì)相似性度量128
9.3.1 距離函數(shù)129
9.3.2 相似函數(shù)129
9.4 聚類算法130
9.5 示例:聚類算法131
9.5.1 k均值聚類131
9.5.2 LDA131
9.6 評(píng)估聚類和選擇集群數(shù)量132
9.7 構(gòu)建大數(shù)據(jù)集群解決方案133
9.8 示例:使用LDA進(jìn)行主題建模134
9.8.1 特征生成135
9.8.2 運(yùn)行 LDA136
9.9 小結(jié)137

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)