注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件數(shù)據(jù)清洗

數(shù)據(jù)清洗

數(shù)據(jù)清洗

定 價(jià):¥58.00

作 者: 劉鵬,張燕,李法平,陳瀟瀟 著
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材
標(biāo) 簽: 暫缺

ISBN: 9787302493273 出版時(shí)間: 2018-06-01 包裝: 平裝
開本: 16 頁(yè)數(shù): 238 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  數(shù)據(jù)清洗是大數(shù)據(jù)領(lǐng)域不可缺少的環(huán)節(jié),用來(lái)發(fā)現(xiàn)并糾正數(shù)據(jù)中可能存在的錯(cuò)誤,針對(duì)數(shù)據(jù)審查過(guò)程中發(fā)現(xiàn)的錯(cuò)誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)方法進(jìn)行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù)。 本書共分為8章:第1章主要介紹數(shù)據(jù)清洗的概念、任務(wù)和流程,數(shù)據(jù)標(biāo)準(zhǔn)化概念及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)等;第2章主要介紹Windows和類UNIX操作系統(tǒng)下的數(shù)據(jù)常規(guī)格式、數(shù)據(jù)編碼及數(shù)據(jù)類型轉(zhuǎn)換等;第3章介紹ETL概念、數(shù)據(jù)清洗的技術(shù)路線、ETL工具及ETL子系統(tǒng)等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數(shù)據(jù)抽取、數(shù)據(jù)庫(kù)數(shù)據(jù)抽取及增量數(shù)據(jù)抽取等;第6章介紹數(shù)據(jù)清洗步驟、數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)錯(cuò)誤處理、數(shù)據(jù)質(zhì)量評(píng)估及數(shù)據(jù)加載;第7章介紹網(wǎng)頁(yè)結(jié)構(gòu),利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集,利用JavaScript技術(shù)進(jìn)行行為日志數(shù)據(jù)采集等;第8章介紹RDBMS的數(shù)據(jù)清洗方法和數(shù)據(jù)脫敏處理技術(shù)等。 本書系統(tǒng)地講解了數(shù)據(jù)清洗理論和實(shí)際應(yīng)用,適用于高職高專院校和應(yīng)用型本科的大數(shù)據(jù)課程教學(xué),也適用于希望了解數(shù)據(jù)清洗的廣大讀者。

作者簡(jiǎn)介

  李法平- 副教授/系統(tǒng)分析師,碩士,重慶電子工程職業(yè)學(xué)院軟件學(xué)院移動(dòng)應(yīng)用開發(fā)教研室主任,主要從事高職軟件類專業(yè)教學(xué)研究、教育信息化系統(tǒng)和企業(yè)信息化系統(tǒng)等應(yīng)用技術(shù)研究。

圖書目錄

第1章 數(shù)據(jù)清洗概述 1
1.1 數(shù)據(jù)清洗簡(jiǎn)介 1
1.1.1 數(shù)據(jù)科學(xué)過(guò)程 1
1.1.2 數(shù)據(jù)清洗定義 2
1.1.3 數(shù)據(jù)清洗任務(wù) 3
1.1.4 數(shù)據(jù)清洗流程 4
1.1.5 數(shù)據(jù)清洗環(huán)境 5
1.1.6 數(shù)據(jù)清洗實(shí)例說(shuō)明 6
1.2 數(shù)據(jù)標(biāo)準(zhǔn)化 7
1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化概念 7
1.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化常用方法 8
1.3 數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 9
1.3.1 數(shù)據(jù)倉(cāng)庫(kù)定義 9
1.3.2 數(shù)據(jù)倉(cāng)庫(kù)組成要素 10
1.3.3 數(shù)據(jù)倉(cāng)庫(kù)分類 11
1.3.4 數(shù)據(jù)倉(cāng)庫(kù)相關(guān)技術(shù) 12
1.3.5 常用工具簡(jiǎn)介 13
1.4 習(xí)題 14
第2章 數(shù)據(jù)格式與編碼 16
2.1 文件文本格式 16
2.1.1 常見文本格式 17
2.1.2 xls及xlsx文件格式 18
2.1.3 JSON文本格式 19
2.1.4 HTML和XML文本格式 19
2.2 數(shù)據(jù)編碼 20
2.2.1 數(shù)據(jù)類型 21
2.2.2 數(shù)據(jù)類型間轉(zhuǎn)換 25
2.2.3 字符編碼 26
2.2.4 空值和亂碼 28
2.3 數(shù)據(jù)轉(zhuǎn)換 28
2.3.1 電子表格轉(zhuǎn)換 29
2.3.2 RDBMS數(shù)據(jù)轉(zhuǎn)換 30
2.4 習(xí)題 30
第3章 基本技術(shù)方法 31
3.1 ETL入門 31
3.1.1 ETL解決方案 31
3.1.2 ETL基本構(gòu)成 33
3.1.3 ETL技術(shù)選型 35
3.2 技術(shù)路線 35
3.2.1 文本清洗路線 35
3.2.2 RDBMS清洗路線 36
3.2.3 Web內(nèi)容清洗路線 36
3.3 ETL工具 37
3.3.1 ETL功能 37
3.3.2 開源ETL工具 38
3.4 ETL子系統(tǒng) 39
3.4.1 抽取 39
3.4.2 清洗和更正數(shù)據(jù) 39
3.4.3 數(shù)據(jù)發(fā)布 40
3.4.4 管理ETL 41
3.5 習(xí)題 41
第4章 數(shù)據(jù)清洗常用工具及基本操作 42
4.1 Microsoft Excel數(shù)據(jù)清洗基本操作 42
4.1.1 Excel數(shù)據(jù)清洗概述 42
4.1.2 Excel數(shù)據(jù)清洗 53
4.2 Kettle簡(jiǎn)介及基本操作 57
4.2.1 Kettle軟件概述 57
4.2.2 Kettle基本操作 60
4.2.3 Kettle數(shù)據(jù)清洗實(shí)例操作 64
4.3 OpenRefine簡(jiǎn)介及基本操作 68
4.3.1 OpenRefine軟件概述 69
4.3.2 OpenRefine基本操作 70
4.3.3 OpenRefine數(shù)據(jù)清洗實(shí)例操作 73
4.4 DataWrangler簡(jiǎn)介及基本操作 80
4.4.1 DataWrangler軟件概述 80
4.4.2 DataWrangler基本操作 81
4.4.3 DataWrangler數(shù)據(jù)清洗實(shí)例操作 82
4.5 Hawk簡(jiǎn)介及基本操作 86
4.5.1 Hawk軟件概述 86
4.5.2 Hawk基本操作 88
4.5.3 Hawk數(shù)據(jù)清洗實(shí)例操作 91
4.6 上機(jī)練習(xí)與實(shí)訓(xùn) 98
4.7 習(xí)題 103
第5章 數(shù)據(jù)抽取 104
5.1 文本文件抽取 104
5.1.1 制表符文本抽取 107
5.1.2 CSV文件抽取 111
5.2 Web數(shù)據(jù)抽取 114
5.2.1 HTML文件抽取 114
5.2.2 JSON數(shù)據(jù)抽取 116
5.2.3 XML數(shù)據(jù)抽取 120
5.3 數(shù)據(jù)庫(kù)數(shù)據(jù)抽取 123
5.3.1 數(shù)據(jù)導(dǎo)入導(dǎo)出 123
5.3.2 ETL工具抽取 124
5.3.3 SQL到NoSQL抽取 127
5.4 上機(jī)練習(xí)與實(shí)訓(xùn) 135
5.5 習(xí)題 143
第6章 數(shù)據(jù)轉(zhuǎn)換與加載 144
6.1 數(shù)據(jù)清洗轉(zhuǎn)換 144
6.1.1 數(shù)據(jù)清洗 145
6.1.2 數(shù)據(jù)檢驗(yàn) 151
6.1.3 錯(cuò)誤處理 156
6.2 數(shù)據(jù)質(zhì)量評(píng)估 161
6.2.1 數(shù)據(jù)評(píng)估指標(biāo) 161
6.2.2 審計(jì)數(shù)據(jù) 163
6.3 數(shù)據(jù)加載 164
6.3.1 數(shù)據(jù)加載的概念 164
6.3.2 數(shù)據(jù)加載的方式 164
6.3.3 批量數(shù)據(jù)加載 165
6.3.4 數(shù)據(jù)加載異常處理 165
6.4 上機(jī)練習(xí)與實(shí)訓(xùn) 166
6.5 習(xí)題 173
第7章 采集Web數(shù)據(jù)實(shí)例 175
7.1 網(wǎng)頁(yè)結(jié)構(gòu) 175
7.1.1 DOM模型 175
7.1.2 正則表達(dá)式 178
7.2 網(wǎng)絡(luò)爬蟲 181
7.2.1 網(wǎng)絡(luò)爬蟲簡(jiǎn)介 181
7.2.2 網(wǎng)絡(luò)爬蟲異常處理 189
7.3 行為日志采集 190
7.3.1 用戶實(shí)時(shí)行為數(shù)據(jù)采集 190
7.3.2 用戶實(shí)時(shí)行為數(shù)據(jù)分析 193
7.4 上機(jī)練習(xí)與實(shí)訓(xùn) 195
7.5 習(xí)題 198
第8章 清洗RDBMS數(shù)據(jù)實(shí)例 199
8.1 準(zhǔn)備工作 199
8.1.1 準(zhǔn)備待清洗的數(shù)據(jù)集 200
8.1.2 搭建操作環(huán)境 200
8.1.3 數(shù)據(jù)導(dǎo)入MySQL 201
8.2 數(shù)據(jù)庫(kù)數(shù)據(jù)清洗 205
8.2.1 缺失值清洗 205
8.2.2 格式內(nèi)容清洗 209
8.2.3 邏輯錯(cuò)誤清洗 214
8.2.4 非需求數(shù)據(jù)清洗 217
8.3 數(shù)據(jù)脫敏處理 218
8.4 習(xí)題 222
參考文獻(xiàn) 223
附錄A 大數(shù)據(jù)和人工智能實(shí)驗(yàn)環(huán)境 224
附錄B Hadoop環(huán)境要求 234
附錄C 名詞解釋 236

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)