譯者序
前言
第1章 緒論 1
1.1 引言 1
1.2 數據科學的歷史 2
1.3 現代商業(yè)中數據科學的重要性 3
1.4 數據科學家 5
1.5 三維數據科學活動 6
1.5.1 管理數據流 7
1.5.2 處理數據管理 8
1.5.3 數據分析 11
1.6 數據科學與其他領域交叉 11
1.7 數據分析思維 13
1.8 應用領域 13
1.8.1 資源的可持續(xù)發(fā)展 13
1.8.2 利用社交平臺進行各種活動 14
1.8.3 智能Web應用 14
1.8.4 Google自動統計員項目 15
1.9 應用計算智能管理數據科學活動 15
1.10 商業(yè)中的數據科學場景 17
1.11 有助于數據科學的工具和技術 17
1.11.1 數據清洗工具 18
1.11.2 數據管理和建模工具 19
1.11.3 數據可視化工具 20
1.12 練習 21
參考文獻 22
第2章 數據分析 23
2.1 引言 23
2.2 跨行業(yè)標準過程 24
2.3 數據分析生命周期 25
2.4 數據科學項目生命周期 27
2.5 數據分析的復雜性 28
2.6 從數據到洞察力 30
2.7 構建分析能力:銀行案例 31
2.8 數據質量 32
2.9 數據準備過程 33
2.10 溝通分析結果 34
2.10.1 溝通分析結果的策略 34
2.10.2 數據可視化 35
2.10.3 可視化技術 36
2.11 練習 37
參考文獻 37
第3章 基本學習算法 38
3.1 從數據中學習 38
3.2 監(jiān)督學習 40
3.2.1 線性回歸 40
3.2.2 決策樹 41
3.2.3 隨機森林 46
3.2.4 k-近鄰算法 47
3.2.5 邏輯回歸 49
3.2.6 模型組合器 50
3.2.7 樸素貝葉斯 53
3.2.8 貝葉斯信念網絡 54
3.2.9 支持向量機 56
3.3 無監(jiān)督學習 57
3.3.1 Apriori 算法 58
3.3.2 k-means算法 60
3.3.3 用于數據壓縮的降維 62
3.4 強化學習 62
3.5 案例研究:使用機器學習進行市場營銷活動 65
3.6 練習 66
參考文獻 67
第4章 模糊邏輯 68
4.1 引言 68
4.2 模糊隸屬函數 70
4.2.1 三角形隸屬函數 71
4.2.2 梯形隸屬函數 71
4.2.3 高斯隸屬函數 71
4.2.4 sigmoid隸屬函數 72
4.3 隸屬值分配方法 72
4.4 模糊化與解模糊化方法 73
4.5 模糊集合操作 73
4.5.1 模糊集合的并集 74
4.5.2 模糊集合的交集 74
4.5.3 模糊集合的補集 74
4.6 模糊集合性質 76
4.7 模糊關系 76
4.8 模糊命題 79
4.8.1 模糊連接詞 79
4.8.2 析取 79
4.8.3 合取 80
4.8.4 否定 80
4.8.5 蘊含 80
4.9 模糊推理 80
4.10 基于模糊規(guī)則的系統 81
4.11 數據科學的模糊邏輯 82
4.11.1 應用1:Web內容挖掘 83
4.11.2 應用2:Web結構挖掘 84
4.11.3 應用3:Web使用挖掘 85
4.11.4 應用4:環(huán)境和社交數據處理 86
4.12 用模糊邏輯進行數據科學活動的工具和技術 87
4.13 練習 88
參考文獻 88
第5章 人工神經網絡 89
5.1 引言 89
5.2 符號學習方法 90
5.3 人工神經網絡及其特點 91
5.4 ANN模型 93
5.4.1 Hopfield模型 93
5.4.2 感知器模型 94
5.4.3 多層感知器 96
5.4.4 多層感知器的深度學習 98
5.4.5 其他ANN模型 100
5.4.6 線性回歸與神經網絡 101
5.5 ANN工具和程序 102
5.6 社交網絡平臺上的情感挖掘 103
5.6.1 情感挖掘相關工作 103
5.6.2 廣泛架構 104
5.6.3 神經網絡設計 104
5.7 應用與挑戰(zhàn) 106
5.8 關注點 107
5.9 練習 108
參考文獻 109
第6章 遺傳算法與進化計算 111
6.1 引言 111
6.2 遺傳算法 112
6.3 遺傳算法的基本原理 114
6.3.1 個體編碼 114
6.3.2 變異 114
6.3.3 交叉 115
6.3.4 適應度函數 116
6.3.5 選擇 116
6.3.6 其他編碼策略 117
6.4 利用遺傳算法進行函數優(yōu)化的實例 118
6.5 模式與模式定理 120
6.5.1 實例、定義位和模式順序 120
6.5.2 模式的重要性 121
6.6 基于特殊應用的遺傳算子 121
6.7 進化編程 123
6.8 遺傳算法在醫(yī)療保健中的應用 124
6.8.1 醫(yī)療保健案例 124
6.8.2 基于遺傳算法的病人調度系統 125
6.8.3 編碼候選者 127
6.8.4 種群上的操作 127
6.8.5 其他應用 128
6.9 練習 130
參考文獻 131
第7章 其他元啟發(fā)式和分類方法 132
7.1 引言 132
7.2 自適應記憶過程 132
7.2.1 禁忌搜索 133
7.2.2 分散搜索 134
7.2.3 路徑重連 136
7.3 群體智能 136
7.3.1 蟻群優(yōu)化 137
7.3.2 人工蜂群算法 138
7.3.3 河流形成動力學 139
7.3.4 粒子群優(yōu)化 139
7.3.5 隨機擴散搜索 141
7.3.6 群體智能與大數據 142
7.4 案例推理 142
7.4.1 案例推理中的學習 144
7.4.2 案例推理與數據科學 145
7.4.3 處理復雜的領域 146
7.5 粗糙集 146
7.6 練習 148
參考文獻 148
第8章 分析和大數據 149
8.1 引言 149
8.2 傳統分析與大數據分析 150
8.3 大規(guī)模并行處理 152
8.3.1 MapReduce 152
8.3.2 與RDBMS的比較 154
8.3.3 共享存儲的并行編程 155
8.3.4 Apache Hadoop 生態(tài)系統 155
8.3.5 Hadoop分布式文件系統 157
8.4 NoSQL