注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)SQL數(shù)據(jù)分析

SQL數(shù)據(jù)分析

SQL數(shù)據(jù)分析

定 價(jià):¥128.00

作 者: [美]凱西·谷村(Cathy Tanimura)
出版社: 中國(guó)電力出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787519879518 出版時(shí)間: 2023-08-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書的主要內(nèi)容有:學(xué)習(xí)準(zhǔn)備分析數(shù)據(jù)的關(guān)鍵步驟。使用SQL的日期和時(shí)間操作進(jìn)行時(shí)間序列分析。使用同期群分析研究群體如何隨時(shí)間變化。使用SQL的強(qiáng)大功能和操作符進(jìn)行文本分析。檢測(cè)數(shù)據(jù)中的異常值,并用代替值替換它們。使用實(shí)驗(yàn)分析建立因果關(guān)系,也稱為A/B測(cè)試。

作者簡(jiǎn)介

  Cathy Tanimura有在不同行業(yè)領(lǐng)域超過(guò)20年的數(shù)據(jù)分析相關(guān)經(jīng)驗(yàn),從金融到B2B軟件再到客戶服務(wù)。Cathy帶著用數(shù)據(jù)將人們與企業(yè)更緊密地連接起來(lái)的信念和熱情,幫助多個(gè)頭部科技公司搭建了數(shù)據(jù)基礎(chǔ)架構(gòu)并管理數(shù)據(jù)團(tuán)隊(duì)。她對(duì)用SQL在主流的開(kāi)源數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)分析有著豐富的經(jīng)驗(yàn)。

圖書目錄

目錄
前言 .1
第1 章 用SQL 來(lái)做數(shù)據(jù)分析 7
1.1 什么是數(shù)據(jù)分析 . 7
1.2 為什么用SQL 10
1.2.1 SQL 是什么 10
1.2.2 SQL 的優(yōu)勢(shì) 13
1.2.3 SQL 與R 和Python 的對(duì)比 14
1.2.4 SQL 作為數(shù)據(jù)分析流程中的一部分 . 16
1.3 數(shù)據(jù)庫(kù)類型以及如何使用 19
1.3.1 行存儲(chǔ)數(shù)據(jù) 20
1.3.2 列存儲(chǔ)數(shù)據(jù) 22
1.3.3 其他的數(shù)據(jù)結(jié)構(gòu)類型 23
1.4 總結(jié) 25
第2 章 為數(shù)據(jù)分析做準(zhǔn)備 26
2.1 數(shù)據(jù)類型 27
2.1.1 數(shù)據(jù)庫(kù)的數(shù)據(jù)類型 . 27
2.1.2 結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù) 29
2.1.3 定量和定性數(shù)據(jù) . 30
2.1.4 第一方、第二方和第三方數(shù)據(jù) 31
2.1.5 稀疏數(shù)據(jù). 32
2.2 SQL 查詢結(jié)構(gòu) 33
2.3 數(shù)據(jù)剖析:分布 36
2.3.1 直方圖和頻率 37
2.3.2 分箱 40
2.3.3 n-Tiles 43
2.4 數(shù)據(jù)剖析:數(shù)據(jù)質(zhì)量 . 46
2.4.1 檢測(cè)重復(fù)數(shù)據(jù) 47
2.4.2 用GROUP BY 和DISTINCT 來(lái)處理重復(fù)數(shù)據(jù) 49
2.5 準(zhǔn)備:數(shù)據(jù)清理 50
2.5.1 通過(guò)CASE 轉(zhuǎn)換來(lái)清理數(shù)據(jù) 51
2.5.2 數(shù)據(jù)類型轉(zhuǎn)換 54
2.5.3 處理空值:coalesce, nulliff, nvl 函數(shù) 57
2.5.4 缺失的數(shù)據(jù) 61
2.6 準(zhǔn)備:數(shù)據(jù)構(gòu)形 66
2.6.1 你需要怎樣的輸出:BI,可視化,統(tǒng)計(jì),機(jī)器學(xué)習(xí) 67
2.6.2 用CASE 語(yǔ)句進(jìn)行數(shù)據(jù)透視 68
2.6.3 用UNION 語(yǔ)句來(lái)取消數(shù)據(jù)透視 70
2.6.4 pivot(透視)和unpivot(取消透視)函數(shù) 73
2.7 總結(jié) 75
第3 章 時(shí)間序列分析 .76
3.1 日期、日期時(shí)間和時(shí)間操作 77
3.1.1 時(shí)區(qū)轉(zhuǎn)換. 78
3.1.2 日期和時(shí)間戳的格式轉(zhuǎn)換 . 80
3.1.3 日期相關(guān)的計(jì)算 . 85
3.1.4 時(shí)間相關(guān)的計(jì)算 . 88
3.1.5 連接不同來(lái)源的數(shù)據(jù) 90
3.2 零售銷售數(shù)據(jù)集 91
3.3 對(duì)數(shù)據(jù)進(jìn)行趨勢(shì)分析 . 92
3.3.1 簡(jiǎn)單的趨勢(shì) 93
3.3.2 比較時(shí)間序列的組成部分 . 95
3.3.3 計(jì)算占總數(shù)的百分比 . 104
3.3.4 運(yùn)用索引以查看隨時(shí)間變化的百分比 108
3.4 滾動(dòng)時(shí)間窗口 . 113
3.4.1 計(jì)算滾動(dòng)時(shí)間窗口 115
3.4.2 稀疏數(shù)據(jù)的滾動(dòng)時(shí)間窗口 121
3.4.3 計(jì)算累計(jì)值 . 124
3.5 季節(jié)性分析 127
3.5.1 同期比較:YoY 和MoM . 129
3.5.2 同期比較:與去年的同月進(jìn)行對(duì)比 132
3.5.3 與多個(gè)以前的周期做對(duì)比 137
3.6 總結(jié) . 140
第 4 章 同期群分析 141
4.1 同期群:一種有用的分析框架 142
4.2 立法者數(shù)據(jù)集 . 145
4.3 留存 . 146
4.3.1 基本留存曲線的 SQL 148
4.3.2 調(diào)整時(shí)間序列以提高留存率的準(zhǔn)確性 152
4.3.3 從時(shí)間序列數(shù)據(jù)構(gòu)建同期群 158
4.3.4 從單獨(dú)的表構(gòu)建同期群 164
4.3.5 處理稀疏同期群 168
4.3.6 用除第一個(gè)日期以外的其他日期定義同期群 173
4.4 相關(guān)同期群分析 176
4.4.1 生存 177
4.4.2 返回或重復(fù)購(gòu)買行為 . 181
4.4.3 累積計(jì)算 187
4.5 透過(guò)同期群看橫斷面分析 . 191
4.6 總結(jié) . 200
第 5 章 文本分析 201
5.1 為什么使用 SQL 進(jìn)行文本分析 . 201
5.1.1 什么是文本分析 202
5.1.2 為什么 SQL 是文本分析的好選擇 202
5.1.3 什么情況下 SQL 不是一個(gè)好的選擇 . 204
5.2 UFO 目擊數(shù)據(jù)集 205
5.3 文本特征 206
5.4 解析文本 208
5.5 文本轉(zhuǎn)換 214
5.6 在較大的文本塊中查找元素 223
5.6.1 通配符匹配:LIKE,ILIKE 223
5.6.2 精確匹配:IN,NOT IN . 229
5.6.3 正則表達(dá)式 . 232
5.7 構(gòu)建與重塑文本 250
5.7.1 拼接 250
5.7.2 重塑文本 254
5.8 總結(jié) . 258
第6 章 異常檢測(cè) 259
6.1 SQL 異常檢測(cè)的能力和限制 260
6.2 數(shù)據(jù)集 261
6.3 檢測(cè)異常值 262
6.3.1 通過(guò)排序查找異常 263
6.3.2 通過(guò)計(jì)算百分比和標(biāo)準(zhǔn)偏差發(fā)現(xiàn)異常 266
6.3.3 通過(guò)作圖可視化查找異常 274
6.4 異常的形式 283
6.4.1 異常值 283
6.4.2 異常的計(jì)數(shù)或頻率 287
6.4.3 數(shù)據(jù)缺失引起的異常 . 292
6.5 處理異常 294
6.5.1 探查 294
6.5.2 刪除 295
6.5.3 替代值替換 . 297
6.5.4 縮放 299
6.6 總結(jié) . 301
第 7 章 實(shí)驗(yàn)分析 302
7.1 用 SQL 進(jìn)行實(shí)驗(yàn)分析的優(yōu)勢(shì)與局限性 . 303
7.2 數(shù)據(jù)集 305
7.3 實(shí)驗(yàn)的類型 307
7.3.1 二元結(jié)果實(shí)驗(yàn):卡方檢驗(yàn) 307
7.3.2 具有連續(xù)結(jié)果的實(shí)驗(yàn):t 檢驗(yàn) 310
7.4 實(shí)驗(yàn)的挑戰(zhàn)和拯救有缺陷的實(shí)驗(yàn)的方法 312
7.4.1 變體分配 312
7.4.2 異常值 314
7.4.3 時(shí)間盒 315
7.4.4 重復(fù)暴露實(shí)驗(yàn) 317
7.5 當(dāng)無(wú)法進(jìn)行控制實(shí)驗(yàn)時(shí):替代分析 . 318
7.5.1 前/ 后分析 319
7.5.2 自然實(shí)驗(yàn)分析 321
7.5.3 閾值附近的群體分析 . 322
7.6 總結(jié) . 323
第8 章 創(chuàng)建用于分析的復(fù)雜數(shù)據(jù)集 324
8.1 何時(shí)對(duì)復(fù)雜數(shù)據(jù)集使用 SQL 324
8.1.1 使用 SQL 的優(yōu)點(diǎn) . 325
8.1.2 什么時(shí)候構(gòu)建ETL . 326
8.1.3 何時(shí)將邏輯放入其他工具中 328
8.2 代碼組織 329
8.2.1 注釋 330
8.2.2 大寫,縮進(jìn),括號(hào)和其他格式技巧 331
8.2.3 存儲(chǔ)代碼 334
8.3 組織計(jì)算 335
8.3.1 理解SQL 子句的計(jì)算順序 . 335
8.3.2 子查詢 339
8.3.3 臨時(shí)表 341
8.3.4 公共表表達(dá)式 343
8.3.5 grouping sets 344
8.4 管理數(shù)據(jù)集大小和隱私問(wèn)題 349
8.4.1 使用 % 、mod 進(jìn)行抽樣 . 349
8.4.2 降低維數(shù) 351
8.4.3 PII 和數(shù)據(jù)隱私 . 355
8.5 總結(jié) . 357
第9 章 結(jié)論 358
9.1 漏斗分析 358
9.2 流失、中止和其他離開(kāi)的定義 360
9.3 購(gòu)物籃分析 365
9.4 資源 . 367
9.4.1 書籍和博客 . 368
9.4.2 數(shù)據(jù)集 369
9.5 最終的想法 370

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)