注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫深入淺出數(shù)據(jù)分析

深入淺出數(shù)據(jù)分析

深入淺出數(shù)據(jù)分析

定 價:¥139.99

作 者: (美)Michael Milton(邁克爾.米爾頓)
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121451683 出版時間: 2023-06-01 包裝: 平裝-膠訂
開本: 128開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《深入淺出數(shù)據(jù)分析》以類似“章回小說”的活潑形式,生動地向讀者展現(xiàn)優(yōu)秀的數(shù)據(jù)分析人員應(yīng)知應(yīng)會的技術(shù):數(shù)據(jù)分析基本步驟、實驗方法、化方法、假設(shè)檢驗方法、貝葉斯統(tǒng)計方法、主觀概率法、啟發(fā)法、直方圖法、回歸法、誤差處理、關(guān)系數(shù)據(jù)庫、數(shù)據(jù)整理技巧;正文之后,意猶未盡地以三篇附錄介紹數(shù)據(jù)分析十大要訣、R工具及ToolPak工具,在充分展現(xiàn)目標知識以外,為讀者搭建了走向深入研究的橋梁。本書通過精心設(shè)計的實踐場景,讓讀者不由自主地代入角色當中,真正在體驗中學(xué)習(xí)、思考,將數(shù)據(jù)分析的要點融化于心,自如地應(yīng)用在工作和生活中。

作者簡介

  Michael Milton,將自己的大半職業(yè)生涯獻給了非盈利機構(gòu),幫助這些機構(gòu)解析和處理,從贊助人那里收集來的數(shù)據(jù),提高融資能力。Michael Milton擁有新佛羅里達學(xué)院哲學(xué)學(xué)位及耶魯大學(xué)宗教倫理學(xué)學(xué)位。多年來,他博覽群書,這些書籍雖字字珠璣,卻枯燥乏味;驀然抬首,深入淺出(HeadFirst)系列圖書讓他眼前一亮,他欣然抓住機會,寫出了這本同樣字字珠璣,兼振奮人心的書。走出圖書館和書店,人們會看到他在跑步、攝影,以及親手釀制啤酒。

圖書目錄

深入淺出數(shù)據(jù)分析
  總目錄 序言 XXVIII
1 數(shù)據(jù)分析引言:分解數(shù)據(jù) 1
2 實驗:檢驗?zāi)愕睦碚?37
3 化:尋找值 75
4 數(shù)據(jù)圖形化:圖形讓你更精明 111
5 假設(shè)檢驗:假設(shè)并非如此 139
6 貝葉斯統(tǒng)計:穿越關(guān) 169
7 主觀概率:信念數(shù)字化 191
8 啟發(fā)法:憑人類的天性做分析 225
9 直方圖:數(shù)字的形狀 251
10 回歸:預(yù)測 279
11 誤差:合理誤差 315
12 關(guān)系數(shù)據(jù)庫:你能關(guān)聯(lián)嗎? 359
13 整理數(shù)據(jù):井然有序 385
附錄A 尾聲:正文未及的十大要訣 417
附錄B 安裝R:啟動R! 427
附錄C 安裝Excel分析工具:ToolPak 431
  細分目錄及各章引子 0 序言
大腦對待數(shù)據(jù)分析的態(tài)度。一邊是你努力想學(xué)會一些知識,一邊是你的大腦忙著開小差。你的大腦在想:“好把位置留給更重要的事, 像該離哪些野生動物遠點啊,像光著身子滑雪是不是個壞點子啊。”既然如此,你該如何引誘你的大腦意識到,懂得數(shù)據(jù)分析是你安身立命的根本?
誰適合閱讀本書? XXIX
我們了解你在想什么 XXX
我們了解你的大腦在想什么 XXX
元認知:對思考的思考 XXXII
我們的做法 XXXIII
自述 XXXV
技術(shù)顧問組 XXXVII
致謝 XXXVIII
1 數(shù)據(jù)分析引言
分解數(shù)據(jù)
數(shù)據(jù)無處不在。如今,不管是不是自稱數(shù)據(jù)分析師,人人都得處理堆積 如山的數(shù)據(jù)。熟諳一切數(shù)據(jù)分析技術(shù)方法的分析者會比其他人技高一籌: 他們知道如何處理所有的數(shù)據(jù)材料,如何將原始數(shù)據(jù)轉(zhuǎn)變成推進現(xiàn)實工 作的妙策,如何分解和構(gòu)建復(fù)雜的問題和數(shù)據(jù)集,進而牢牢把握工作中 的各種問題的要害。
Acme化妝品公司需要你出力 2
首席執(zhí)行官希望數(shù)據(jù)分析師幫他提高銷量 3
數(shù)據(jù)分析就是仔細推敲證據(jù) 4
確定問題 5
客戶將幫助你確定問題 6
Acme公司首席執(zhí)行官給了你一些反饋 8
把問題和數(shù)據(jù)分解為更小的組塊 9
現(xiàn)在再來看看了解到的情況 10
評估組塊 13
分析從你介入的那一刻開始 14
提出建議 15
報告寫好了 16
首席執(zhí)行官欣賞你的工作 17
一則新聞 18
首席執(zhí)行官確信的觀點讓你誤入歧途 20
你對外界的假設(shè)和你確信的觀點就是你的心智模型 21
統(tǒng)計模型取決于心智模型 22
心智模型應(yīng)當包括你不了解的因素 25
首席執(zhí)行官承認自己有所不知 26
Acme給你發(fā)來了一長串原始數(shù)據(jù) 28
深入挖掘數(shù)據(jù) 31
泛美批發(fā)公司確認了你的印象 32
回顧你的工作 35
你的分析讓客戶作出了英明的決策 36
2 實驗
檢驗?zāi)愕睦碚?br />你能向別人揭示自己堅信的信念嗎?正在進行實證檢驗?做個好實驗吧,再 沒有什么辦法能像一個好實驗?zāi)菢樱饶芙鉀Q問題又能揭示事物的真正運行 規(guī)律。一個好實驗往往能讓你擺脫對觀察數(shù)據(jù)的無限依賴,能幫助你理清因 果聯(lián)系;可靠的實證數(shù)據(jù)將讓你的分析判斷更有說服力。
咖啡業(yè)的寒冬到了! 38
星巴仕董事會將在三個月內(nèi)召開 39
星巴仕調(diào)查表 41
務(wù)必使用比較法 42
比較是破解觀察數(shù)據(jù)的法寶 43
價值感是導(dǎo)致銷售收入下滑的原因嗎? 44
一位典型客戶的想法 46
觀察分析法充滿混雜因素 47
店址可能對分析結(jié)果有哪些影響 48
拆分數(shù)據(jù)塊,管理混雜因素 50
情況比預(yù)料的更糟! 53
你需要做一個實驗,指出哪種策略有效 54
星巴仕首席執(zhí)行官已經(jīng)急不可待 55
星巴仕降價了 56
一個月后…… 57
以控制組為基準 58
避免解雇123 61
認真
讓我們重新做一次實驗 62
一個月后…… 63
實驗照樣會毀于混雜因素 64
 精心選擇分組,避免混雜因素 65
隨機選擇相似組 67
隨機訪談 68
準備就緒,開始實驗 71
結(jié)果在此 72
星巴仕找到了與經(jīng)驗吻合的銷售策略 73
3 化
尋找值
有些東西人人都想多多益善。為此我們上下求索。要是能用數(shù)字表示我 們不斷追求的東西——利潤、錢、效率、速度等,實現(xiàn)更高目標的機會 就在眼前。有一種數(shù)據(jù)分析工具能夠幫助我們調(diào)整決策變量,找出解決 方案和優(yōu)化點,使我們限度地達到目標。本章將使用這樣一種工具, 并通過強大的電子表格軟件包Solver來實現(xiàn)這個工具。
現(xiàn)在是浴盆玩具游戲時間 76
你能控制的變量受到約束條件的限制 79
決策變量是你能控制的因素 79
你碰到了一個化問題 80
借助目標函數(shù)發(fā)現(xiàn)目標 81
你的目標函數(shù) 82
列出有其他約束條件的產(chǎn)品組合 83
在同一張圖形里繪制多種約束條件 84
合理的選擇都出現(xiàn)在可行區(qū)域里 85
新約束條件改變了可行區(qū)域 87
用電子表格實現(xiàn)化 90
Solver一氣呵成解決化問題 94
利潤跌穿地板 97
你的模型只是描述了你規(guī)定的情況 98
按照分析目標校正假設(shè) 99
提防負相關(guān)變量 103
新方案立竿見影 108
你的假設(shè)立足于不斷變化的實際情況 109
 
4 數(shù)據(jù)圖形化
圖形讓你更精明
數(shù)據(jù)表遠非你所需。你的數(shù)據(jù)龐雜晦澀,各種變量讓你目不暇接,應(yīng)付堆積 如山的電子表格不只令人厭倦不堪,而且確實浪費時間。相反,與僅僅使用 電子表格不同,一幅用紙不多、栩栩如生的清晰圖像,卻能讓你擺脫“一葉 障目,不見泰山”的煩惱。
New Army需要優(yōu)化網(wǎng)站 112
結(jié)果面世,信息設(shè)計師出局 113
前一位信息設(shè)計師提交的三份信息圖 114
這些圖形隱含哪些數(shù)據(jù)? 115
體現(xiàn)數(shù)據(jù)! 116
這是前一位設(shè)計師主動提供的意見 117
數(shù)據(jù)太多絕不會成為你的問題 118
讓數(shù)據(jù)變美觀也不是你要解決的問題 119
數(shù)據(jù)圖形化的根本在于正確比較 120
你的圖形已經(jīng)比被打入冷宮的圖形更有用 123
使用散點圖探索原因 124
秀的圖形都是多元圖形 125
同時展示多張圖形,體現(xiàn)更多變量 126
圖形很棒,但網(wǎng)站掌門人仍不滿意 130
優(yōu)秀的圖形設(shè)計有助于思考的原因 131
實驗設(shè)計師出聲了 132
實驗設(shè)計師們有自己的假設(shè) 135
客戶欣賞你的工作 136
訂單從四面八方滾滾而來! 137
 
5 假設(shè)檢驗
假設(shè)并非如此
世事紛紜,真假難辨。人們需要用龐雜多變的數(shù)據(jù)預(yù)測未來,然而免不了 剪不斷,理還亂。正因如此,分析師不會簡單聽信浮于表面的解釋,也不 會想當然地認可這些解釋的真實性:通過數(shù)據(jù)分析的仔細推理,分析師能 夠異常細致地評估大量備選答案,然后將手頭的一切信息整合到各種模 型中。接下來要學(xué)的證偽法即是一種切實有效的非直覺方法。
給我來塊“皮膚”…… 140
我們何時開始生產(chǎn)新手機皮膚? 141
PodPhone不希望別人看透他們的下一步行動 142
我們得知的全部信息 143
電膚的分析與數(shù)據(jù)相符嗎? 144
電膚得到了機密《戰(zhàn)略備忘錄》 145
變量之間可以正相關(guān),也可以負相關(guān) 146
現(xiàn)實世界中的各種原因呈網(wǎng)絡(luò)關(guān)系,而非線性關(guān)系 149
假設(shè)幾個PodPhone備選方案 150
用手頭的資料進行假設(shè)檢驗 151
假設(shè)檢驗的核心是證偽 152
借助診斷性找出否定性小的假設(shè) 160
無法一一剔除所有假設(shè),但可以判定哪個假設(shè)強 163
你剛剛收到一條圖片短信…… 164
即將上市! 167
 
6 貝葉斯統(tǒng)計
穿越關(guān)
數(shù)據(jù)收集工作永不停息。必須確保每一個分析過程都充分利用所搜集到的與 問題有關(guān)的數(shù)據(jù)。雖說你已學(xué)會了證偽法,處理異質(zhì)數(shù)據(jù)源不在話下,可要 是碰到直接概率問題該怎么辦?這就要講到一個極其方便的分析工具,叫做 貝葉斯規(guī)則,這個規(guī)則能幫助你利用基礎(chǔ)概率和波動數(shù)據(jù)做到明察秋毫。
醫(yī)生帶來惱人的消息 170
讓我們逐條細讀正確性分析 173
蜥蜴流感到底有多普遍? 174
你計算的是假陽性 175
這些術(shù)語說的都是條件概率 176
你需要算算 177
1%的人患蜥蜴流感 178
你患蜥蜴流感的幾率仍然非常低 181
用簡單的整數(shù)思考復(fù)雜的概率 182
搜集到新數(shù)據(jù)后,用貝葉斯規(guī)則處理基礎(chǔ)概率 182
貝葉斯規(guī)則可以反復(fù)使用 183
第二次試驗結(jié)果:陰性 184
新試驗的正確性統(tǒng)計值有變化 185
新信息會改變你的基礎(chǔ)概率 186
放心多了! 189
7主觀概率
信念數(shù)字化
虛擬數(shù)據(jù)未嘗不可。真的。不過,這些數(shù)字必須描述你的心智狀態(tài),表明你的信念。主觀概率就是這樣一種將嚴謹融入直覺的簡便辦法,具體做法馬上介紹。隨著講解的進行,你將學(xué)會如何利用標準偏差評估數(shù)據(jù)分布,前面學(xué)過的一個更強大的分析工具也會再次登臺亮相。
背水投資公司需要你效力 192
分析師們相互叫陣 193
主觀概率體現(xiàn)專家信念 198
主觀概率可能表明:根本不存在真正的分歧 199
分析師們答復(fù)的主觀概率 201
首席執(zhí)行官不明白你在忙些什么 202
首席執(zhí)行官欣賞你的工作 207
標準偏差量度分析點與平均值的偏差 208
這條新聞讓你措手不及 213
貝葉斯規(guī)則是修正主觀概率的好辦法 217
首席執(zhí)行官完全知道該怎么處理這條新信息了 223
俄羅斯股民歡欣鼓舞! 224
8 啟發(fā)法
憑人類的天性做分析
現(xiàn)實世界的風(fēng)云變幻讓分析師難以料事如神??傆幸恍?shù)據(jù)可望不可及,即 使有所能及,化方法也往往艱深耗時。所幸,生活中的大部分實際思維 活動并非以理性的方式展開,而是利用既不齊全也不確定的信息,憑經(jīng)驗 進行處理,迅速做出決策。奇就奇在這些經(jīng)驗確實能夠奏效,因此也是進行 數(shù)據(jù)分析的重要而必要的工具。
邋遢集向市議會提交了報告 226
邋遢集確實把鎮(zhèn)上打掃得干干凈凈 227
邋遢集已經(jīng)計量了自己的工作效果 228
他們的任務(wù)是減少散亂垃圾量 229
計量垃圾量不可行 230
問題刁鉆,回答簡單 231
數(shù)據(jù)邦市的散亂垃圾結(jié)構(gòu)復(fù)雜 232
無法建立和運用統(tǒng)一的散亂垃圾計量模型 233
啟發(fā)法是從直覺走向化的橋梁 236
使用快省樹 239
是否有更簡單的方法評估邋遢集的成就? 240
固定模式都具有啟發(fā)性 244
分析完畢,準備提交 246
看來你的分析打動了市議會的議員們 249
9 直方圖
數(shù)字的形狀
直方圖能說明什么?數(shù)據(jù)的圖形表示方法不計其數(shù),直方圖是其中出類 拔萃的一種。直方圖與柱狀圖有些相似,能迅速而有效地匯總數(shù)據(jù)。接 下來你將用這種小巧而實用的圖形量度數(shù)據(jù)的分布、差異、集中趨勢等。 無論數(shù)據(jù)集多么龐大,只要畫一張直方圖,就能“看出”數(shù)據(jù)中的奧妙。 讓我們在本章中用一個新穎、免費、無所不能的軟件工具繪制直方圖。
員工年度考評即將到來 252
伸手要錢形式多樣 254
這是歷年加薪記錄 255
直方圖體現(xiàn)每組數(shù)據(jù)的發(fā)生頻數(shù) 262
直方圖不同區(qū)間之間的缺口即數(shù)據(jù)點之間的缺口 263
安裝并運行R 264
將數(shù)據(jù)加載到R程序 265
R創(chuàng)建了美觀的直方圖 266
用數(shù)據(jù)的子集繪制直方圖 271
加薪談判有回報 276
談判要求加薪對你意味著什么? 277
10 回歸
預(yù)測
洞悉一切,未卜先知。回歸分析法力無邊,只要使用得法,就能幫助你預(yù)測 某些結(jié)果值。若與控制實驗同時使用,回歸分析還能預(yù)測未來。商家狂熱地 運用回歸分析幫助自己建立模型,預(yù)測客戶行為。本章即將讓你看到,明智 地使用回歸分析,確實能夠帶來巨大效益。
你打算怎么花這些錢? 280
以獲取大幅度加薪為目的進行分析 283
稍等片刻……加薪計算器! 284
這個算法的玄機在于預(yù)測加薪幅度 286
用散點圖比較兩種變量 292
直線能為客戶指明目標 294
使用平均值圖形預(yù)測每個區(qū)間內(nèi)的數(shù)值 297
回歸線預(yù)測出人們的實際加薪幅度 298
回歸線對于具有線性相關(guān)特點的數(shù)據(jù)很有用 300
你需要用一個等式進行精確預(yù)測 304
讓R創(chuàng)建一個回歸對象 306
回歸方程與散點圖密切相關(guān) 309
加薪計算器的算法正是回歸方程 310
你的加薪計算器沒有照計劃行事…… 313
11 誤差
合理誤差
世界錯綜復(fù)雜。預(yù)測有失精準并不稀奇。不過,如果在進行預(yù)測的時候 指出誤差范圍,你和你的客戶就不僅能知道平均預(yù)測值,還能知道該誤 差造成的典型偏差,指出誤差可以讓預(yù)測和信念更全面。通過本章講授 的工具,你還會懂得如何控制誤差及如何盡量降低誤差,從而提高預(yù)測 可信度。
客戶大為惱火 316
你的加薪預(yù)測算法做了什么? 317
客戶組成 318
要求加薪25%的家伙不在模型范圍內(nèi) 321
如何對待想對數(shù)據(jù)范圍以外的情況進行預(yù)測的客戶 322
由于使用外插法而慘遭解雇的家伙冷靜下來了 327
你只解決了部分問題 328
扭曲的加薪結(jié)果數(shù)據(jù)看起來是什么樣子? 329
機會誤差=實際結(jié)果與模型預(yù)測結(jié)果之間的偏差 330
誤差對你和客戶都有好處 334
機會誤差訪談 335
定量地指定誤差 336
用均方根誤差定量表示殘差分布 337
R模型知道存在均方根誤差 338
R的線性模型匯總展示了均方根誤差 340
分割的根本目的是管理誤差 346
優(yōu)秀的回歸分析兼具解釋功能和預(yù)測功能 350
相比原來的模型,分區(qū)模型能更好地處理誤差 352
你的客戶紛紛回頭 357
 
12 關(guān)系數(shù)據(jù)庫
你能關(guān)聯(lián)嗎?
如何組織變化多端的多變量數(shù)據(jù)?一張電子數(shù)據(jù)表只有兩維數(shù)據(jù):行和列。如果你的數(shù)據(jù)包括許多方面,則很快就會過時。在本章,你會看出電子表格很難管理多變量數(shù)據(jù),還能看到關(guān)系數(shù)據(jù)庫管理系統(tǒng)讓多變量數(shù)據(jù)的存儲和檢索變得極其簡單。
《數(shù)據(jù)邦新聞》希望分析銷量 360
這是他們保存的運營跟蹤數(shù)據(jù) 361
你需要知道數(shù)據(jù)表之間的相互關(guān)系 362
數(shù)據(jù)庫就是一系列相互有特定關(guān)系的數(shù)據(jù) 365
找到一條貫穿各種關(guān)系的路線,以便進行必要的比較 366
創(chuàng)建一份穿過這條路徑的電子表格 366
通過匯總將文章數(shù)目和銷量關(guān)聯(lián)起來 371
看來你的散點圖確實畫得很好 374
復(fù)制并粘貼所有這些數(shù)據(jù)是件痛苦的事 375
用關(guān)系數(shù)據(jù)庫管理關(guān)系 376
《數(shù)據(jù)邦新聞》利用你的關(guān)系圖建立了一個RDBMS 377
《數(shù)據(jù)邦新聞》用SQL提取數(shù)據(jù) 379
RDBMS數(shù)據(jù)可以進行無窮無盡的比較 382
你上了封面 383
 
13 整理數(shù)據(jù)
井然有序
亂糟糟的數(shù)據(jù)毫無用處。許多數(shù)據(jù)搜集者需要花大量時間整理數(shù)據(jù)。不 整齊的數(shù)據(jù)無法進行分割、無法套用公式,甚至無法閱讀,被人們視而 不見也是常事,對不對?其實,你可以做得更好。只要眼前清楚地浮現(xiàn) 出希望看到的數(shù)據(jù)外觀,再用上一些文本處理工具,就能抽絲剝繭地整 理數(shù)據(jù),化腐朽為神奇。
剛從停業(yè)的競爭對手那兒搞到一份客戶名單 386
數(shù)據(jù)分析不可告人的秘密 387
Head First獵頭公司想為自己的銷售團隊搞到這份名單 388
清理混亂數(shù)據(jù)的根本在于準備 392
一旦組織好數(shù)據(jù),就能修復(fù)數(shù)據(jù) 393
將#號作為分隔符 394
Excel通過分隔符將數(shù)據(jù)分成多個列 395
用SUBSTITUTE替換“^”字符 399
所有的“姓”都整理好了 400
用SUBSTITUTE替換名字模式太麻煩了 402
用嵌套文本公式處理復(fù)雜的模式 403
R能用正則表達式處理復(fù)雜的數(shù)據(jù)模式 404
用sub指令整理“名” 406
現(xiàn)在可以向客戶交貨了 407
可能尚未大功告成…… 408
為數(shù)據(jù)排序,讓重復(fù)數(shù)值集中出現(xiàn) 409
這些數(shù)據(jù)有可能來源于某個關(guān)系數(shù)據(jù)庫 412
刪除重復(fù)名字 413
你創(chuàng)建了美觀、整潔、具有性的記錄 414
Head First獵頭公司正在一網(wǎng)打盡各種人才! 415
再見…… 416
附錄A  尾聲
正文未及的十大要訣
你已頗有收獲。但數(shù)據(jù)分析這門技術(shù)不斷變遷,學(xué)之不盡。由于本書篇幅有 限,尚有一些密切相關(guān)的知識未予介紹,我們將在本附錄中瀏覽十大知識點。
其一:統(tǒng)計知識大全 418
其二:Excel技巧 419
其三:耶魯大學(xué)教授Edward Tufte(愛德華·塔夫特)的圖形原則 420
其四:數(shù)據(jù)透視表 421
其五:R社區(qū) 422
其六:非線性與多元回歸 423
其七:原假設(shè)-備擇假設(shè)檢驗 424
其八:隨機性 424
其九:Google Docs 425
其十:你的專業(yè)技能 426
附錄B 安裝R
啟動R!
強大的數(shù)據(jù)分析功能靠的是復(fù)雜的內(nèi)部機制。好在只需幾分鐘就能安裝 和啟動R,本附錄將介紹如何不費吹灰之力安裝R。
R起步 428
附錄C 安裝Excel分析工具
ToolPak
Excel有一些好的功能在默認情況下并不安裝。為了執(zhí)行第3章的優(yōu)化和第 9章的直方圖,需要激活Solver和Analysis ToolPak,Excel在默認情況下安 裝了這兩種擴展插件,但若非用戶主動操作,這些插件不會被激活。
在Excel中安裝數(shù)據(jù)分析工具 432

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號