注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件數(shù)據(jù)科學(xué)理論與實踐

數(shù)據(jù)科學(xué)理論與實踐

數(shù)據(jù)科學(xué)理論與實踐

定 價:¥59.00

作 者: 朝樂門 著
出版社: 清華大學(xué)出版社
叢編項: 全國高校大數(shù)據(jù)教育聯(lián)盟系列教材
標(biāo) 簽: 工學(xué) 教材 研究生/本科/??平滩?/td>

ISBN: 9787302480549 出版時間: 2017-10-01 包裝: 平裝
開本: 16開 頁數(shù): 294 字?jǐn)?shù):  

內(nèi)容簡介

  本書重點講解數(shù)據(jù)科學(xué)的核心理論與代表性實踐,在編寫過程中充分借鑒了國外著名大學(xué)設(shè)立的相關(guān)課程以及全球暢銷的外文專著,而且也考慮到了國內(nèi)相關(guān)課程定位與專業(yè)人才的培養(yǎng)需求。全書共包括8個部分: 數(shù)據(jù)科學(xué)的基礎(chǔ)理論、理論基礎(chǔ)、流程與方法、技術(shù)與工具、數(shù)據(jù)產(chǎn)品及開發(fā)、典型案例及實踐、R語言學(xué)習(xí)筆記與參考手冊以及數(shù)據(jù)科學(xué)的重要資源。本書的讀者范圍廣,可以滿足數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計算機(jī)科學(xué)與技術(shù)、管理工程、工商管理、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析、信息管理與信息系統(tǒng)等多個專業(yè)的老師、學(xué)生(含碩士生和博士生)的教學(xué)與自學(xué)需要。作者以本教材為基礎(chǔ),將提供MOOC公開課,助力培養(yǎng)數(shù)據(jù)科學(xué)領(lǐng)域的人才。

作者簡介

  朝樂門,1979年生,中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點實驗室、信息資源管理學(xué)院副教授,博士生導(dǎo)師;章魚大數(shù)據(jù)首席數(shù)據(jù)科學(xué)家;中國計算機(jī)學(xué)會信息系統(tǒng)專委員會委員、ACM高級會員、國際知識管理協(xié)會正式委員、全國高校大數(shù)據(jù)教育聯(lián)盟大數(shù)據(jù)教材專家指導(dǎo)委員會委員;主持完成國家自然科學(xué)基金、國家社會科學(xué)基金等重要科學(xué)研究項目10余項;參與完成核高基、973、863、國家自然科學(xué)基金重點項目、國家社會科學(xué)基金重大項目等國家重大科研項目10余項;獲得北京市中青年骨干教師稱號、國際知識管理與智力資本杰出成就獎、Emerald/EFMD國際杰出博士論文獎、國家自然科學(xué)基金項目優(yōu)秀項目、中國大數(shù)據(jù)學(xué)術(shù)創(chuàng)新獎、中國大數(shù)據(jù)創(chuàng)新百人榜單、中國人民大學(xué)優(yōu)秀博士論文獎等多種獎勵30余項。朝樂門是我國第一部系統(tǒng)闡述數(shù)據(jù)科學(xué)理念、理論、方法、技術(shù)和工具的重要專著——《數(shù)據(jù)科學(xué)》(清華大學(xué)出版社,2016)的作者,也是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)*個領(lǐng)域本體“DataScienceOntology”研發(fā)團(tuán)隊的總負(fù)責(zé)人。

圖書目錄

第1章基礎(chǔ)理論
如何開始學(xué)習(xí)
1.1術(shù)語定義
1.2研究目的
1.3發(fā)展簡史
1.4理論體系
1.5基本原則
1.6數(shù)據(jù)科學(xué)家
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第2章理論基礎(chǔ)
如何開始學(xué)習(xí)
2.1數(shù)據(jù)科學(xué)的學(xué)科地位
2.2統(tǒng)計學(xué)
2.3機(jī)器學(xué)習(xí)
2.4數(shù)據(jù)可視化
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第3章流程與方法
如何開始學(xué)習(xí)
3.1基本流程
3.2數(shù)據(jù)加工
3.3數(shù)據(jù)審計
3.4數(shù)據(jù)分析
3.5數(shù)據(jù)可視化
3.6數(shù)據(jù)故事化
3.7項目管理
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第4章技術(shù)與工具
如何開始學(xué)習(xí)
4.1技術(shù)體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發(fā)展趨勢
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第5章數(shù)據(jù)產(chǎn)品及開發(fā)
如何開始學(xué)習(xí)
5.1定義
5.2主要特征
5.3關(guān)鍵活動
5.4數(shù)據(jù)柔術(shù)
5.5數(shù)據(jù)能力
5.6數(shù)據(jù)戰(zhàn)略
5.7數(shù)據(jù)治理
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第6章典型案例及實踐
如何開始學(xué)習(xí)
6.12012年美國總統(tǒng)大選
6.2統(tǒng)計分析
6.3機(jī)器學(xué)習(xí)
6.4數(shù)據(jù)可視化
6.5SparkR編程
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
附錄AR語言學(xué)習(xí)筆記與參考手冊
學(xué)習(xí)與參考指南
1. R變量定義方法
2. R語句的寫法
3. R中的賦值語句
4. R的文件讀寫路徑——當(dāng)前工作目錄
5. R的變量查找機(jī)制——搜索路徑
6. R中查看幫助的方法
7. R區(qū)分大小寫字母
8. R的注釋
9. R的語句
10. R中的變量命名規(guī)范
11. R中的關(guān)鍵字/保留字
12. R中的默認(rèn)數(shù)據(jù)類型
13. R中數(shù)據(jù)類型的判斷與強(qiáng)制類型轉(zhuǎn)換
14. R中的向量
15. R中的列表
16. R中的數(shù)據(jù)框
17. R中的因子類型
18. R中的循環(huán)語句
19. R中的選擇語句
20. R中的特殊運(yùn)算符
21. R中的快速生成數(shù)列的方法
22. R中自定義函數(shù)
23. R中常用的數(shù)學(xué)函數(shù)
24. R中的字符串處理函數(shù)
25. R中的常用統(tǒng)計函數(shù)
26. R中的隨機(jī)數(shù)
27. R包的用法
28. R中的矩陣
29. R中的數(shù)組
30. R中的面向?qū)ο缶幊?br />31. R中的S4類
32. R中的數(shù)據(jù)可視化
33. R的輸入輸出
34. R中的正則表達(dá)式
35. R的數(shù)據(jù)集
36. R第三方包——R的靈魂
37. 基于R的數(shù)據(jù)加工
附錄B數(shù)據(jù)科學(xué)的重要資源
1. 學(xué)術(shù)期刊
2. 國際會議
3. 研究機(jī)構(gòu)
4. 課程資源
5. 碩士學(xué)位項目
6. 專家學(xué)者
7. 相關(guān)工具
附錄C術(shù)語索引
后記
圖目錄
圖11DIKW金字塔2
圖12數(shù)據(jù)與數(shù)值的區(qū)別3
圖13大數(shù)據(jù)的本質(zhì)4
圖14大數(shù)據(jù)的特征5
圖15DIKUW模型及應(yīng)用8
圖16數(shù)據(jù)洞見8
圖17業(yè)務(wù)數(shù)據(jù)化與數(shù)據(jù)業(yè)務(wù)化9
圖18常用驅(qū)動方式9
圖19數(shù)據(jù)的層次性9
圖110大數(shù)據(jù)生態(tài)系統(tǒng)10
圖111Gartner技術(shù)成熟度曲線11
圖112數(shù)據(jù)科學(xué)的萌芽期(1974—2009年)11
圖113數(shù)據(jù)科學(xué)的快速發(fā)展期(2010—2013年)12
圖114數(shù)據(jù)科學(xué)的逐漸成熟期(2014年至今)13
圖115數(shù)據(jù)科學(xué)的理論體系14
圖116數(shù)據(jù)科學(xué)的主要內(nèi)容15
圖117數(shù)據(jù)科學(xué)的“三世界原則”16
圖118數(shù)據(jù)科學(xué)的“三個要素”及“3C精神”17
圖119數(shù)據(jù)范式與知識范式的區(qū)別18
圖120數(shù)據(jù)管理范式的變化18
圖121大數(shù)據(jù)的資產(chǎn)屬性19
圖122常用驅(qū)動方式20
圖123CAPTCHA項目21
圖124ReCAPTCHA項目21
圖125數(shù)據(jù)與算法之間的關(guān)系22
圖126BellKors Pragmatic Chaos團(tuán)隊獲得Netflix獎23
圖127Netflix獎公測結(jié)果23
圖128RStudio中編輯Markdown的窗口25
圖129數(shù)據(jù)科學(xué)家團(tuán)隊28
圖130學(xué)習(xí)數(shù)據(jù)科學(xué)的四則原則29
圖21數(shù)據(jù)科學(xué)的理論基礎(chǔ)35
圖22統(tǒng)計方法的分類(目的與思路視角)37
圖23統(tǒng)計學(xué)中的數(shù)據(jù)推斷37
圖24數(shù)據(jù)統(tǒng)計方法的類型(方法論視角)38
圖25數(shù)據(jù)統(tǒng)計基本方法38
圖26元分析與基本分析39
圖27GFT預(yù)測與美國疾病控制中心數(shù)據(jù)的對比40
圖28GFT估計與實際數(shù)據(jù)的誤差(2013年2月)40
圖29大數(shù)據(jù)時代的思維模式的轉(zhuǎn)變41
圖210西洋雙陸棋42
圖211自動駕駛42
圖212機(jī)器學(xué)習(xí)的基本思路42
圖213機(jī)器學(xué)習(xí)的三要素44
圖214機(jī)器學(xué)習(xí)的類型45
圖215KNN算法的基本步驟46
圖216決策樹示例——識別鳥類48
圖217感知器示例50
圖218前向神經(jīng)網(wǎng)絡(luò)50
圖219歸納學(xué)習(xí)與分析學(xué)習(xí)52
圖220增強(qiáng)學(xué)習(xí)53
圖221IBM Watson54
圖222Pepper機(jī)器人54
圖223機(jī)器學(xué)習(xí)及其應(yīng)用55
圖224Anscombe四組數(shù)據(jù)的可視化57
圖225John Snow的鬼地圖(Ghost Map)58
圖31數(shù)據(jù)科學(xué)的基本流程62
圖32量化自我63
圖33整齊數(shù)據(jù)與干凈數(shù)據(jù)的區(qū)別64
圖34整齊數(shù)據(jù)示意圖64
圖35殘差67
圖36數(shù)據(jù)分析的類型68
圖37Analytics 1.0~3.069
圖38數(shù)據(jù)加工方法70
圖39數(shù)據(jù)審計與數(shù)據(jù)清洗71
圖310缺失數(shù)據(jù)的處理步驟72
圖311冗余數(shù)據(jù)的處理方法72
圖312數(shù)據(jù)分箱處理的步驟與類型73
圖313均值平滑與邊界值平滑74
圖314內(nèi)容集成76
圖315結(jié)構(gòu)集成76
圖316數(shù)據(jù)脫敏處理77
圖317數(shù)據(jù)連續(xù)性的定義及重要性81
圖318可視化審計82
圖319Gartner分析學(xué)價值扶梯模型83
圖320冰激凌的銷量與謀殺案的發(fā)生數(shù)量84
圖321數(shù)據(jù)分析的類型86
圖322拿破侖進(jìn)軍俄國慘敗而歸的歷史事件的可視化87
圖323可視化分析學(xué)的相關(guān)學(xué)科87
圖324可視化分析學(xué)模型88
圖325數(shù)據(jù)可視化的方法體系89
圖326視覺圖形元素與視覺通道89
圖327雷達(dá)圖示例89
圖328齊美爾連帶89
圖329視覺隱喻的示例——美國政府機(jī)構(gòu)的設(shè)置90
圖330地鐵路線圖的創(chuàng)始人Henry Beck91
圖331Henry Beck的倫敦地鐵線路圖91
圖332視覺突出的示例92
圖333完圖法則的示例92
圖334視覺通道的選擇與展示94
圖335視覺通道的精確度對比94
圖336視覺通道的可辨認(rèn)性——某公司產(chǎn)品銷售示意圖95
圖337視覺通道的可分離性差95
圖338上下文導(dǎo)致視覺假象196
圖339上下文導(dǎo)致視覺假象296
圖340對亮度和顏色的相對判斷容易造成視覺假象的示例96
圖341數(shù)據(jù)可視化與數(shù)據(jù)故事化描述97
圖342數(shù)據(jù)的故事化描述及故事的展現(xiàn)98
圖343項目管理的主要內(nèi)容101
圖344數(shù)據(jù)科學(xué)項目的基本流程102
圖41大數(shù)據(jù)產(chǎn)業(yè)全景圖107
圖42基礎(chǔ)設(shè)施108
圖43分析工具109
圖44企業(yè)應(yīng)用109
圖45行業(yè)應(yīng)用110
圖46跨平臺基礎(chǔ)設(shè)施和分析工具110
圖47開源系統(tǒng)111
圖48數(shù)據(jù)源與Apps111
圖49數(shù)據(jù)資源111
圖410MapReduce執(zhí)行過程113
圖411MapReduce對中間數(shù)據(jù)的處理116
圖412以MapReduce為核心和以YARN為核心的軟件棧對比118
圖413下一代MapReduce框架118
圖414Apache Hadoop官網(wǎng)119
圖415Apache Hadoop生態(tài)系統(tǒng)119
圖416Hadoop MapReduce數(shù)據(jù)處理流程121
圖417Apache Hive官網(wǎng)122
圖418Apache Pig官網(wǎng)123
圖419Apache Mahout官網(wǎng)124
圖420Apache HBase官網(wǎng)125
圖421HBase與Hadoop項目125
圖422HBase邏輯模型126
圖423Apache Zookeeper官網(wǎng)127
圖424Apache Flume官網(wǎng)127
圖425Apache Sqoop官網(wǎng)128
圖426Spark 技術(shù)架構(gòu)130
圖427Spark執(zhí)行流程130
圖428Spark Scheduler134
圖429傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點與缺點136
圖430關(guān)系數(shù)據(jù)庫與NoSQL數(shù)據(jù)庫之間的關(guān)系138
圖431NoSQL數(shù)據(jù)分布的兩個基本途徑139
圖432分片處理140
圖433主從復(fù)制141
圖434對等復(fù)制142
圖435數(shù)據(jù)不一致性142
圖436CAP理論143
圖437Memcached官網(wǎng)146
圖438一致性散列的分配方式147
圖439服務(wù)器增加時的變化147
圖440計算模式的演變150
圖441數(shù)據(jù)管理的新變化152
圖51數(shù)據(jù)產(chǎn)品開發(fā)中的數(shù)據(jù)與數(shù)據(jù)柔術(shù)157
圖52數(shù)據(jù)產(chǎn)品開發(fā)與數(shù)據(jù)柔術(shù)160
圖53數(shù)據(jù)產(chǎn)品的多樣性160
圖54數(shù)據(jù)產(chǎn)品的層次性161
圖55Google全球商機(jī)洞察(Global Market Finder)162
圖56數(shù)據(jù)產(chǎn)品鏈162
圖57傳統(tǒng)產(chǎn)品開發(fā)與數(shù)據(jù)產(chǎn)品開發(fā)的區(qū)別163

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號