注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信網(wǎng)絡(luò)服務(wù)R數(shù)據(jù)科學(xué)實(shí)戰(zhàn):工具詳解與案例分析

R數(shù)據(jù)科學(xué)實(shí)戰(zhàn):工具詳解與案例分析

R數(shù)據(jù)科學(xué)實(shí)戰(zhàn):工具詳解與案例分析

定 價(jià):¥69.00

作 者: 鄔書豪,劉健
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111629948 出版時(shí)間: 2019-07-01 包裝: 平裝
開本: 16開 頁數(shù): 241 字?jǐn)?shù):  

內(nèi)容簡介

  這是一部能指導(dǎo)零基礎(chǔ)的讀者快速掌握R語言并利用R語言進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域的著作。兩位作者在R語言和數(shù)據(jù)科學(xué)領(lǐng)域有豐富的實(shí)踐經(jīng)驗(yàn),首先是非常有針對性地講解了利用R語言進(jìn)行數(shù)據(jù)處理需要掌握和使用的6大類17種工具,然后是結(jié)合這些工具的使用給出了5個(gè)典型的綜合性案例,幫助讀者迅速將理論與實(shí)踐融會貫通。全書一共11章,邏輯上分為兩大部分:第一部分 R語言工具箱(第1-6章)首先從數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清洗、數(shù)據(jù)計(jì)算、循環(huán)和迭代等幾個(gè)方面詳細(xì)講解了R語言中相關(guān)的各種常用的工具,然后深入地講解了R語言中的“超級瑞士軍刀”data.table包。掌握這部分內(nèi)容,能滿足R語言數(shù)據(jù)處理中的基本需求。第二部分 數(shù)據(jù)科學(xué)實(shí)戰(zhàn)案例(第7-11章)第7章首先對數(shù)據(jù)科學(xué)從業(yè)者的現(xiàn)狀和未來應(yīng)該掌握的技術(shù)和工具進(jìn)行了介紹;第8-11章通過4個(gè)綜合性的案例講解了使用R語言進(jìn)行數(shù)據(jù)處理和分析的一整套流程和方法,與第一部分的內(nèi)容融會貫通。

作者簡介

  劉健資深R語言技術(shù)專家,數(shù)據(jù)科學(xué)工程師。在新西蘭皇家植物與食品研究院工作,參與一項(xiàng)國際和兩項(xiàng)國家的級別研究項(xiàng)目,使用R語言開發(fā)完成氣象數(shù)據(jù)自動(dòng)提取和模型文件自動(dòng)化工具。由此參與編寫《Landscape Modelling and Decision Support》(在審)一書;獨(dú)立開發(fā)完成R語言程序包一個(gè)。該程序包主要針對模型軟件APSIMX的輸出數(shù)據(jù)進(jìn)行整合及可視化;氣象數(shù)據(jù)自動(dòng)化報(bào)告系統(tǒng)。使用R語言對新西蘭不同地區(qū)的氣象數(shù)據(jù)進(jìn)行自動(dòng)獲取、歸集和可視化報(bào)告。科研上,作為作者發(fā)表期刊一篇,作者撰寫科研報(bào)告兩篇;作為R語言技術(shù)專家合作撰寫期刊一篇,合作撰寫科研報(bào)告16篇。鄔書豪資深R語言用戶和數(shù)據(jù)分析工程師,是數(shù)據(jù)科學(xué)領(lǐng)域10萬粉絲的知名公眾號人工智能愛好者社區(qū)的負(fù)責(zé)人,公眾號文章閱讀量破百萬。喜歡用SQL、R和Python解決工作中的數(shù)據(jù)科學(xué)問題,致力于成為一名有深度行業(yè)實(shí)踐經(jīng)驗(yàn)積累的數(shù)據(jù)科學(xué)家。在天善智能社區(qū)開設(shè)有R語言視頻課程《kaggle十大案例精講課程》。個(gè)人公眾號:人工智能愛好者社區(qū) 。讀者可加作者微信號:wshinvest1,進(jìn)入本書專屬讀者答疑群。

圖書目錄

推薦語

前言

第一部分 工具包篇

第1章 數(shù)據(jù)導(dǎo)入工具2

1.1 utils—數(shù)據(jù)讀取基本功3

1.1.1 read.csv/csv2—逗號分隔數(shù)據(jù)讀取3

1.1.2 read.delim/delim2—特定分隔符數(shù)據(jù)讀取6

1.1.3 read.table—任意分隔符數(shù)據(jù)讀取7

1.2 readr—進(jìn)階數(shù)據(jù)讀取15

1.3 utils vs readr—你喜歡哪個(gè)?17

1.4 readxl—Excel文件讀取18

1.5 DBI—數(shù)據(jù)庫數(shù)據(jù)查詢、下載21

1.6 pdftools—PDF文件22

1.7 jsonlite—JSON文件25

1.8 foreign package統(tǒng)計(jì)軟件數(shù)據(jù)26

1.9 本章小結(jié)27

第2章 數(shù)據(jù)清理工具28

2.1 基本概念29

2.2 tibble包—數(shù)據(jù)集準(zhǔn)備31

2.2.1 為什么使用tibble32

2.2.2 創(chuàng)建tbl格式34

2.2.3 as_tibble—轉(zhuǎn)換已有格式的數(shù)據(jù)集34

2.2.4 add_row/column—實(shí)用小工具37

2.3 tidyr—數(shù)據(jù)清道夫40

2.3.1 為什么使用tidyr40

2.3.2 gather/spread—“長”“寬”數(shù)據(jù)轉(zhuǎn)換40

2.3.3 separate/unite—拆分合并列43

2.3.4 replace_na / drop_na/—默認(rèn)值處理工具44

2.3.5 fill/complete—填坑神器44

2.3.6 separate_rows/nest/unest—行數(shù)據(jù)處理45

2.4 lubridate日期時(shí)間處理47

2.4.1 為什么使用lubridate47

2.4.2 ymd/ymd_hms—年月日還是日月年?48

2.4.3 year/month/week/day/hour/minute/second—時(shí)間單位提取49

2.4.4 guess_formats/parse_date_time—時(shí)間日期格式分析49

2.5 stringr字符處理工具51

2.5.1 baseR vs stringr51

2.5.2 正則表達(dá)式基礎(chǔ)53

2.5.3 簡易正則表達(dá)式創(chuàng)建54

2.5.4 文本挖掘淺析55

第3章 數(shù)據(jù)計(jì)算工具58

3.1 baseR計(jì)算工具概覽59

3.1.1 基本數(shù)學(xué)函數(shù)59

3.1.2 基本運(yùn)算符號61

3.1.3 基本統(tǒng)計(jì)函數(shù)62

3.2 dplyr包實(shí)戰(zhàn)技巧63

3.2.1 常見實(shí)用函數(shù)中英對照 63

3.2.2 dplyr—行(Row)數(shù)據(jù)處理64

3.2.3 dplyr—列(Column)數(shù)據(jù)處理 73

3.3 文本挖掘?qū)嵅?8

第4章 基本循環(huán)—loops和*apply92

4.1 for循環(huán)93

4.1.1 基本概念93

4.1.2 基本構(gòu)建過程94

4.1.3 簡單應(yīng)用97

4.2 while循環(huán)98

4.2.1 基本概念98

4.2.2 基本構(gòu)建過程99

4.2.3 簡單應(yīng)用100

4.3 “*apply”函數(shù)家族102

4.3.1 lapply—“線性”數(shù)據(jù)迭代103

4.3.2 sapply—簡約而不簡單106

4.3.3 apply—多維數(shù)據(jù)處理利器107

4.3.4 vapply—迭代的安全模式109

4.3.5 rapply—多層列表數(shù)據(jù)處理112

4.3.6 mapply—對多個(gè)列表進(jìn)行函數(shù)運(yùn)算115

第5章 優(yōu)雅的循環(huán)—purrr包119

5.1 map函數(shù)家族120

5.1.1 map—對單一元素進(jìn)行迭代運(yùn)算120

5.1.2 map2和pmap—對兩個(gè)及以上元素進(jìn)行迭代運(yùn)算125

5.1.3 imap—變量名稱或位置迭代128

5.1.4 lmap—對列表型數(shù)據(jù)中的列表元素進(jìn)行迭代運(yùn)算130

5.1.5 invoke_map—對多個(gè)元素進(jìn)行多個(gè)函數(shù)的迭代運(yùn)算131

5.2 探測函數(shù)群134

5.2.1 detect/detect_index—尋找第一個(gè)匹配條件的值134

5.2.2 every/some—列表中是否全部或部分元素滿足條件?136

5.2.3 has_element—向量中是否存在想要的元素?137

5.2.4 head/tail_while—滿足條件之前和之后的元素138

5.2.5 keep/discard/com-pact—有條件篩選139

5.2.6 prepend—隨意插入數(shù)據(jù)141

5.3 向量操縱工具箱142

5.3.1 accumulate和reduce家族—元素累積運(yùn)算142

5.3.2 其他工具函數(shù)143

5.4 其他實(shí)用函數(shù)144

5.4.1 set_names—命名向量中的元素144

5.4.2 vec_depth—嵌套列表型數(shù)據(jù)探測器148

5.5 循環(huán)讀取、清理和計(jì)算149

第6章 data.table—超級“瑞士軍刀”152

6.1 data.table簡介152

6.2 基本函數(shù)153

6.2.1 fread—速讀153

6.2.2 DT[i, j, by]—數(shù)據(jù)處理句式基本結(jié)構(gòu)158

6.2.3 “:=”—急速修改數(shù)值162

6.2.4 fwrite—速寫,數(shù)據(jù)輸出165

6.3 進(jìn)階應(yīng)用167

6.3.1 有條件的急速行篩選168

6.3.2 列選擇的多種可能171

6.3.3 批量處理列及列的分裂與合并173

6.3.4 合并數(shù)據(jù)集176

6.3.5 “長寬”數(shù)據(jù)置換177

6.3.6 計(jì)算分析178

第二部分 案例篇

第7章 數(shù)據(jù)科學(xué)從業(yè)者調(diào)查分析182

7.1 案例背景及變量介紹182

7.2 簡單數(shù)據(jù)清洗183

7.3 數(shù)據(jù)科學(xué)從業(yè)者探索性數(shù)據(jù)分析186

7.4 封裝繪圖函數(shù)189

7.5 通過柱狀圖進(jìn)行探索性分析數(shù)據(jù)190

7.6 未來將會學(xué)習(xí)的機(jī)器學(xué)習(xí)工具193

7.7 明年將學(xué)習(xí)的機(jī)器學(xué)習(xí)方法194

第8章 共享單車租用頻次分析198

8.1 案例簡介198

8.2 數(shù)據(jù)準(zhǔn)備及描述性統(tǒng)計(jì)分析199

8.3 數(shù)據(jù)重塑201

8.4 柱狀圖在數(shù)據(jù)分析中的簡單應(yīng)用202

8.5 柱狀和扇形圖在數(shù)據(jù)分析中的運(yùn)用204

8.6 折線圖在數(shù)據(jù)分析中的運(yùn)用207

8.7 相關(guān)系數(shù)圖綜合分析209

第9章 星巴克商業(yè)案例分析211

9.1 案例背景介紹及變量介紹211

9.2 數(shù)據(jù)描述性統(tǒng)計(jì)量分析212

9.3 數(shù)據(jù)統(tǒng)計(jì)分析213

第10章 學(xué)生成績水平分析220

10.1 數(shù)據(jù)集220

10.2 探索性數(shù)據(jù)分析229

第11章 YouTube視頻觀看分析234

11.1 案例背景及相關(guān)內(nèi)容介紹234

11.2 探索性數(shù)據(jù)分析237

 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號