注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件與程序設計Python數據分析與數據化運營(第2版)

Python數據分析與數據化運營(第2版)

Python數據分析與數據化運營(第2版)

定 價:¥129.00

作 者: 宋天龍 著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111627760 出版時間: 2019-07-01 包裝: 平裝
開本: 16開 頁數: 字數:  

內容簡介

  這是一本將數據分析技術與數據使用場景深度結合的著作,從實戰(zhàn)角度講解了如何利用Python進行數據分析和數據化運營。 暢銷書全新、大幅升級,第1版近乎100%的好評,第2版不僅將Python升級到了新的版本,而且對具體內容進行了大幅度的補充和優(yōu)化。作者是有10余年數據分析與數據化運營的資深大數據專家,書中對50余個數據工作流知識點、14個數據分析與挖掘主題、4個數據化運營主題、8個綜合性案例進行了全面的講解,能讓數據化運營結合數據使用場景360°落地。 全書一共9章,分為兩個部分: 第一部分(第1-4章) Python數據分析與挖掘 首先介紹了Python和數據化運營的基本知識,然后詳細講解了Python數據獲取(結構化和非結構化)、預處理、分析和挖掘的關鍵技術和經驗,包含10大類預處理經驗、14個數據分析與挖掘主題,50余個知識點。 第二部分(第5~9章) Python數據化運營 這是本書的核心,詳細講解了會員運營、商品運營、流量運營和內容運營4大主題,以及提升數據化運營價值的方法。每個運營主題中都包含了基本知識、評估指標、應用場景、數據分析模型、數據分析小技巧、數據分析大實話以及2個綜合性的應用案例。

作者簡介

  宋天龍(TonySong) 大數據技術專家,觸脈咨詢合伙人兼副總裁,前Webtrekk中國區(qū)技術和咨詢負責人(Webtrekk,德國的在線數據分析服務提供商)。 擅長數據挖掘、建模、分析與運營,精通端到端數據價值場景設計、業(yè)務需求轉換、數據結構梳理、數據建模與學習以及數據工程交付。在電子商務、零售、銀行、保險等多個行業(yè)擁有豐富的數據項目工作經驗,參與過集團和企業(yè)級數據體系規(guī)劃、DMP與數據倉庫建設、大數據產品開發(fā)、網站流量系統(tǒng)建設、個性化智能推薦與精準營銷、企業(yè)大數據智能等。參與實施客戶案例包括聯(lián)合利華、Webpower、德國OTTO集團電子商務(中國)、Esprit中國、豬八戒網、順豐優(yōu)選、樂視商城、泰康人壽、酒仙網、國美在線、迪信通等。 著有多部暢銷書: 《Python數據分析與數據化運營》 《網站數據挖掘與分析:系統(tǒng)方法與商業(yè)實踐》 《企業(yè)大數據系統(tǒng)構建實戰(zhàn):技術、架構、實施與應用》

圖書目錄

前言
第1章 Python和數據化運營1
1.1 用Python做數據化運營1
1.1.1 Python是什么1
1.1.2 數據化運營是什么2
1.1.3 Python用于數據化運營5
1.2 數據化運營所需的Python相關工具和組件5
1.2.1 Python程序6
1.2.2 Python交互環(huán)境Jupyter7
1.2.3 Python第三方庫23
1.2.4 數據庫和客戶端29
1.2.5 SSH遠程客戶端30
1.3 內容延伸:Python的OCR和tensorflow31
1.3.1 OCR工具:Tesseract-ocr31
1.3.2 機器學習框架:TensorFlow31
1.4 第1個用Python實現(xiàn)的數據化運營分析實例、銷售預測32
1.4.1 案例概述32
1.4.2 案例過程32
1.4.3 案例小結36
1.5 本章小結37
第2章 數據化運營的數據來源40
2.1 數據化運營的數據來源類型40
2.1.1 數據文件40
2.1.2 數據庫41
2.1.3 API42
2.1.4 流式數據43
2.1.5 外部公開數據43
2.1.6 其他來源44
2.2 使用Python獲取運營數據44
2.2.1 從文本文件讀取運營數據44
2.2.2 從Excel獲取運營數據55
2.2.3 從關系型數據庫MySQL讀取運營數據57
2.2.4 從非關系型數據庫MongoDB讀取運營數據64
2.2.5 從API獲取運營數據68
2.3 內容延伸:讀取非結構化網頁、文本、圖像、視頻、語音72
2.3.1 從網頁中獲取運營數據72
2.3.2 讀取非結構化文本數據73
2.3.3 讀取圖像數據74
2.3.4 讀取視頻數據78
2.3.5 讀取語音數據81
2.4 本章小結85
第3章 10條數據化運營不得不知道的數據預處理經驗87
3.1 數據清洗:缺失值、異常值和重復值的處理87
3.1.1 數據列缺失的4種處理方法87
3.1.2 不要輕易拋棄異常數據89
3.1.3 數據重復就需要去重嗎90
3.1.4 代碼實操:Python數據清洗92
3.2 將分類數據和順序數據轉換為標志變量100
3.2.1 分類數據和順序數據是什么100
3.2.2 運用標志方法處理分類和順序變量101
3.2.3 代碼實操:Python標志轉換101
3.3 大數據時代的數據降維104
3.3.1 需要數據降維的情況104
3.3.2 基于特征選擇的降維105
3.3.3 基于特征轉換的降維106
3.3.4 基于特征組合的降維112
3.3.5 代碼實操:Python數據降維114
3.4 解決樣本類別分布不均衡的問題123
3.4.1 哪些運營場景中容易出現(xiàn)樣本不均衡124
3.4.2 通過過抽樣和欠抽樣解決樣本不均衡124
3.4.3 通過正負樣本的懲罰權重解決樣本不均衡124
3.4.4 通過組合/集成方法解決樣本不均衡125
3.4.5 通過特征選擇解決樣本不均衡125
3.4.6 代碼實操:Python處理樣本不均衡125
3.5 數據化運營要抽樣還是全量數據128
3.5.1 什么時候需要抽樣128
3.5.2 如何進行抽樣129
3.5.3 抽樣需要注意的幾個問題130
3.5.4 代碼實操:Python數據抽樣131
3.6 解決運營數據的共線性問題135
3.6.1 如何檢驗共線性135
3.6.2 解決共線性的5種常用方法136
3.6.3 代碼實操:Python處理共線性問題137
3.7 有關相關性分析的混沌139
3.7.1 相關和因果是一回事嗎139
3.7.2 相關系數低就是不相關嗎139
3.7.3 代碼實操:Python相關性分析140
3.8 標準化,讓運營數據落入相同的范圍141
3.8.1 實現(xiàn)中心化和正態(tài)分布的Z-Score141
3.8.2 實現(xiàn)歸一化的Max-Min142
3.8.3 用于稀疏數據的MaxAbs142
3.8.4 針對離群點的RobustScaler142
3.8.5 代碼實操:Python數據標準化處理142
3.9 離散化,對運營數據做邏輯分層145
3.9.1 針對時間數據的離散化145
3.9.2 針對多值離散數據的離散化146
3.9.3 針對連續(xù)數據的離散化146
3.9.4 針對連續(xù)數據的二值化147
3.9.5 代碼實操:Python數據離散化處理147
3.10 內容延伸:非結構化數據的預處理151
3.10.1 網頁數據解析151
3.10.2 網絡用戶日志解析159
3.10.3 圖像的基本預處理164
3.10.4 自然語言文本預處理169
3.11 本章小結172
第4章 跳過運營數據分析和挖掘的“大坑”174
4.1 聚類分析174
4.1.1 當心數據異常對聚類結果的影響175
4.1.2 超大數據量時應該放棄K均值算法175
4.1.3 聚類不僅是建模的終點,更是重要的中間預處理過程177
4.1.4 高維數據上無法應用聚類嗎178
4.1.5 如何選擇聚類分析算法179
4.1.6 案例:客戶特征的聚類與探索性分析179
4.2 回歸分析196
4.2.1 注意回歸自變量之間的共線性問題197
4.2.2 相關系數、判定系數和回歸系數之間是什么關系197
4.2.3 判定系數是否意味著相應的因果聯(lián)系197
4.2.4 注意應用回歸模型時研究自變量是否產生變化198
4.2.5 如何選擇回歸分析算法198
4.2.6 案例:大型促銷活動前的銷售預測199
4.3 分類分析206
4.3.1 防止分類模型的過擬合問題207
4.3.2 使用關聯(lián)算法做分類分析207
4.3.3 用分類分析來提煉規(guī)則、提取變量、處理缺失值208
4.3.4 類別劃分:分類算法和聚類算法都是好手209
4.3.5 如何選擇分類分析算法210
4.3.6 案例:用戶流失預測分析與應用210
4.4 關聯(lián)分析221
4.4.1 頻繁規(guī)則不一定是有效規(guī)則221
4.4.2 不要被啤酒尿布的故事禁錮你的思維222
4.4.3 被忽略的“負相關”模式真的毫無用武之地嗎223
4.4.4 頻繁規(guī)則只能打包組合應用嗎2

本目錄推薦

掃描二維碼
Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號