注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書教育/教材/教輔教材研究生/本科/專科教材數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(Python+Hadoop+Hive 微課視頻版)

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(Python+Hadoop+Hive 微課視頻版)

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(Python+Hadoop+Hive 微課視頻版)

定 價:¥59.80

作 者: 魏偉一,張國治,秦紅武
出版社: 清華大學出版社
叢編項: 大數(shù)據(jù)與人工智能技術叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302625735 出版時間: 2023-03-01 包裝: 平裝
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  本書主要介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本概念和方法,包括數(shù)據(jù)預處理、數(shù)據(jù)倉庫與聯(lián)機分析處理、數(shù)據(jù)倉庫設計與開發(fā)、回歸分析、關聯(lián)規(guī)則挖掘、分類、聚類、神經(jīng)網(wǎng)絡與深度學習、離群點檢測以及文本和時序數(shù)據(jù)挖掘等內容。 各章力求原理敘述清晰,易于理解,突出理論聯(lián)系實際, 輔以代碼實踐與指導,引領讀者更好地理解與應用算法,快速邁進數(shù)據(jù)倉庫與數(shù)據(jù)挖掘領域 。本書可作為高等學校計算機科學與技術、數(shù)據(jù)科學與大數(shù)據(jù)技術等相關專業(yè)的教材,也可作為科研人員、工程師和大數(shù)據(jù)愛好者的參考書。

作者簡介

暫缺《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(Python+Hadoop+Hive 微課視頻版)》作者簡介

圖書目錄

目錄




掃一掃




源碼下載



第1章緒論


1.1數(shù)據(jù)倉庫概述


1.1.1數(shù)據(jù)倉庫的定義及特點


1.1.2數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫的關系


1.1.3數(shù)據(jù)倉庫的組成


1.1.4數(shù)據(jù)倉庫的應用


1.1.5基于Hadoop/Spark的數(shù)據(jù)倉庫技術


1.2數(shù)據(jù)挖掘概述


1.2.1數(shù)據(jù)挖掘的概念


1.2.2數(shù)據(jù)挖掘的主要任務


1.2.3數(shù)據(jù)挖掘的數(shù)據(jù)源


1.2.4數(shù)據(jù)挖掘使用的技術


1.2.5數(shù)據(jù)挖掘存在的主要問題


1.2.6數(shù)據(jù)挖掘建模的常用工具


1.2.7Python數(shù)據(jù)挖掘常用庫


1.3數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系


1.3.1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別


1.3.2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的聯(lián)系


1.4小結


習題1


第2章認識數(shù)據(jù)


2.1屬性及其類型


2.1.1屬性


2.1.2屬性類型


2.2數(shù)據(jù)的基本統(tǒng)計描述


2.2.1中心趨勢度量


2.2.2數(shù)據(jù)散布度量


2.3數(shù)據(jù)可視化


2.3.1基于像素的可視化技術


2.3.2幾何投影可視化技術


2.3.3基于圖符的可視化技術


2.3.4層次可視化技術


2.3.5可視化復雜對象和關系


2.3.6高維數(shù)據(jù)可視化


2.3.7Python數(shù)據(jù)可視化


2.4數(shù)據(jù)對象的相似性度量


2.4.1數(shù)據(jù)矩陣和相異性矩陣


2.4.2標稱屬性的相似性度量


2.4.3二元屬性的相似性度量


2.4.4數(shù)值屬性的相似性度量


2.4.5序數(shù)屬性的相似性度量


2.4.6混合類型屬性的相似性


2.4.7余弦相似性


2.4.8距離度量的Python實現(xiàn)


2.5小結


習題2






第3章數(shù)據(jù)預處理


3.1數(shù)據(jù)預處理的必要性


3.1.1原始數(shù)據(jù)中存在的問題


3.1.2數(shù)據(jù)質量要求


3.2數(shù)據(jù)清洗


3.2.1數(shù)據(jù)清洗方法


3.2.2利用Pandas進行數(shù)據(jù)清洗


3.3數(shù)據(jù)集成


3.3.1數(shù)據(jù)集成過程中的關鍵問題


3.3.2利用Pandas合并數(shù)據(jù)


3.4數(shù)據(jù)標準化


3.4.1離差標準化數(shù)據(jù)


3.4.2標準差標準化數(shù)據(jù)


3.5數(shù)據(jù)歸約


3.5.1維歸約


3.5.2數(shù)量歸約


3.5.3數(shù)據(jù)壓縮


3.6數(shù)據(jù)變換與數(shù)據(jù)離散化


3.6.1數(shù)據(jù)變換的策略


3.6.2Python數(shù)據(jù)變換與離散化


3.7利用sklearn進行數(shù)據(jù)預處理


3.8小結


習題3


第4章數(shù)據(jù)倉庫與聯(lián)機分析處理


4.1數(shù)據(jù)倉庫的體系


4.1.1數(shù)據(jù)倉庫體系結構


4.1.2數(shù)據(jù)ETL


4.1.3數(shù)據(jù)集市


4.1.4元數(shù)據(jù)


4.2多維數(shù)據(jù)模型與OLAP


4.2.1多維數(shù)據(jù)模型的相關概念


4.2.2OLAP的基本分析操作


4.2.3多維數(shù)據(jù)模型的實現(xiàn)


4.3數(shù)據(jù)倉庫的維度建模


4.3.1數(shù)據(jù)倉庫維度建模概述


4.3.2星形模型


4.3.3雪花模型


4.4數(shù)據(jù)倉庫發(fā)展


4.4.1動態(tài)數(shù)據(jù)倉庫


4.4.2數(shù)據(jù)中心


4.4.3數(shù)據(jù)中臺


4.5小結


習題4


第5章數(shù)據(jù)倉庫設計與開發(fā)


5.1數(shù)據(jù)倉庫設計概述


5.1.1數(shù)據(jù)倉庫設計的特點


5.1.2數(shù)據(jù)倉庫設計與業(yè)務系統(tǒng)模型設計的區(qū)別


5.1.3數(shù)據(jù)倉庫構建模式


5.1.4數(shù)據(jù)倉庫建立框架


5.2數(shù)據(jù)倉庫設計


5.2.1數(shù)據(jù)倉庫規(guī)劃、需求分析及概念設計


5.2.2數(shù)據(jù)倉庫邏輯模型設計


5.2.3數(shù)據(jù)倉庫物理模型設計


5.2.4數(shù)據(jù)倉庫部署與維護


5.3基于Hive的數(shù)據(jù)倉庫實現(xiàn)


5.3.1Hadoop/Hive簡介


5.3.2Hive數(shù)據(jù)倉庫和數(shù)據(jù)庫比較


5.3.3Hive常用數(shù)據(jù)操作


5.3.4利用Hive建立數(shù)據(jù)倉庫


5.4小結


習題5


第6章回歸分析


6.1回歸分析概述


6.1.1回歸分析的定義與分類


6.1.2回歸分析的過程


6.2一元線性回歸分析


6.2.1一元線性回歸方法


6.2.2一元線性回歸模型的參數(shù)估計


6.2.3一元線性回歸模型的誤差方差估計


6.2.4一元線性回歸模型的主要統(tǒng)計檢驗


6.2.5一元線性回歸的Python實現(xiàn)


6.3多元線性回歸


6.3.1多元線性回歸模型


6.3.2多元線性回歸模型的參數(shù)估計


6.3.3多元線性回歸的假設檢驗及其評價


6.3.4多元線性回歸的Python實現(xiàn)


6.4邏輯回歸


6.4.1邏輯回歸模型


6.4.2邏輯回歸的Python實現(xiàn)


6.5其他回歸分析


6.5.1多項式回歸


6.5.2嶺回歸


6.5.3Lasso回歸


6.5.4彈性回歸


6.5.5逐步回歸


6.6小結


習題6


第7章關聯(lián)規(guī)則挖掘


7.1關聯(lián)規(guī)則挖掘概述


7.2頻繁項集、閉項集和關聯(lián)規(guī)則


7.3頻繁項集挖掘方法


7.3.1Apriori算法


7.3.2由頻繁項集產(chǎn)生關聯(lián)規(guī)則


7.3.3提高Apriori算法的效率


7.3.4頻繁模式增長算法


7.3.5使用垂直數(shù)據(jù)格式挖掘頻繁項集


7.4關聯(lián)模式評估方法


7.5Apriori算法應用


7.6小結


習題7


第8章分類


8.1分類概述


8.2決策樹歸納


8.2.1決策樹原理


8.2.2ID3算法


8.2.3C4.5算法


8.2.4CART算法


8.2.5樹剪枝


8.2.6決策樹應用


8.3K近鄰算法


8.3.1算法原理


8.3.2Python算法實現(xiàn)


8.4支持向量機


8.4.1算法原理


8.4.2Python算法實現(xiàn)


8.5樸素貝葉斯分類


8.5.1算法原理


8.5.2高斯樸素貝葉斯分類


8.5.3多項式樸素貝葉斯分類


8.5.4樸素貝葉斯分類應用


8.6模型評估與選擇


8.6.1分類器性能的度量


8.6.2模型選擇


8.7組合分類


8.7.1組合分類方法簡介


8.7.2袋裝


8.7.3提升和AdaBoost


8.7.4隨機森林


8.8小結


習題8



第9章聚類


9.1聚類分析概述


9.1.1聚類分析的概念


9.1.2聚類算法分類


9.2KMeans聚類


9.2.1算法原理


9.2.2算法改進


9.2.3KMeans算法實現(xiàn)


9.3層次聚類


9.3.1算法原理


9.3.2簇間的距離度量


9.3.3分裂層次聚類


9.3.4凝聚層次聚類


9.3.5層次聚類應用


9.4基于密度的聚類


9.4.1算法原理


9.4.2算法改進


9.4.3DBSCAN算法實現(xiàn)


9.5其他聚類方法


9.5.1STING聚類


9.5.2概念聚類


9.5.3模糊聚類


9.6聚類評估


9.6.1聚類趨勢的估計


9.6.2聚類簇數(shù)的確定


9.6.3聚類質量的測定


9.7小結


習題9


第10章神經(jīng)網(wǎng)絡與深度學習


10.1神經(jīng)網(wǎng)絡基礎


10.1.1神經(jīng)元模型


10.1.2感知機與多層網(wǎng)絡


10.2BP神經(jīng)網(wǎng)絡


10.2.1多層前饋神經(jīng)網(wǎng)絡


10.2.2后向傳播算法


10.2.3BP神經(jīng)網(wǎng)絡應用


10.3深度學習


10.3.1深度學習概述


10.3.2常用的深度學習算法


10.4小結


習題10


第11章離群點檢測


11.1離群點概述


11.1.1離群點的概念


11.1.2離群點的類型


11.1.3離群點檢測的挑戰(zhàn)


11.2離群點的檢測


11.2.1基于統(tǒng)計學的離群點檢測


11.2.2基于鄰近性的離群點檢測


11.2.3基于聚類的離群點檢測


11.2.4基于分類的離群點檢測


11.3sklearn中的異常檢測方法


11.4小結


習題11


第12章文本和時序數(shù)據(jù)挖掘


12.1文本數(shù)據(jù)挖掘


12.1.1文本挖掘概述


12.1.2文本挖掘的過程與任務


12.2文本分析與挖掘的主要方法


12.2.1詞語分詞


12.2.2詞性標注與停用詞過濾


12.2.3文本表征


12.2.4文本分類


12.2.5文本聚類


12.2.6文本可視化


12.3時序數(shù)據(jù)挖掘


12.3.1時間序列和時間序列分析


12.3.2時間序列平穩(wěn)性和隨機性判定


12.3.3自回歸滑動平均模型


12.3.4差分整合移動平均自回歸模型


12.3.5季節(jié)性差分自回歸移動平均模型


12.4小結


習題12


第13章數(shù)據(jù)挖掘案例


13.1良性/惡性乳腺腫瘤預測


13.2泰坦尼克號乘客生還預測


13.3圖像的聚類分割


13.4小結


參考文獻



本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號