注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能精通特征工程:Python

精通特征工程:Python

精通特征工程:Python

定 價(jià):¥59.00

作 者: [美] 愛(ài)麗絲·鄭(Alice Zheng) 著,陳光欣 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787115509680 出版時(shí)間: 2019-04-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 156 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書介紹大量特征工程技術(shù),闡明特征工程的基本原則。主要內(nèi)容包括:機(jī)器學(xué)習(xí)流程中的基本概念,數(shù)值型數(shù)據(jù)的基礎(chǔ)特征工程,自然文本的特征工程,詞頻- 逆文檔頻率,高效的分類變量編碼技術(shù),主成分分析,模型堆疊,圖像處理,等等。

作者簡(jiǎn)介

  愛(ài)麗絲·鄭(Alice Zheng) ***廣告平臺(tái)建模和優(yōu)化團(tuán)隊(duì)負(fù)責(zé)人,應(yīng)用機(jī)器學(xué)習(xí)、生成算法和平臺(tái)開(kāi)發(fā)領(lǐng)域的技術(shù)領(lǐng)dao者,前微軟研究院機(jī)器學(xué)習(xí)研究員。阿曼達(dá)·卡薩麗(Amanda Casari) 谷歌云開(kāi)發(fā)者關(guān)系工程經(jīng)理,曾是Concur Labs的產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家,在數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、復(fù)雜系統(tǒng)和機(jī)器人等多個(gè)領(lǐng)域都有豐富經(jīng)驗(yàn)。

圖書目錄

前言   ix
第 1 章 機(jī)器學(xué)習(xí)流程 1
1.1 數(shù)據(jù) 1
1.2 任務(wù) 1
1.3 模型 2
1.4 特征 3
1.5 模型評(píng)價(jià) 3
第 2 章 簡(jiǎn)單而又奇妙的數(shù)值 4
2.1 標(biāo)量、向量和空間 5
2.2 處理計(jì)數(shù) 7
2.2.1 二值化 7
2.2.2 區(qū)間量化(分箱) 9
2.3 對(duì)數(shù)變換 13
2.3.1 對(duì)數(shù)變換實(shí)戰(zhàn) 16
2.3.2 指數(shù)變換:對(duì)數(shù)變換的推廣 19
2.4 特征縮放/ 歸一化 24
2.4.1 min-max 縮放 24
2.4.2 特征標(biāo)準(zhǔn)化/ 方差縮放 24
2.4.3 2
歸一化 25
2.5 交互特征 28
2.6 特征選擇 30
2.7 小結(jié) 31
2.8 參考文獻(xiàn) 32
第3 章 文本數(shù)據(jù):扁平化、過(guò)濾和分塊 33
3.1 元素袋:將自然文本轉(zhuǎn)換為扁平向量 34
3.1.1 詞袋 34
3.1.2 n 元詞袋 37
3.2 使用過(guò)濾獲取清潔特征 39
3.2.1 停用詞 39
3.2.2 基于頻率的過(guò)濾 40
3.2.3 詞干提取 42
3.3 意義的單位:從單詞、n 元詞到短語(yǔ) 43
3.3.1 解析與分詞 43
3.3.2 通過(guò)搭配提取進(jìn)行短語(yǔ)檢測(cè) 44
3.4 小結(jié) 50
3.5 參考文獻(xiàn) 51
第4 章 特征縮放的效果:從詞袋到tf-idf 52
4.1 tf-idf:詞袋的一種簡(jiǎn)單擴(kuò)展 52
4.2 tf-idf 方法測(cè)試 54
4.2.1 創(chuàng)建分類數(shù)據(jù)集 55
4.2.2 使用tf-idf 變換來(lái)縮放詞袋 56
4.2.3 使用邏輯回歸進(jìn)行分類 57
4.2.4 使用正則化對(duì)邏輯回歸進(jìn)行調(diào)優(yōu) 58
4.3 深入研究:發(fā)生了什么 62
4.4 小結(jié) 64
4.5 參考文獻(xiàn) 64
第5 章 分類變量:自動(dòng)化時(shí)代的數(shù)據(jù)計(jì)數(shù) 65
5.1 分類變量的編碼 66
5.1.1 one-hot 編碼 66
5.1.2 虛擬編碼 66
5.1.3 效果編碼 69
5.1.4 各種分類變量編碼的優(yōu)缺點(diǎn) 70
5.2 處理大型分類變量 70
5.2.1 特征散列化 71
5.2.2 分箱計(jì)數(shù) 73
5.3 小結(jié) 79
5.4 參考文獻(xiàn) 80
第6 章 數(shù)據(jù)降維:使用PCA 擠壓數(shù)據(jù) 82
6.1 直觀理解 82
6.2 數(shù)學(xué)推導(dǎo) 84
6.2.1 線性投影 84
6.2.2 方差和經(jīng)驗(yàn)方差 85
6.2.3 主成分:第 一種表示形式 86
6.2.4 主成分:矩陣- 向量表示形式 86
6.2.5 主成分的通用解 86
6.2.6 特征轉(zhuǎn)換 87
6.2.7 PCA 實(shí)現(xiàn) 87
6.3 PCA 實(shí)戰(zhàn) 88
6.4 白化與ZCA 89
6.5 PCA 的局限性與注意事項(xiàng) 90
6.6 用例 91
6.7 小結(jié) 93
6.8 參考文獻(xiàn) 93
第7 章 非線性特征化與k-均值模型堆疊 94
7.1 k-均值聚類 95
7.2 使用聚類進(jìn)行曲面拼接 97
7.3 用于分類問(wèn)題的k-均值特征化 100
7.4 優(yōu)點(diǎn)、缺點(diǎn)以及陷阱 105
7.5 小結(jié) 107
7.6 參考文獻(xiàn) 107
第8 章 自動(dòng)特征生成:圖像特征提取和深度學(xué)習(xí) 108
8.1 最簡(jiǎn)單的圖像特征(以及它們因何失效) 109
8.2 人工特征提?。篠IFT 和HOG 110
8.2.1 圖像梯度 110
8.2.2 梯度方向直方圖 113
8.2.3 SIFT 體系 116
8.3 通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征 117
8.3.1 全連接層 117
8.3.2 卷積層 118
8.3.3 ReLU 變換 122
8.3.4 響應(yīng)歸一化層 123
8.3.5 池化層 124
8.3.6 AlexNet 的結(jié)構(gòu) 124
8.4 小結(jié) 127
8.5 參考文獻(xiàn) 128
第9 章 回到特征:建立學(xué)術(shù)論文推薦器 129
9.1 基于項(xiàng)目的協(xié)同過(guò)濾 129
9.2 第 一關(guān):數(shù)據(jù)導(dǎo)入、清理和特征解析 130
9.3 第二關(guān):更多特征工程和更智能的模型 136
9.4 第三關(guān):更多特征= 更多信息 141
9.5 小結(jié) 144
9.6 參考文獻(xiàn) 144
附錄A 線性建模與線性代數(shù)基礎(chǔ) 145
A.1 線性分類概述 145
A.2 矩陣的解析 147
A.2.1 從向量到子空間 148
A.2.2 奇異值分解(SVD) 150
A.2.3 數(shù)據(jù)矩陣的四個(gè)基本子空間 151
A.3 線性系統(tǒng)求解 153
A.4 參考文獻(xiàn) 155
作者簡(jiǎn)介 156
封面簡(jiǎn)介 156

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)