深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)

定　價(jià)：￥128.00

作　者：	（埃及）穆罕默德·埃爾根迪（Mohamed Elgendy）著
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

ISBN：	9787302609940	出版時(shí)間：	2022-08-01	包裝：	平裝
開(kāi)本：		頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　計(jì)算機(jī)視覺(jué)有多先進(jìn)？開(kāi)一開(kāi)特斯拉就知道了。深度學(xué)習(xí)技術(shù)已在人臉識(shí)別、交互式仿真和醫(yī)學(xué)成像方面取得令人興奮的突破，但最讓人心潮澎湃的當(dāng)屬自動(dòng)駕駛技術(shù)。如今，自動(dòng)駕駛的汽車已經(jīng)能在高速路上暢意馳騁并對(duì)各種復(fù)雜路況做出靈活反應(yīng)了。計(jì)算機(jī)如何“理解”它所“看到”的東西？本書(shū)試圖將深度學(xué)習(xí)應(yīng)用于計(jì)算機(jī)視覺(jué)以回答該問(wèn)題。本書(shū)僅用高中代數(shù)知識(shí)闡明視覺(jué)直覺(jué)背后的概念。你將了解如何使用深度學(xué)習(xí)架構(gòu)來(lái)構(gòu)建視覺(jué)系統(tǒng)應(yīng)用程序，以實(shí)現(xiàn)圖像生成和人臉識(shí)別功能。主要內(nèi)容●圖像分類和目標(biāo)檢測(cè)●先進(jìn)的深度學(xué)習(xí)架構(gòu)●遷移學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)●DeepDream和神經(jīng)風(fēng)格遷移●視覺(jué)嵌入和圖像搜索

作者簡(jiǎn)介

　　Mohamed Elgendy，現(xiàn)任Rakuten（樂(lè)天）公司的工程副總裁，掌管該公司的AI平臺(tái)和產(chǎn)品的開(kāi)發(fā)。此前，他曾擔(dān)任Synapse Technology公司的工程主管，負(fù)責(zé)開(kāi)發(fā)專用于世界范圍內(nèi)安全威脅檢測(cè)的計(jì)算機(jī)視覺(jué)應(yīng)用程序；后在亞馬遜建立并管理了一支中央AI團(tuán)隊(duì)。該團(tuán)隊(duì)充當(dāng)AWS和Amazon Go等亞馬遜工程團(tuán)隊(duì)的深度學(xué)習(xí)智囊團(tuán)。他還在亞馬遜機(jī)器學(xué)習(xí)大學(xué)（Amazon's Machine University）開(kāi)發(fā)了計(jì)算機(jī)視覺(jué)的深度學(xué)習(xí)課程。時(shí)至今日，Mohamed還經(jīng)常在亞馬遜開(kāi)發(fā)者大會(huì)、O'Reilly人工智能峰會(huì)和谷歌I/O大會(huì)上發(fā)表演講。

圖書(shū)目錄

第Ⅰ部分深度學(xué)習(xí)基礎(chǔ)

1 章概述3

1.1 計(jì)算機(jī)視覺(jué) 4

1.1.1 視覺(jué)感知的定義 4

1.1.2 視覺(jué)系統(tǒng) 4

1.1.3 感知設(shè)備 6

1.1.4 解譯設(shè)備 7

1.2 CV 應(yīng)用 8

1.2.1 圖像分類 9

1.2.2 目標(biāo)檢測(cè)與定位10

1.2.3 生成藝術(shù)(風(fēng)格遷移) 11

1.2.4 圖像生成11

1.2.5 人臉識(shí)別12

1.2.6 圖片推薦系統(tǒng)13

1.3 計(jì)算機(jī)視覺(jué)管道概覽 14

1.4 圖像輸入 15

1.4.1 圖像的函數(shù)表達(dá)16

1.4.2 計(jì)算機(jī)讀取圖像17

1.4.3 彩色圖像17

1.5 圖像處理 19

1.6 特征提取 21

1.6.1 計(jì)算機(jī)視覺(jué)中特征的

定義22

1.6.2 有用特征的定義23

1.6.3 手動(dòng)與自動(dòng)的特征

提取25

1.7 分類器學(xué)習(xí)算法 27

1.8 本章小結(jié) 28

第2 章深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò) 29

2.1 理解感知機(jī) 30

2.1.1 感知機(jī)的定義31

2.1.2 感知機(jī)的學(xué)習(xí)機(jī)制34

2.1.3 單層感知機(jī)的

局限性35

2.2 多層感知機(jī) 36

2.2.1 多層感知機(jī)架構(gòu)37

2.2.2 關(guān)于隱藏層38

2.2.3 隱藏層的設(shè)計(jì)38

2.2.4 本節(jié)內(nèi)容拓展40

2.3 激活函數(shù) 41

2.3.1 線性轉(zhuǎn)移函數(shù)42

2.3.2 Heaviside 階躍函數(shù)

(二元分類器) 43

2.3.3 Sigmoid/logistic

函數(shù)43

2.3.4 Softmax 函數(shù)46

2.3.5 雙_3恄黖衉J曲正切函數(shù)

2.5.1 誤差函數(shù)的定義55

2.5.2 誤差函數(shù)的意義55

2.5.3 誤差為正的必要性55

2.5.4 均方誤差損失函數(shù)56

2.5.5 交叉熵?fù)p失函數(shù)57

2.5.6 關(guān)于誤差和權(quán)重的補(bǔ)充

說(shuō)明58

2.6 優(yōu)化算法 59

2.6.1 優(yōu)化的定義59

2.6.2 批梯度下降62

2.6.3 隨機(jī)梯度下降67

2.6.4 小批梯度下降68

2.6.5 梯度下降總結(jié)68

2.7 反向傳播 69

2.7.1 反向傳播的定義70

2.7.2 反向傳播總結(jié)72

2.8 本章總結(jié) 73

第3 章卷積神經(jīng)網(wǎng)絡(luò)75

3.1 使用MLP 進(jìn)行圖像

分類 76

3.1.1 輸入層76

3.1.2 隱藏層78

3.1.3 輸出層78

3.1.4 組合78

3.1.5 MLP 處理圖像的

缺點(diǎn)80

3.2 CNN 架構(gòu) 82

3.2.1 概述83

3.2.2 特征提取詳解84

3.2.3 分類詳解85

3.3 CNN 的基本組件 85

3.3.1 卷積層86

3.3.2 池化層或下采樣92

3.3.3 全連接層96

3.4 使用CNN 進(jìn)行圖像

分類 98

3.4.1 構(gòu)建模型體系架構(gòu)98

3.4.2 參數(shù)(權(quán)重)的數(shù)量100

3.5 添加dropout 層以避免

過(guò)擬合 101

3.5.1 過(guò)擬合定義101

3.5.2 dropout 層定義102

3.5.3 dropout 層的重要

意義102

3.5.4 dropout 層在CNN

架構(gòu)中的位置103

3.6 彩色(3D)圖像的卷積 104

3.6.1 彩色圖像的卷積105

3.6.2 計(jì)算復(fù)雜度的變化107

3.7 練習(xí)項(xiàng)目：彩色圖像

分類 109

3.8 本章總結(jié) 118

第4 章構(gòu)造DL 項(xiàng)目以及超參數(shù)

調(diào)優(yōu)119

4.1 定義性能指標(biāo) 120

4.1.1 選擇評(píng)價(jià)模型的最佳

指標(biāo)120

4.1.2 混淆矩陣120

4.1.3 精確度和召回率121

4.1.4 F1 得分122

4.2 設(shè)計(jì)基準(zhǔn)模型 122

4.3 為訓(xùn)練準(zhǔn)備數(shù)據(jù) 124

4.3.1 劃分?jǐn)?shù)據(jù)集124

4.3.2 數(shù)據(jù)處理125

4.4 評(píng)估模型并解釋其

性能 127

4.4.1 診斷過(guò)擬合和

欠擬合127

4.4.2 繪制學(xué)習(xí)曲線129

4.4.3 練習(xí)項(xiàng)目：構(gòu)建、

訓(xùn)練和評(píng)估網(wǎng)絡(luò)129

4.5 網(wǎng)絡(luò)改進(jìn)和超參數(shù)

調(diào)優(yōu) 132

4.5.1 收集更多數(shù)據(jù)與超

參數(shù)調(diào)優(yōu)132

4.5.2 參數(shù)與超參數(shù)133

4.5.3 神經(jīng)網(wǎng)絡(luò)超參數(shù)133

4.5.4 網(wǎng)絡(luò)架構(gòu)134

4.6 學(xué)習(xí)和優(yōu)化 135

4.6.1 學(xué)習(xí)率及其衰減

策略135

4.6.2 找到最佳學(xué)習(xí)率的

系統(tǒng)性方法138

4.6.3 學(xué)習(xí)率衰減和自適應(yīng)

學(xué)習(xí)138

4.6.4 小批大小139

4.7 優(yōu)化算法 141

4.7.1 動(dòng)量梯度下降142

4.7.2 Adam 142

4.7.3 訓(xùn)練輪數(shù)和早停

標(biāo)準(zhǔn)143

4.7.4 Early stopping144

4.8 正則化技術(shù) 144

4.8.1 L2 正則化145

4.8.2 Dropout 層146

4.8.3 數(shù)據(jù)增強(qiáng)146

4.9 批歸一化 147

4.9.1 協(xié)變量偏移問(wèn)題148

4.9.2 神經(jīng)網(wǎng)絡(luò)中的協(xié)變量

偏移148

4.9.3 批歸一化的工作

原理149

4.9.4 批歸一化在keras 中的

實(shí)現(xiàn)150

4.9.5 批歸一化回顧151

4.10 練習(xí)項(xiàng)目：實(shí)現(xiàn)高準(zhǔn)確度

的圖像分類 151

4.11 本章小結(jié) 157

第Ⅱ部分圖像分類和檢測(cè)

第5 章先進(jìn)的CNN 架構(gòu) 161

5.1 CNN 設(shè)計(jì)模式 162

5.2 LeNet-5 164

5.2.1 LeNet 架構(gòu)164

5.2.2 LeNet-5 在Keras 中的

實(shí)現(xiàn)165

5.2.3 設(shè)置學(xué)習(xí)超參數(shù)167

5.2.4 LeNet 在MNIST 數(shù)據(jù)

集上的性能168

5.3 AlexNet 168

5.3.1 AlexNet 網(wǎng)絡(luò)架構(gòu)169

5.3.2 AlexNet 的新特性169

5.3.3 Keras 中的AlexNet

實(shí)現(xiàn)171

5.3.4 設(shè)置學(xué)習(xí)超參數(shù)174

5.3.5 AlexNet 的性能174

5.4 VGGNet 175

5.4.1 VGGNet 新特性175

5.4.2 VGGNet 配置176

5.4.3 學(xué)習(xí)超參數(shù)179

5.4.4 VGGNet 性能179

5.5 Inception 和

GoogLeNet 179

5.5.1 Inception 新特性180

5.5.2 Inception 模塊：

Naive 版181

5.5.3 Inception 模塊與維數(shù)

約減182

5.5.4 Inception 體系架構(gòu)184

5.5.5 GoogLeNet 的Keras

實(shí)現(xiàn)185

5.5.6 學(xué)習(xí)參數(shù)190

5.5.7 Inception 在CIFAR

數(shù)據(jù)集上的性能190

5.6 ResNet 191

5.6.1 ResNet 新特性191

5.6.2 殘差塊193

5.6.3 keras 中的ResNet

實(shí)現(xiàn)195

5.6.4 學(xué)習(xí)超參數(shù)197

5.6.5 ResNet 在CIFAR

數(shù)據(jù)集上的性能197

5.7 本章小結(jié) 198

第6 章遷移學(xué)習(xí)199

6.1 遷移學(xué)習(xí)的必要性 200

6.2 遷移學(xué)習(xí)的定義 201

6.3 遷移學(xué)習(xí)的工作原理 207

6.3.1 神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)

特征208

6.3.2 網(wǎng)絡(luò)后期提取的特征

的可遷移性210

6.4 遷移學(xué)習(xí)方法 210

6.4.1 使用預(yù)訓(xùn)練網(wǎng)絡(luò)作為

分類器210

6.4.2 使用預(yù)訓(xùn)練網(wǎng)絡(luò)作為

特征提取器212

6.4.3 微調(diào)213

6.5 選擇合適的遷移學(xué)習(xí)

方法 215

6.5.1 場(chǎng)景1：目標(biāo)數(shù)據(jù)集

較小且與源數(shù)據(jù)集

相似215

6.5.2 場(chǎng)景2：目標(biāo)數(shù)據(jù)集

較大且與源數(shù)據(jù)集

相似216

6.5.3 場(chǎng)景3：目標(biāo)數(shù)據(jù)集

較小且與源數(shù)據(jù)集

不同216

6.5.4 場(chǎng)景4：目標(biāo)數(shù)據(jù)集

較大且與源數(shù)據(jù)集

不同216

6.5.5 遷移學(xué)習(xí)場(chǎng)景總結(jié)216

6.6 開(kāi)源數(shù)據(jù)集 217

6.6.1 MNIST 217

6.6.2 Fashion-MNIST 218

6.6.3 CIFAR 218

6.6.4 ImageNet 219

6.6.5 MS COCO 221

6.6.6 Google Open

Images222

6.6.7 Kaggle222

6.7 項(xiàng)目1：預(yù)訓(xùn)練網(wǎng)絡(luò)作為

特征提取器 222

6.8 項(xiàng)目2：微調(diào) 228

6.9 本章小結(jié) 235

第7 章使用R-CNN、SSD 和YOLO

進(jìn)行目標(biāo)檢測(cè) 237

7.1 目標(biāo)檢測(cè)的通用框架 238

7.1.1 候選區(qū)域239

7.1.2 網(wǎng)絡(luò)預(yù)測(cè)240

7.1.3 非極大值抑制

(NMS) 241

7.1.4 目標(biāo)檢測(cè)器的評(píng)價(jià)

指標(biāo)241

7.2 R-CNN 244

7.2.1 R-CNN 244

7.2.2 Fast R-CNN 248

7.2.3 Faster R-CNN 250

7.2.4 R-CNN 家族總結(jié)256

7.3 SSD(Single-shot

detector) 259

7.3.1 SSD 架構(gòu)總覽259

7.3.2 基礎(chǔ)網(wǎng)絡(luò)261

7.3.3 多尺度特征層263

7.3.4 NMS266

7.4 YOLO(you only look

once)(320) 267

7.4.1 YOLO v3 的工作

機(jī)制268

7.4.2 YOLOv3 架構(gòu)270

7.5 項(xiàng)目：在自動(dòng)駕駛中

應(yīng)用SSD 網(wǎng)絡(luò) 272

7.5.1 步驟1：構(gòu)建模型274

7.5.2 步驟2：模型配置275

7.5.3 步驟3：創(chuàng)建模型276

7.5.4 步驟3：加載數(shù)據(jù)276

7.5.5 步驟5：訓(xùn)練模型278

7.5.6 步驟6：可視化

損失279

7.5.7 步驟7：預(yù)測(cè)280

7.6 本章小結(jié) 281

第Ⅲ部分生成模型與視覺(jué)嵌入

第8 章生成對(duì)抗網(wǎng)絡(luò)285

8.1 GAN 架構(gòu) 286

8.1.1 Deep convolutional

GANs(DCGANs) 288

8.1.2 鑒別器模型288

8.1.3 生成器模型290

8.1.4 訓(xùn)練GAN 293

8.1.5 GAN 極小極大值

函數(shù)296

8.2 評(píng)估GAN 模型 297

8.2.1 Inception score298

8.2.2 Fréchet inception distance

(FID)298

8.2.3 評(píng)估方案選擇299

8.3 GAN 的主流應(yīng)用 299

8.3.1 文本生成圖像(Text-tophoto

synthesis)299

8.3.2 圖像翻譯(Pix2Pix

GAN) 300

8.3.3 圖像超分辨率

GAN(SRGAN)301

8.3.4 準(zhǔn)備好動(dòng)手了嗎302

8.4 練習(xí)項(xiàng)目：構(gòu)建自己的

GAN 302

8.5 本章小結(jié) 311

第9 章 DeepDream 和神經(jīng)風(fēng)格

遷移 313

9.1 打開(kāi)CNN 的黑盒 314

9.1.1 CNN 工作原理

回顧314

9.1.2 CNN 特征可視化315

9.1.3 特征可視化工具的

實(shí)現(xiàn)318

9.2 DeepDream 321

9.2.1 DeepDream 算法的工作

原理322

9.2.2 DeepDream 的Keras

實(shí)現(xiàn)324

9.3 神經(jīng)風(fēng)格遷移 327

9.3.1 內(nèi)容損失329

9.3.2 風(fēng)格損失(style

loss) 330

9.3.3 總變分損失(total variance

loss)332

9.3.4 網(wǎng)絡(luò)訓(xùn)練332

9.4 本章小結(jié) 333

第10 章視覺(jué)嵌入335

10.1 視覺(jué)嵌入的應(yīng)用 336

10.1.1 人臉識(shí)別337

10.1.2 圖片推薦系統(tǒng)337

10.1.3 目標(biāo)重識(shí)別系統(tǒng)339

10.2 學(xué)習(xí)嵌入 340

10.3 損失函數(shù) 341

10.3.1 問(wèn)題建立和

形式化342

10.3.2 交差熵?fù)p失342

10.3.3 對(duì)比損失343

10.3.4 三元組損失344

10.3.5 損失的簡(jiǎn)單實(shí)現(xiàn)和

運(yùn)行分析345

10.4 挖掘信息數(shù)據(jù) 347

10.4.1 數(shù)據(jù)加載器347

10.4.2 信息型數(shù)據(jù)挖掘：尋找

有用的三元組349

10.4.3 Batch All(BA)350

10.4.4 Batch Hard(BH) 351

10.4.5 batch weighted

(BW)353

10.4.6 Batch Sample

(BS)354

10.5 練習(xí)項(xiàng)目：訓(xùn)練嵌入

網(wǎng)絡(luò) 355

10.5.1 時(shí)尚圈：查找相似的

衣服356

10.5.2 車輛重識(shí)別356

10.5.3 實(shí)現(xiàn)357

10.5.4 測(cè)試訓(xùn)練的模型358

10.6 突破準(zhǔn)確度的限制 362

10.7 本章小結(jié) 363

參考文獻(xiàn) 365

附錄A 369

A.1 下載代碼庫(kù) 369

A.2 安裝Anaconda 369

A.3 設(shè)置DL 環(huán)境 370

A.3.1 手動(dòng)設(shè)置你的開(kāi)發(fā)

環(huán)境370

A.3.2 使用本書(shū)的repo 中的

conda 環(huán)境371

A.3.3 保存和加載環(huán)境372

A.4 設(shè)置AWS EC2 環(huán)境 372

A.4.1 創(chuàng)建AWS 賬號(hào)372

A.4.2 遠(yuǎn)程連接到此

實(shí)例373

A.4.3 運(yùn)行Jupyter

Notebook374

深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)

購(gòu)買(mǎi)這本書(shū)可以去

內(nèi)容簡(jiǎn)介

作者簡(jiǎn)介

圖書(shū)目錄

本目錄推薦

AI辦公應(yīng)用實(shí)戰(zhàn)一本通：用AIGC工…

機(jī)器學(xué)習(xí)與人工智能實(shí)戰(zhàn)：基于業(yè)…

超簡(jiǎn)單：用ChatGPT+實(shí)用AI工具讓…

Midjourney AI繪畫(huà)從入門(mén)到精通…

大數(shù)據(jù)應(yīng)用技術(shù)基礎(chǔ)

智能治理導(dǎo)論：人工智能驅(qū)動(dòng)的治…

自然語(yǔ)言處理與醫(yī)療文本的知識(shí)抽…

情感人工智能與廣告（英文版）

人工智能核心技術(shù)解析及發(fā)展研究…

工業(yè)機(jī)器人機(jī)械基礎(chǔ)一體化教程