注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)計(jì)算機(jī)科學(xué)理論與基礎(chǔ)知識(shí)擴(kuò)散模型從原理到實(shí)戰(zhàn)

擴(kuò)散模型從原理到實(shí)戰(zhàn)

擴(kuò)散模型從原理到實(shí)戰(zhàn)

定 價(jià):¥79.80

作 者: 李忻瑋 蘇步升 徐浩然 余海銘
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787115618870 出版時(shí)間: 2023-08-01 包裝: 平裝-膠訂
開本: 128開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  AIGC的應(yīng)用領(lǐng)域日益廣泛,而在圖像生成領(lǐng)域,擴(kuò)散模型則是AIGC技術(shù)的一個(gè)重要應(yīng)用。本書以擴(kuò)散模型理論知識(shí)為切入點(diǎn),由淺入深地介紹了擴(kuò)散模型的相關(guān)知識(shí),并以大量生動(dòng)有趣的實(shí)戰(zhàn)案例幫助讀者理解擴(kuò)散模型的相關(guān)細(xì)節(jié)。全書共8章,詳細(xì)介紹了擴(kuò)散模型的原理,以及擴(kuò)散模型退化、采樣、DDIM反轉(zhuǎn)等重要概念與方法,此外還介紹了Stable Diffusion、ControlNet與音頻擴(kuò)散模型等內(nèi)容。最后,附錄提供由擴(kuò)散模型生成的高質(zhì)量圖像集以及Hugging Face社區(qū)的相關(guān)資源。本書既適合所有對(duì)擴(kuò)散模型感興趣的AI研究人員、相關(guān)科研人員以及在工作中有繪圖需求的從業(yè)人員閱讀,也可以作為計(jì)算機(jī)等相關(guān)專業(yè)學(xué)生的參考書。

作者簡(jiǎn)介

  李忻瑋,碩士畢業(yè)于美國常春藤盟校之一的哥倫比亞大學(xué)數(shù)據(jù)科學(xué)專業(yè),現(xiàn)任聲網(wǎng)人工智能算法工程師;主要研究方向是生成式人工智能、計(jì)算機(jī)視覺、自然語言處理、提示工程等。 蘇步升,擴(kuò)散模型算法工程師,AIGC創(chuàng)業(yè)者,Hugging Face中國社區(qū)本地化工作組成員。 徐浩然,畢業(yè)于中國海洋大學(xué)電子信息工程專業(yè),現(xiàn)任聲網(wǎng)音頻算法工程師,從事?lián)P聲器聲學(xué)設(shè)計(jì)、音頻增強(qiáng)算法、音頻質(zhì)量評(píng)估算法等研究工作。 余海銘,本科畢業(yè)于暨南大學(xué),碩士畢業(yè)于加州大學(xué)爾灣分校;先后在中國科學(xué)院深圳先進(jìn)技術(shù)研究院、愛奇藝、美團(tuán)等單位工作;主要研究方向是圖像識(shí)別、圖像生成、多模態(tài)及自動(dòng)駕駛等領(lǐng)域。

圖書目錄

第 1章 擴(kuò)散模型簡(jiǎn)介 1
1.1 擴(kuò)散模型的原理 1
1.1.1 生成模型 1
1.1.2 擴(kuò)散過程 2
1.2 擴(kuò)散模型的發(fā)展 5
1.2.1 開始擴(kuò)散:基礎(chǔ)擴(kuò)散模型的提出與改進(jìn) 6
1.2.2 加速生成:采樣器 6
1.2.3 刷新紀(jì)錄:基于顯式分類器引導(dǎo)的擴(kuò)散模型 7
1.2.4 引爆網(wǎng)絡(luò):基于CLIP的多模態(tài)圖像生成 8
1.2.5 再次“出圈”:大模型的“再學(xué)習(xí)”方法——DreamBooth、LoRA和ControlNet 8
1.2.6 開啟AI作畫時(shí)代:眾多商業(yè)公司提出成熟的圖像生成解決方案 10
1.3 擴(kuò)散模型的應(yīng)用 12
1.3.1 計(jì)算機(jī)視覺  12
1.3.2 時(shí)序數(shù)據(jù)預(yù)測(cè) 14
1.3.3 自然語言 15
1.3.4 基于文本的多模態(tài) 16
1.3.5 AI基礎(chǔ)科學(xué) 19
第 2章 Hugging Face簡(jiǎn)介 21
2.1 Hugging Face核心功能介紹 21
2.2 Hugging Face開源庫 28
2.3 Gradio工具介紹 30
第3章 從零開始搭建擴(kuò)散模型 33
3.1 環(huán)境準(zhǔn)備 33
3.1.1 環(huán)境的創(chuàng)建與導(dǎo)入 33
3.1.2 數(shù)據(jù)集測(cè)試 34
3.2 擴(kuò)散模型之退化過程 34
3.3 擴(kuò)散模型之訓(xùn)練 36
3.3.1  UNet網(wǎng)絡(luò) 36
3.3.2 開始訓(xùn)練模型 38
3.4 擴(kuò)散模型之采樣過程 41
3.4.1 采樣過程 41
3.4.2 與DDPM的區(qū)別 44
3.4.3 UNet2DModel模型 44
3.5 擴(kuò)散模型之退化過程示例 57
3.5.1 退化過程 57
3.5.2 最終的訓(xùn)練目標(biāo) 59
3.6 拓展知識(shí) 60
3.6.1 時(shí)間步的調(diào)節(jié) 60
3.6.2 采樣(取樣)的關(guān)鍵問題 61
3.7 本章小結(jié) 61
第4章 Diffusers實(shí)戰(zhàn) 62
4.1 環(huán)境準(zhǔn)備 62
4.1.1 安裝Diffusers庫 62
4.1.2 DreamBooth 64
4.1.3 Diffusers核心API 66
4.2 實(shí)戰(zhàn):生成美麗的蝴蝶圖像 67
4.2.1 下載蝴蝶圖像集 67
4.2.2 擴(kuò)散模型之調(diào)度器 69
4.2.3 定義擴(kuò)散模型 70
4.2.4 創(chuàng)建擴(kuò)散模型訓(xùn)練循環(huán) 72
4.2.5 圖像的生成 75
4.3 拓展知識(shí) 77
4.3.1 將模型上傳到Hugging Face Hub  77
4.3.2 使用Accelerate庫擴(kuò)大訓(xùn)練模型的規(guī)?!?9
4.4 本章小結(jié) 81
第5章 微調(diào)和引導(dǎo) 83
5.1 環(huán)境準(zhǔn)備 86
5.2 載入一個(gè)預(yù)訓(xùn)練過的管線 87
5.3 DDIM——更快的采樣過程 88
5.4 擴(kuò)散模型之微調(diào) 91
5.4.1 實(shí)戰(zhàn):微調(diào) 91
5.4.2 使用一個(gè)最小化示例程序來微調(diào)模型 96
5.4.3 保存和載入微調(diào)過的管線 97
5.5 擴(kuò)散模型之引導(dǎo) 98
5.5.1 實(shí)戰(zhàn):引導(dǎo) 100
5.5.2 CLIP引導(dǎo) 104
5.6 分享你的自定義采樣訓(xùn)練 108
5.7 實(shí)戰(zhàn):創(chuàng)建一個(gè)類別條件擴(kuò)散模型 111
5.7.1 配置和數(shù)據(jù)準(zhǔn)備 111
5.7.2 創(chuàng)建一個(gè)以類別為條件的UNet模型 112
5.7.3 訓(xùn)練和采樣 114
5.8 本章小結(jié) 117
第6章 Stable Diffusion 118
6.1 基本概念 118
6.1.1 隱式擴(kuò)散 118
6.1.2 以文本為生成條件 119
6.1.3 無分類器引導(dǎo) 121
6.1.4 其他類型的條件生成模型:Img2Img、Inpainting與Depth2Img模型  122
6.1.5 使用DreamBooth進(jìn)行微調(diào) 123
6.2 環(huán)境準(zhǔn)備 124
6.3 從文本生成圖像 125
6.4 Stable Diffusion Pipeline 128
6.4.1 可變分自編碼器 128
6.4.2 分詞器和文本編碼器 129
6.4.3 UNet 131
6.4.4 調(diào)度器 132
6.4.5 DIY采樣循環(huán) 134
6.5 其他管線介紹 136
6.5.1 Img2Img 136
6.5.2 Inpainting 138
6.5.3 Depth2Image 139
6.6 本章小結(jié) 140
第7章 DDIM反轉(zhuǎn) 141
7.1 實(shí)戰(zhàn):反轉(zhuǎn) 141
7.1.1 配置 141
7.1.2 載入一個(gè)預(yù)訓(xùn)練過的管線 142
7.1.3 DDIM采樣 143
7.1.4 反轉(zhuǎn) 147
7.2 組合封裝 153
7.3 ControlNet的結(jié)構(gòu)與訓(xùn)練過程 158
7.4 ControlNet示例 162
7.4.1 ControlNet與Canny Edge 162
7.4.2 ControlNet與M-LSD Lines 162
7.4.3 ControlNet與HED Boundary 163
7.4.4 ControlNet與涂鴉畫 164
7.4.5 ControlNet與人體關(guān)鍵點(diǎn) 164
7.4.6 ControlNet與語義分割 164
7.5 ControlNet實(shí)戰(zhàn) 165
7.6 本章小結(jié) 174
第8章 音頻擴(kuò)散模型 175
8.1 實(shí)戰(zhàn):音頻擴(kuò)散模型 175
8.1.1 設(shè)置與導(dǎo)入 175
8.1.2 在預(yù)訓(xùn)練的音頻擴(kuò)散模型管線中進(jìn)行采樣 176
8.1.3 從音頻到頻譜的轉(zhuǎn)換 177
8.1.4 微調(diào)管線 180
8.1.5 訓(xùn)練循環(huán) 183
8.2 將模型上傳到Hugging Face Hub 186
8.3 本章小結(jié) 187
附錄A 精美圖像集展示 188
附錄B Hugging Face相關(guān)資源 202

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)