注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)操作系統(tǒng)多模態(tài)大模型:從理論到實(shí)踐

多模態(tài)大模型:從理論到實(shí)踐

多模態(tài)大模型:從理論到實(shí)踐

定 價(jià):¥99.00

作 者: 韓曉晨
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302686927 出版時(shí)間: 2025-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  《多模態(tài)大模型:從理論到實(shí)踐》系統(tǒng)地介紹多模態(tài)大模型的理論基礎(chǔ)、關(guān)鍵技術(shù)與實(shí)際應(yīng)用。全書分為兩部分12章,第1部分(第1~5章)圍繞基礎(chǔ)理論與技術(shù)解析展開論述,包括基本概念、Transformer架構(gòu)、跨模態(tài)對齊、模態(tài)融合,以及多模態(tài)大模型的預(yù)訓(xùn)練方法、模型微調(diào)與優(yōu)化等,為理解多模態(tài)大模型的構(gòu)建邏輯奠定基礎(chǔ)。第2部分(第6~12章)聚集于多模態(tài)大模型的高級應(yīng)用與場景實(shí)現(xiàn),包括主流視覺語言模型(如CLIP、BLIP-2等)的實(shí)現(xiàn)、跨模態(tài)推理與生成的技術(shù)應(yīng)用、多模態(tài)大模型的推理與優(yōu)化方法、模型的安全與可信性問題,并通過多模態(tài)檢索與推薦系統(tǒng)、多模態(tài)語義理解系統(tǒng)和多模態(tài)問答系統(tǒng)的端到端開發(fā)實(shí)踐,展示了多模態(tài)大模型的實(shí)際落地路徑?!抖嗄B(tài)大模型:從理論到實(shí)踐》兼具理論深度與實(shí)際應(yīng)用價(jià)值,適合大模型和AI研發(fā)人員、人工智能領(lǐng)域的從業(yè)者以及高校師生閱讀使用,也可作為培訓(xùn)機(jī)構(gòu)和高校人工智能及相關(guān)專業(yè)的教材或參考書。

作者簡介

  韓曉晨,博士,長期從事高性能計(jì)算與大模型訓(xùn)練算力優(yōu)化研究。近十年來,專注于智能計(jì)算架構(gòu)優(yōu)化及大規(guī)模數(shù)據(jù)處理,深耕控制算法、機(jī)器視覺等領(lǐng)域。近年來,重點(diǎn)研究大模型訓(xùn)練加速、算力調(diào)度與異構(gòu)計(jì)算優(yōu)化,致力于提升計(jì)算效率與資源利用率,推動(dòng)大規(guī)模人工智能模型的高效部署與應(yīng)用。

圖書目錄

第1部分  基礎(chǔ)理論與技術(shù)解析
第 1 章  緒論 3
1.1  多模態(tài)與大模型簡介 3
1.1.1  多模態(tài)數(shù)據(jù)的種類與特點(diǎn) 3
1.1.2  大模型的核心能力與應(yīng)用領(lǐng)域 6
1.2  表征學(xué)習(xí)與遷移學(xué)習(xí) 7
1.2.1  表征學(xué)習(xí) 8
1.2.2  遷移學(xué)習(xí) 11
1.3  內(nèi)容生成與模態(tài)對齊 12
1.3.1  模態(tài)對齊的實(shí)現(xiàn)方法與技術(shù)難點(diǎn) 12
1.3.2  多模態(tài)生成任務(wù)的典型案例 14
1.4  多模態(tài)大模型發(fā)展歷程 16
1.4.1  單模態(tài)到多模態(tài)的發(fā)展路徑 16
1.4.2  多模態(tài)大模型的技術(shù)里程碑匯總 18
1.5  本章小結(jié) 19
1.6  思考題 19
第 2 章  基礎(chǔ)知識(shí) 21
2.1  機(jī)器學(xué)習(xí)關(guān)鍵技術(shù)詳解 21
2.1.1  特征工程與模型選擇 21
2.1.2  集成學(xué)習(xí)在多模態(tài)中的應(yīng)用 23
2.2  深度學(xué)習(xí)基本原理與常用技術(shù)點(diǎn) 26
2.2.1  卷積神經(jīng)網(wǎng)絡(luò) 26
2.2.2  循環(huán)神經(jīng)網(wǎng)絡(luò) 29
2.2.3  分類器與多層感知機(jī) 32
2.2.4  激活函數(shù) 34
2.3  梯度下降與反向傳播算法的原理與實(shí)現(xiàn) 37
2.3.1  梯度下降算法原理與實(shí)現(xiàn) 37
2.3.2  反向傳播算法原理與實(shí)現(xiàn) 41
2.4  大模型在文本與圖像處理中的應(yīng)用 43
2.4.1  文本處理中的生成與理解任務(wù) 43
2.4.2  圖像處理中的分割與檢測 45
2.5  本章小結(jié) 48
2.6  思考題 49
第 3 章  多模態(tài)大模型核心架構(gòu) 50
3.1  Transformer基本原理剖析 50
3.1.1  自注意力機(jī)制 50
3.1.2  編碼器-解碼器架構(gòu) 53
3.2  跨模態(tài)對齊技術(shù):注意力機(jī)制與嵌入對齊 58
3.2.1  嵌入空間的對齊方法與損失函數(shù)優(yōu)化 58
3.2.2  多頭注意力機(jī)制在對齊中的應(yīng)用 62
3.3  模態(tài)融合數(shù)據(jù)級、特征級與目標(biāo)級 64
3.3.1  數(shù)據(jù)級融合的實(shí)現(xiàn)與場景應(yīng)用 64
3.3.2  特征級融合的建模方法與優(yōu)化 66
3.4  模態(tài)解耦與共享學(xué)習(xí)框架 70
3.4.1  模態(tài)解耦的多任務(wù)學(xué)習(xí)策略 70
3.4.2  參數(shù)共享框架的設(shè)計(jì)與優(yōu)化 74
3.5  本章小結(jié) 78
3.6  思考題 78
第 4 章  多模態(tài)大模型的預(yù)訓(xùn)練方法 80
4.1  文本與視覺聯(lián)合預(yù)訓(xùn)練任務(wù)設(shè)計(jì) 80
4.1.1  文本任務(wù)的掩碼建模與生成任務(wù) 80
4.1.2  視覺任務(wù)的特征提取與目標(biāo)檢測 82
4.2  自監(jiān)督學(xué)習(xí)與多模態(tài)預(yù)訓(xùn)練 85
4.2.1  對比學(xué)習(xí)在多模態(tài)中的實(shí)現(xiàn)方法 85
4.2.2  重建任務(wù)的自監(jiān)督學(xué)習(xí)實(shí)現(xiàn) 88
4.3  提示學(xué)習(xí)與指令微調(diào) 91
4.3.1  提示模板設(shè)計(jì)與輸入增強(qiáng)技術(shù) 91
4.3.2  指令微調(diào)的適配流程與效果分析 94
4.4  數(shù)據(jù)高效利用遷移學(xué)習(xí)與混合監(jiān)督 96
4.4.1  遷移學(xué)習(xí)的小樣本適配技術(shù) 96
4.4.2  半監(jiān)督學(xué)習(xí)的聯(lián)合訓(xùn)練方法 98
4.5  本章小結(jié) 101
4.6  思考題 101
第 5 章  多模態(tài)大模型微調(diào)與優(yōu)化 103
5.1  基于LoRA的輕量化微調(diào) 103
5.1.1  LoRA:參數(shù)凍結(jié)與動(dòng)態(tài)注入技術(shù) 103
5.1.2  輕量化微調(diào) 106
5.2  參數(shù)高效微調(diào) 109
5.2.1  PEFT的技術(shù)原理與實(shí)現(xiàn) 109
5.2.2  微調(diào)效果的對比與性能評價(jià) 115
5.3  RLHF原理及實(shí)現(xiàn) 118
5.3.1  RLHF與獎(jiǎng)勵(lì)建模 118
5.3.2  RLHF在多模態(tài)任務(wù)中的實(shí)現(xiàn) 123
5.4  多任務(wù)學(xué)習(xí)與領(lǐng)域適配 125
5.4.1  多任務(wù)共享學(xué)習(xí) 125
5.4.2  領(lǐng)域適配與標(biāo)注數(shù)據(jù)增強(qiáng)技術(shù) 128
5.5  本章小結(jié) 130
5.6  思考題 131
第 2 部分  高級應(yīng)用與實(shí)踐探索
第 6 章  視覺語言模型的實(shí)現(xiàn) 135
6.1  CLIP模型的原理與實(shí)現(xiàn) 135
6.1.1  文本視覺聯(lián)合嵌入的實(shí)現(xiàn)技術(shù) 135
6.1.2  CLIP模型的預(yù)訓(xùn)練目標(biāo)與任務(wù)遷移 139
6.2  BLIP-2模型在多模態(tài)生成中的應(yīng)用 142
6.2.1  圖像到文本生成的模型設(shè)計(jì) 142
6.2.2  多模態(tài)生成任務(wù)的優(yōu)化策略 145
6.3  SAM模型在視覺任務(wù)中的實(shí)現(xiàn) 148
6.3.1  SAM模型的特征提取與訓(xùn)練方法 148
6.3.2  分割任務(wù)中的應(yīng)用與性能分析 151
6.4  視頻與語言多模態(tài)模型融合 153
6.4.1  視頻嵌入與文本生成的聯(lián)合建模 154
6.4.2  多模態(tài)視頻任務(wù)的優(yōu)化實(shí)踐 157
6.5  本章小結(jié) 159
6.6  思考題 160
第 7 章  跨模態(tài)推理與生成 161
7.1  視覺問答與視覺常識(shí)推理 161
7.1.1  視覺問答模型的任務(wù)建模方法 161
7.1.2  常識(shí)推理中的視覺語義問題 164
7.2  跨模態(tài)文本生成:從圖像到描述 166
7.2.1  圖像描述生成模型訓(xùn)練方法 167
7.2.2  跨模態(tài)文本生成的關(guān)鍵技術(shù) 170
7.3  復(fù)雜場景中的視頻生成與理解 172
7.3.1  視頻生成任務(wù) 173
7.3.2  復(fù)雜場景的視頻理解技術(shù) 176
7.4  跨模態(tài)對話與導(dǎo)航任務(wù) 179
7.4.1  對話系統(tǒng)中的多模態(tài)交互設(shè)計(jì) 179
7.4.2  導(dǎo)航任務(wù)的視覺與語義聯(lián)合優(yōu)化 182
7.5  本章小結(jié) 185
7.6  思考題 185
第 8 章  多模態(tài)大模型的推理優(yōu)化 187
8.1  ONNX與TensorRT在多模態(tài)推理中的應(yīng)用 187
8.1.1  ONNX模型的優(yōu)化與轉(zhuǎn)換流程 187
8.1.2  TensorRT的推理加速與量化技術(shù) 192
8.2  動(dòng)態(tài)批量與自定義算子優(yōu)化 196
8.2.1  動(dòng)態(tài)批量推理的實(shí)現(xiàn)與性能分析 196
8.2.2  自定義算子的設(shè)計(jì)與任務(wù)適配 198
8.3  混合精度推理與內(nèi)存優(yōu)化技術(shù) 201
8.3.1  混合精度訓(xùn)練的實(shí)現(xiàn)與性能提升 201
8.3.2  內(nèi)存優(yōu)化技術(shù)在推理中的應(yīng)用 204
8.3.3  多GPU的分布式推理任務(wù)調(diào)度 206
8.4  本章小結(jié) 208
8.5  思考題 208
第 9 章  多模態(tài)大模型的安全問題與可信問題 210
9.1  模型的可解釋性與注意力可視化 210
9.1.1  注意力機(jī)制的可視化技術(shù)實(shí)現(xiàn) 210
9.1.2  模型行為的解釋性方法 214
9.2  多模態(tài)大模型中的魯棒性與偏見問題 216
9.2.1  模型魯棒性提升的優(yōu)化策略 216
9.2.2  偏見檢測與緩解技術(shù)的應(yīng)用 219
9.3  隱私保護(hù)與數(shù)據(jù)安全技術(shù) 222
9.3.1  模態(tài)分離與隱私保護(hù)框架設(shè)計(jì) 223
9.3.2  數(shù)據(jù)加密與安全分發(fā)技術(shù)實(shí)現(xiàn) 226
9.4  本章小結(jié) 228
9.5  思考題 228
第 10 章  多模態(tài)檢索與推薦系統(tǒng) 230
10.1  跨模態(tài)檢索算法與實(shí)現(xiàn) 230
10.1.1  跨模態(tài)檢索中的嵌入空間設(shè)計(jì) 230
10.1.2  檢索任務(wù)的多模態(tài)優(yōu)化 232
10.2  圖像視頻與文本的聯(lián)合檢索 235
10.2.1  圖文聯(lián)合檢索的模型實(shí)現(xiàn) 235
10.2.2  視頻檢索中的特征聯(lián)合與優(yōu)化 237
10.3  基于多模態(tài)的推薦系統(tǒng) 243
10.3.1  多模態(tài)嵌入在推薦任務(wù)中的應(yīng)用 243
10.3.2  推薦系統(tǒng)的動(dòng)態(tài)適配與更新 249
10.4  本章小結(jié) 256
10.5  思考題 257
第 11 章  多模態(tài)語義理解系統(tǒng) 258
11.1  系統(tǒng)架構(gòu)與功能規(guī)劃 258
11.1.1  系統(tǒng)核心模塊的架構(gòu)設(shè)計(jì) 258
11.1.2  功能規(guī)劃與數(shù)據(jù)流轉(zhuǎn)流程 259
11.2  使用開源框架實(shí)現(xiàn)跨模態(tài)生成 260
11.2.1  跨模態(tài)開發(fā)框架簡介 261
11.2.2  模塊實(shí)現(xiàn) 262
11.2.3  模塊綜合測試 279
11.3  模型優(yōu)化與推理性能提升 282
11.3.1  生成任務(wù)中的模型優(yōu)化 282
11.3.2  推理性能的加速與內(nèi)存優(yōu)化 284
11.3.3  系統(tǒng)部署 286
11.3.4  系統(tǒng)性能監(jiān)控 288
11.4  本章小結(jié) 291
11.5  思考題 292
第 12 章  多模態(tài)問答系統(tǒng) 293
12.1  數(shù)據(jù)集準(zhǔn)備與預(yù)處理 293
12.1.1  問答數(shù)據(jù)集的構(gòu)建與清洗方法 293
12.1.2  數(shù)據(jù)增強(qiáng)技術(shù)在問答任務(wù)中的應(yīng)用 299
12.2  視覺與文本問答模型的訓(xùn)練及API開發(fā) 305
12.2.1  跨模態(tài)問答模型的多任務(wù)訓(xùn)練 305
12.2.2  API接口設(shè)計(jì)與服務(wù)化集成 313
12.2.3  模型輸出的解析與后處理實(shí)現(xiàn) 315
12.3  性能測試與部署實(shí)踐 317
12.3.1  系統(tǒng)測試的指標(biāo)與性能分析 318
12.3.2  部署優(yōu)化與線上環(huán)境監(jiān)控技術(shù) 320
12.4  本章小結(jié) 322
12.5  思考題 323

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號