從零構(gòu)建大模型：算法、訓(xùn)練與微調(diào)

定　價(jià)：￥99.00

作　者：	梁楠
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥78.20)

ISBN：	9787302685616	出版時(shí)間：	2025-04-01	包裝：	平裝-膠訂
開本：	16開	頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《從零構(gòu)建大模型：算法、訓(xùn)練與微調(diào)》是一本系統(tǒng)且實(shí)用的大模型構(gòu)建指南，旨在引領(lǐng)讀者從基礎(chǔ)知識(shí)起步，逐步深入探索大模型的算法原理、訓(xùn)練方法及微調(diào)技術(shù)?！稄牧銟?gòu)建大模型：算法、訓(xùn)練與微調(diào)》共12章，涵蓋了Transformer模型的基礎(chǔ)理論，如Seq2Seq模型、分詞、嵌入層和自注意力機(jī)制等關(guān)鍵概念；并深入剖析了GPT模型的核心實(shí)現(xiàn)與文本生成過程，以及BERT模型的預(yù)訓(xùn)練和微調(diào)技術(shù)。同時(shí)，也對(duì)ViT（視覺Transformer）模型的架構(gòu)、訓(xùn)練方法，以及高階微調(diào)策略如Adapter Tuning和P-Tuning進(jìn)行了詳盡講解。此外，還系統(tǒng)地介紹了數(shù)據(jù)處理、數(shù)據(jù)增強(qiáng)、模型性能優(yōu)化（包括混合精度訓(xùn)練和分布式訓(xùn)練）、對(duì)比學(xué)習(xí)、對(duì)抗訓(xùn)練、自適應(yīng)優(yōu)化器、動(dòng)態(tài)學(xué)習(xí)率調(diào)度，以及模型蒸餾與剪枝技術(shù)等多個(gè)方面。最后，通過應(yīng)用案例，展示了模型訓(xùn)練和微調(diào)的完整流程，助力讀者將理論知識(shí)轉(zhuǎn)化為實(shí)踐技能。全書注重理論與實(shí)踐的結(jié)合，適合希望系統(tǒng)掌握大模型構(gòu)建、訓(xùn)練和優(yōu)化的研發(fā)人員、高校學(xué)生，也適合對(duì)自然語(yǔ)言處理、計(jì)算機(jī)視覺等領(lǐng)域的大模型開發(fā)有興趣的讀者。還可作為培訓(xùn)機(jī)構(gòu)和高校相關(guān)課程的教學(xué)用書。

作者簡(jiǎn)介

　　梁楠，博士，畢業(yè)于北京航空航天大學(xué)，高級(jí)職稱，長(zhǎng)期從事模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)理論的研究與應(yīng)用，負(fù)責(zé)或參與科研項(xiàng)目多項(xiàng)，專注于人工智能、大語(yǔ)言模型的應(yīng)用與開發(fā)，對(duì)深度學(xué)習(xí)、數(shù)據(jù)分析與預(yù)測(cè)等有獨(dú)到見解。

圖書目錄

引言 1
一、大模型技術(shù)的發(fā)展歷史 1
1. 基于規(guī)則和統(tǒng)計(jì)學(xué)習(xí)的早期階段 1
2. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的崛起 2
3. Transformer的誕生與自注意力機(jī)制的崛起 2
4. 預(yù)訓(xùn)練模型的興起：BERT、GPT和T5 2
5. 超大規(guī)模模型與多模態(tài)應(yīng)用 3
二、開發(fā)環(huán)境配置基礎(chǔ) 3
1. 硬件配置要求 3
2. 軟件依賴與環(huán)境搭建 4
3. 常見問題與解決方案 5
第 1 章 Transformer模型基礎(chǔ) 6
1.1 Seq2Seq模型 6
1.1.1 編碼器－解碼器工作原理 7
1.1.2 Seq2Seq結(jié)構(gòu)實(shí)現(xiàn) 7
1.2 分詞與嵌入層 11
1.2.1 分詞器：將文本轉(zhuǎn)換為嵌入向量 11
1.2.2 PyTorch實(shí)現(xiàn)嵌入層（將分詞后的結(jié)果輸入模型） 11
1.3 自注意力與多頭注意力機(jī)制 15
1.3.1 自注意力機(jī)制計(jì)算過程（QKV矩陣生成和點(diǎn)積運(yùn)算） 15
1.3.2 多頭注意力機(jī)制與Transformer 18
1.4 殘差連接與層歸一化 22
1.4.1 殘差連接層的實(shí)現(xiàn) 22
1.4.2 層歸一化與訓(xùn)練穩(wěn)定性 25
1.5 位置編碼器 28
1.5.1 位置編碼的計(jì)算與實(shí)現(xiàn) 28
1.5.2 位置編碼在無(wú)序文本數(shù)據(jù)中的作用 30
1.6 本章小結(jié) 35
1.7 思考題 35
第 2 章 GPT模型文本生成核心原理與實(shí)現(xiàn) 37
2.1 GPT-2核心模塊 37
2.1.1 層堆疊 37
2.1.2 GPT-2中的注意力機(jī)制 41
2.2 GPT模型的文本生成過程 44
2.2.1 詳解GPT-2文本生成過程 44
2.2.2 Greedy Search和Beam Search算法的實(shí)現(xiàn)與對(duì)比 47
2.3 模型效果評(píng)估與調(diào)優(yōu) 51
2.3.1 模型常見評(píng)估方法 51
2.3.2 基于困惑度的評(píng)估過程 56
2.4 本章小結(jié) 60
2.5 思考題 60
第 3 章 BERT模型核心實(shí)現(xiàn)與預(yù)訓(xùn)練 62
3.1 BERT模型的核心實(shí)現(xiàn) 62
3.1.1 編碼器堆疊 62
3.1.2 BERT的自注意力機(jī)制與掩碼任務(wù) 67
3.2 預(yù)訓(xùn)練任務(wù)：掩碼語(yǔ)言模型（MLM） 71
3.2.1 MLM任務(wù)實(shí)現(xiàn)過程 71
3.2.2 如何對(duì)輸入數(shù)據(jù)進(jìn)行隨機(jī)遮掩并預(yù)測(cè) 72
3.3 BERT模型的微調(diào)與分類任務(wù)應(yīng)用 77
3.4 本章小結(jié) 81
3.5 思考題 81
第 4 章 ViT模型 83
4.1 圖像分塊與嵌入 83
4.2 ViT模型的核心架構(gòu)實(shí)現(xiàn) 89
4.2.1 ViT模型的基礎(chǔ)結(jié)構(gòu) 89
4.2.2 自注意力和多頭注意力在圖像處理中的應(yīng)用 91
4.3 訓(xùn)練與評(píng)估ViT模型 96
4.4 ViT模型與注意力嚴(yán)格量化分析 100
4.5 本章小結(jié) 105
4.6 思考題 105
第 5 章高階微調(diào)策略：Adapter Tuning與P-Tuning 107
5.1 Adapter Tuning的實(shí)現(xiàn) 107
5.2 LoRA Tuning實(shí)現(xiàn) 111
5.3 Prompt Tuning與P-Tuning的應(yīng)用 114
5.3.1 Prompt Tuning 114
5.3.2 P-Tuning 117
5.3.3 Prompt Tuning和P-Tuning組合微調(diào) 120
5.3.4 長(zhǎng)文本情感分類模型的微調(diào)與驗(yàn)證 122
5.4 本章小結(jié) 125
5.5 思考題 125
第 6 章數(shù)據(jù)處理與數(shù)據(jù)增強(qiáng) 127
6.1 數(shù)據(jù)預(yù)處理與清洗 127
6.1.1 文本數(shù)據(jù)預(yù)處理 127
6.1.2 文本數(shù)據(jù)清洗 130
6.2 文本數(shù)據(jù)增強(qiáng) 133
6.2.1 同義詞替換 133
6.2.2 隨機(jī)插入 135
6.2.3 其他類型的文本數(shù)據(jù)增強(qiáng)方法 137
6.3 分詞與嵌入層的應(yīng)用 139
6.3.1 深度理解分詞技術(shù) 140
6.3.2 嵌入向量的生成與優(yōu)化 142
6.3.3 文本預(yù)處理與數(shù)據(jù)增強(qiáng)綜合案例 144
6.4 本章小結(jié) 146
6.5 思考題 147
第 7 章模型性能優(yōu)化：混合精度訓(xùn)練與分布式訓(xùn)練 148
7.1 混合精度訓(xùn)練的實(shí)現(xiàn) 148
7.2 多GPU并行與分布式訓(xùn)練的實(shí)現(xiàn) 150
7.2.1 分布式訓(xùn)練流程與常規(guī)配置方案 150
7.2.2 Data Parallel方案 152
7.2.3 Model Parallel方案 154
7.3 梯度累積的實(shí)現(xiàn) 157
7.3.1 梯度累積初步實(shí)現(xiàn) 157
7.3.2 小批量訓(xùn)練中的梯度累積 159
7.3.3 梯度累積處理文本分類任務(wù) 161
7.4 本章小結(jié) 164
7.5 思考題 165
第 8 章對(duì)比學(xué)習(xí)與對(duì)抗訓(xùn)練 166
8.1 對(duì)比學(xué)習(xí) 166
8.1.1 構(gòu)建正負(fù)樣本對(duì)及損失函數(shù) 166
8.1.2 SimCLR的實(shí)現(xiàn)與初步應(yīng)用 171
8.2 基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練與微調(diào) 174
8.2.1 通過對(duì)比學(xué)習(xí)進(jìn)行自監(jiān)督預(yù)訓(xùn)練 175
8.2.2 對(duì)比學(xué)習(xí)在分類、聚類等任務(wù)中的表現(xiàn) 180
8.3 生成式對(duì)抗網(wǎng)絡(luò)的實(shí)現(xiàn)與優(yōu)化 183
8.4 對(duì)抗訓(xùn)練在大模型中的應(yīng)用 188
8.5 本章小結(jié) 192
8.6 思考題 192
第 9 章自適應(yīng)優(yōu)化器與動(dòng)態(tài)學(xué)習(xí)率調(diào)度 194
9.1 AdamW優(yōu)化器與LAMB優(yōu)化器的實(shí)現(xiàn) 194
9.1.1 AdamW優(yōu)化器 194
9.1.2 LAMB優(yōu)化器 197
9.2 基于梯度累積的優(yōu)化技巧 200
9.2.1 大批量?jī)?nèi)存受限環(huán)境 200
9.2.2 梯度累積的應(yīng)用場(chǎng)景和參數(shù)調(diào)整對(duì)訓(xùn)練效果的影響 203
9.3 動(dòng)態(tài)學(xué)習(xí)率調(diào)度 205
9.3.1 線性衰減 205
9.3.2 余弦退火 207
9.4 Warmup與循環(huán)學(xué)習(xí)率調(diào)度 209
9.4.1 Warmup策略實(shí)現(xiàn) 209
9.4.2 循環(huán)學(xué)習(xí)率調(diào)度 211
9.4.3 其他幾種常見的動(dòng)態(tài)學(xué)習(xí)調(diào)度器 214
9.5 本章小結(jié) 217
9.6 思考題 218
第 10 章模型蒸餾與剪枝 219
10.1 知識(shí)蒸餾：教師－學(xué)生模型 219
10.1.1 知識(shí)蒸餾核心過程 219
10.1.2 教師－學(xué)生模型 221
10.1.3 蒸餾損失 224
10.2 知識(shí)蒸餾在文本模型中的應(yīng)用 226
10.2.1 知識(shí)蒸餾在文本分類模型中的應(yīng)用 226
10.2.2 模型蒸餾效率分析 229
10.2.3 文本情感分析任務(wù)中的知識(shí)蒸餾效率對(duì)比 231
10.3 模型剪枝技術(shù) 234
10.3.1 權(quán)重剪枝 234
10.3.2 結(jié)構(gòu)化剪枝 237
10.3.3 在嵌入式設(shè)備上部署手寫數(shù)字識(shí)別模型 240
10.3.4 BERT模型的多頭注意力剪枝 243
10.4 本章小結(jié) 247
10.5 思考題 248
第 11 章模型訓(xùn)練實(shí)戰(zhàn) 249
11.1 數(shù)據(jù)預(yù)處理與Tokenization細(xì)節(jié) 249
11.1.1 大規(guī)模文本數(shù)據(jù)清洗 249
11.1.2 常用分詞器的使用 252
11.2 大規(guī)模預(yù)訓(xùn)練模型的設(shè)置與啟動(dòng) 255
11.3 預(yù)訓(xùn)練過程中的監(jiān)控與中間結(jié)果保存 258
11.4 訓(xùn)練中斷與恢復(fù)機(jī)制 262
11.5 綜合案例：IMDB文本分類訓(xùn)練全流程 265
11.5.1 數(shù)據(jù)預(yù)處理與Tokenization 265
11.5.2 多GPU與分布式訓(xùn)練設(shè)置 266
11.5.3 訓(xùn)練過程中的監(jiān)控與中間結(jié)果保存 266
11.5.4 訓(xùn)練中斷與恢復(fù) 267
11.5.5 測(cè)試模型性能 268
11.6 本章小結(jié) 269
11.7 思考題 270
第 12 章模型微調(diào)實(shí)戰(zhàn) 271
12.1 微調(diào)數(shù)據(jù)集的選擇與準(zhǔn)備 271
12.1.1 數(shù)據(jù)集準(zhǔn)備與清洗 271
12.1.2 數(shù)據(jù)集分割 272
12.1.3 數(shù)據(jù)增強(qiáng) 272
12.2 層級(jí)凍結(jié)與部分解凍策略 274
12.3 模型參數(shù)調(diào)整與優(yōu)化技巧 276
12.4 微調(diào)后的模型評(píng)估與推理優(yōu)化 278
12.5 綜合微調(diào)應(yīng)用案例 280
12.6 本章小結(jié) 283
12.7 思考題 283