大模型核心技術(shù)與開發(fā)實(shí)踐：基于Transformer、PyTorch及Hugging Face

定　價(jià)：￥99.00

作　者：	凌峰
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥78.20)

ISBN：	9787302691402	出版時(shí)間：	2024-12-01	包裝：	平裝-膠訂
開本：	128開	頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　"《大模型核心技術(shù)與開發(fā)實(shí)踐：基于Transformer、PyTorch及Hugging Face》系統(tǒng)地介紹大語(yǔ)言模型（LLM）的理論基礎(chǔ)、實(shí)現(xiàn)方法及在多種場(chǎng)景中的應(yīng)用實(shí)踐。共分為12章，第1~3章介紹Transformer模型的基本架構(gòu)與核心概念，包括編解碼器的結(jié)構(gòu)、自注意力機(jī)制、多頭注意力的設(shè)計(jì)和工作原理；第4~6章結(jié)合實(shí)際案例，講解如何利用PyTorch和Hugging Face庫(kù)構(gòu)建、訓(xùn)練和微調(diào)LLM；第7~9章介紹生成模型的推理和優(yōu)化技術(shù)，包括量化、剪枝、多GPU并行處理、混合精度訓(xùn)練等，以提高模型在大規(guī)模數(shù)據(jù)集上的訓(xùn)練和推理效率；第10、11章通過實(shí)例講解Transformer在實(shí)際NLP任務(wù)中的應(yīng)用以及模型可解釋性技術(shù)；第12章通過一個(gè)企業(yè)級(jí)文本分析平臺(tái)項(xiàng)目的搭建，介紹從數(shù)據(jù)預(yù)處理、文本生成、高級(jí)分析到容器化與云端部署的完整流程，并提供了代碼示例、模塊化測(cè)試和性能評(píng)估方法，幫助讀者實(shí)際構(gòu)建滿足企業(yè)需求的智能應(yīng)用系統(tǒng)。《大模型核心技術(shù)與開發(fā)實(shí)踐：基于Transformer、PyTorch及Hugging Face》覆蓋了當(dāng)前廣泛關(guān)注的LLM技術(shù)熱點(diǎn)，并提供了豐富的實(shí)例代碼，適合大模型開發(fā)人員、大模型應(yīng)用工程師、算法工程師以及計(jì)算機(jī)專業(yè)的學(xué)生，亦可作為高校人工智能課程的相關(guān)教學(xué)用書。"

作者簡(jiǎn)介

　　凌峰，博士，目前就職于某985高校，長(zhǎng)期從事機(jī)器學(xué)習(xí)、人工智能、計(jì)算機(jī)視覺與大模型領(lǐng)域的研發(fā)與教學(xué)，在模型優(yōu)化、訓(xùn)練加速、數(shù)據(jù)驅(qū)動(dòng)算法開發(fā)等方面有深刻見解，參與并主導(dǎo)多項(xiàng)相關(guān)科研項(xiàng)目。

圖書目錄

目錄
第 1 章 Transformer與PyTorch的集成應(yīng)用概述 1
1.1 大模型與Transformer的技術(shù)背景 1
1.1.1 自注意力機(jī)制的原理與實(shí)現(xiàn)細(xì)節(jié) 2
1.1.2 多層堆疊與殘差連接：Transformer的高效信息流 4
1.2 PyTorch的應(yīng)用場(chǎng)景與技術(shù)特點(diǎn) 7
1.2.1 動(dòng)態(tài)圖計(jì)算與自動(dòng)微分機(jī)制 7
1.2.2 GPU加速與多設(shè)備支持 8
1.3 快速上手：使用PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的Transformer模型 12
1.3.1 Transformer編碼器的基礎(chǔ)實(shí)現(xiàn)與訓(xùn)練流程 13
1.3.2 解碼器與完整Transformer模型的拼接與測(cè)試 16
1.4 本章小結(jié) 21
1.5 思考題 21
第 2 章 Transformer編碼器與解碼器的原理與實(shí)現(xiàn) 22
2.1 Transformer編碼器與解碼器結(jié)構(gòu)分析 22
2.1.1 位置編碼的設(shè)計(jì)與實(shí)現(xiàn) 23
2.1.2 多頭注意力與前饋層的層次關(guān)系 28
2.2 基于PyTorch實(shí)現(xiàn)編碼器－解碼器架構(gòu) 31
2.2.1 多頭注意力模塊的獨(dú)立實(shí)現(xiàn)與測(cè)試 32
2.2.2 殘差連接與層歸一化的模塊化實(shí)現(xiàn) 34
2.3 Transformer的編碼解碼過程 36
2.3.1 編碼器多層堆疊與信息流動(dòng)的實(shí)現(xiàn) 36
2.3.2 解碼器自回歸生成過程的實(shí)現(xiàn)與可視化 39
2.3.3 基于文本的Transformer實(shí)例：逐步打印編碼解碼過程 42
2.4 編碼器和解碼器的雙向訓(xùn)練流程 45
2.4.1 編碼器與解碼器的聯(lián)合訓(xùn)練策略 45
2.4.2 掩碼機(jī)制在雙向訓(xùn)練中的應(yīng)用 49
2.5 本章小結(jié) 52
2.6 思考題 53
第 3 章注意力機(jī)制與多頭注意力的實(shí)現(xiàn) 54
3.1 注意力機(jī)制的基礎(chǔ)與實(shí)現(xiàn)原理 54
3.1.1 點(diǎn)積注意力與縮放機(jī)制 55
3.1.2 注意力權(quán)重的歸一化與Softmax函數(shù)應(yīng)用 57
3.2 多頭注意力的設(shè)計(jì)與實(shí)現(xiàn)細(xì)節(jié) 60
3.2.1 多頭分組與并行計(jì)算策略 60
3.2.2 多頭注意力的拼接與線性變換 62
3.3 使用PyTorch實(shí)現(xiàn)多頭注意力并進(jìn)行可視化 64
3.3.1 注意力矩陣的生成與可視化 64
3.3.2 不同頭注意力分布的可視化分析 67
3.4 多頭注意力權(quán)重的提取與應(yīng)用 70
3.4.1 多頭注意力權(quán)重提取與解讀：理解模型的關(guān)注點(diǎn) 70
3.4.2 多頭注意力權(quán)重的優(yōu)化與調(diào)控 72
3.5 本章小結(jié) 75
3.6 思考題 76
第 4 章 Hugging Face Transformers庫(kù)的應(yīng)用 77
4.1 Transformer模型的加載與配置 77
4.1.1 預(yù)訓(xùn)練模型的加載與管理 78
4.1.2 模型配置自定義與參數(shù)調(diào)整 79
4.2 使用Hugging Face庫(kù)進(jìn)行模型訓(xùn)練與推理 83
4.2.1 模型訓(xùn)練數(shù)據(jù)的預(yù)處理與標(biāo)注 83
4.2.2 訓(xùn)練過程中的參數(shù)優(yōu)化與監(jiān)控 86
4.3 Hugging Face生態(tài)系統(tǒng)的其他工具介紹 88
4.3.1 Tokenizer的自定義與高效分詞方法 88
4.3.2 Dataset和Pipeline工具的集成應(yīng)用 91
4.4 自定義Hugging Face的模型訓(xùn)練流程 93
4.4.1 自定義訓(xùn)練循環(huán)與評(píng)估指標(biāo) 93
4.4.2 遷移學(xué)習(xí)與微調(diào)：從預(yù)訓(xùn)練到特定任務(wù) 96
4.5 本章小結(jié) 99
4.6 思考題 100
第 5 章數(shù)據(jù)預(yù)處理與文本分詞技術(shù) 101
5.1 文本數(shù)據(jù)的清洗與標(biāo)準(zhǔn)化 101
5.1.1 特殊字符和標(biāo)點(diǎn)的處理 102
5.1.2 停用詞去除與大小寫規(guī)范化 105
5.2 分詞方法及其在不同模型中的應(yīng)用 106
5.2.1 詞級(jí)分詞與子詞分詞 107
5.2.2 BPE與WordPiece分詞算法的實(shí)現(xiàn)原理 109
5.3 使用PyTorch和Hugging Face進(jìn)行分詞與詞嵌入 112
5.3.1 基于Hugging Face Tokenizer的高效分詞 112
5.3.2 Embedding層的定義與詞嵌入矩陣的初始化 115
5.4 動(dòng)態(tài)分詞與序列截?cái)嗉夹g(shù) 117
5.4.1 處理變長(zhǎng)文本輸入 117
5.4.2 長(zhǎng)序列的截?cái)嗯c填充 119
5.4.3 綜合案例：文本清洗、分詞、詞嵌入與動(dòng)態(tài)填充 122
5.5 本章小結(jié) 125
5.6 思考題 125
第 6 章模型微調(diào)與遷移學(xué)習(xí) 127
6.1 微調(diào)與遷移學(xué)習(xí)的基本概念與方法 127
6.1.1 遷移學(xué)習(xí)的體系結(jié)構(gòu)：模型的選擇與適配 128
6.1.2 全參數(shù)微調(diào)與部分參數(shù)微調(diào)的優(yōu)缺點(diǎn) 131
6.2 使用預(yù)訓(xùn)練模型進(jìn)行領(lǐng)域微調(diào) 133
6.2.1 領(lǐng)域特定數(shù)據(jù)的預(yù)處理與加載 133
6.2.2 調(diào)節(jié)學(xué)習(xí)率與損失函數(shù) 135
6.3 微調(diào)策略與優(yōu)化技巧：凍結(jié)層、增量訓(xùn)練等 137
6.3.1 凍結(jié)模型層的選擇與解凍 137
6.3.2 增量訓(xùn)練中的數(shù)據(jù)選擇與樣本權(quán)重分配 139
6.4 增量學(xué)習(xí)：如何在新數(shù)據(jù)上繼續(xù)微調(diào) 142
6.4.1 基于新數(shù)據(jù)的微調(diào)策略：避免災(zāi)難性遺忘 143
6.4.2 使用正則化與約束技術(shù)保持原模型性能 146
6.4.3 綜合案例：增量學(xué)習(xí)中的微調(diào)策略與優(yōu)化 149
6.5 本章小結(jié) 152
6.6 思考題 153
第 7 章文本生成與推理技術(shù) 154
7.1 文本生成方法概述：Beam Search、Top-K與Top-P采樣 154
7.1.1 Beam Search的多路徑生成與評(píng)估 155
7.1.2 Top-K采樣的限制與稀疏性控制 156
7.1.3 Top-P采樣的自適應(yīng)概率截?cái)鄼C(jī)制 158
7.2 文本生成模型的應(yīng)用實(shí)例 160
7.2.1 使用預(yù)訓(xùn)練語(yǔ)言模型生成長(zhǎng)篇文本 160
7.2.2 生成多輪對(duì)話的上下文保持與管理 163
7.2.3 引導(dǎo)生成特定情緒的文本 166
7.3 生成模型的實(shí)現(xiàn)與優(yōu)化 168
7.3.1 使用PyTorch和Transformers庫(kù)實(shí)現(xiàn)生成模型 168
7.3.2 生成模型的批量處理與并行加速 171
7.3.3 生成結(jié)果的后處理與數(shù)據(jù)清洗 173
7.4 控制生成式模型輸出的技術(shù)手段 176
7.4.1 溫度調(diào)控參數(shù)的設(shè)置與生成調(diào)節(jié) 176
7.4.2 限制生成輸出的內(nèi)容 179
7.4.3 生成限制：控制模型輸出的重復(fù)與一致性 181
7.5 句子長(zhǎng)度與風(fēng)格調(diào)控 184
7.5.1 強(qiáng)制生成短句或長(zhǎng)句 184
7.5.2 生成特定語(yǔ)法與風(fēng)格的文本 187
7.5.3 語(yǔ)言風(fēng)格遷移與自定義風(fēng)格調(diào)控 189
7.6 本章小結(jié) 192
7.7 思考題 192
第 8 章模型優(yōu)化與量化技術(shù) 194
8.1 模型優(yōu)化策略概述：剪枝與蒸餾 194
8.1.1 剪枝策略的類型與應(yīng)用場(chǎng)景 194
8.1.2 蒸餾模型的設(shè)計(jì)與小模型訓(xùn)練技巧 197
8.2 模型量化方法在推理中的加速效果 200
8.2.1 靜態(tài)量化與動(dòng)態(tài)量化 200
8.2.2 量化感知訓(xùn)練 203
8.3 基于PyTorch的模型優(yōu)化與性能測(cè)試 206
8.3.1 TorchScript在優(yōu)化模型中的應(yīng)用 207
8.3.2 使用PyTorch Profiler進(jìn)行性能分析 209
8.4 混合精度訓(xùn)練與內(nèi)存優(yōu)化 212
8.4.1 使用AMP進(jìn)行混合精度訓(xùn)練 212
8.4.2 Gradient Checkpointing的內(nèi)存管理 214
8.5 本章小結(jié) 218
8.6 思考題 218
第 9 章分布式訓(xùn)練與多GPU并行處理 220
9.1 分布式訓(xùn)練的基本原理與架構(gòu) 220
9.1.1 數(shù)據(jù)并行與模型并行的架構(gòu) 221
9.1.2 分布式訓(xùn)練：參數(shù)服務(wù)器與All-Reduce 223
9.2 多GPU并行處理的實(shí)現(xiàn)與代碼示例 225
9.2.1 單機(jī)多卡的實(shí)現(xiàn)與管理 226
9.2.2 跨機(jī)器多GPU的分布式訓(xùn)練配置 229
9.3 梯度累積與分布式同步優(yōu)化 231
9.3.1 梯度累積應(yīng)用場(chǎng)景與實(shí)現(xiàn) 231
9.3.2 分布式訓(xùn)練中的梯度同步與參數(shù)更新 234
9.4 本章小結(jié) 237
9.5 思考題 237
第 10 章 NLP任務(wù)實(shí)例：分類、問答與命名實(shí)體識(shí)別 239
10.1 文本分類任務(wù)實(shí)現(xiàn)與優(yōu)化技巧 239
10.1.1 數(shù)據(jù)預(yù)處理與標(biāo)簽平衡技術(shù) 240
10.1.2 超參數(shù)調(diào)優(yōu)與模型性能提升 242
10.2 問答系統(tǒng)的實(shí)現(xiàn)流程與代碼演示 243
10.2.1 預(yù)訓(xùn)練語(yǔ)言模型在問答任務(wù)中的應(yīng)用 244
10.2.2 答案抽取與評(píng)分機(jī)制 247
10.2.3 多輪問答中的上下文跟蹤與信息保持 249
10.2.4 知識(shí)圖譜增強(qiáng) 251
10.3 基于Transformer的序列標(biāo)注任務(wù)實(shí)現(xiàn) 254
10.3.1 命名實(shí)體識(shí)別的標(biāo)注 254
10.3.2 序列標(biāo)注模型 260
10.3.3 綜合案例：基于BERT的命名實(shí)體識(shí)別與上下文追蹤的多輪對(duì)話系統(tǒng) 263
10.4 本章小結(jié) 268
10.5 思考題 269
第 11 章深度學(xué)習(xí)模型的可解釋性 270
11.1 使用SHAP和LIME進(jìn)行特征重要性分析 270
11.1.1 SHAP在深度模型中的應(yīng)用與特征影響力排序 271
11.1.2 LIME在不同輸入類型下的局部解釋 273
11.2 注意力權(quán)重提取與層次分析 274
11.2.1 逐層提取多頭注意力權(quán)重 275
11.2.2 跨層注意力權(quán)重變化 276
11.2.3 綜合案例：基于Transformer的文本分類模型的多層次可解釋性分析 278
11.3 本章小結(jié) 281
11.4 思考題 281
第 12 章構(gòu)建智能文本分析平臺(tái) 283
12.1 項(xiàng)目概述與模塊劃分 283
12.1.1 項(xiàng)目概述 283
12.1.2 模塊劃分 284
12.2 模塊化開發(fā)與測(cè)試 285
12.2.1 數(shù)據(jù)收集與預(yù)處理 285
12.2.2 文本生成與內(nèi)容生成 288
12.2.3 高級(jí)文本分析 292
12.2.4 模型優(yōu)化與推理性能提升 296
12.2.5 多GPU與分布式訓(xùn)練 299
12.2.6 可解釋性分析與模型可控性 303
12.2.7 單元測(cè)試 305
12.2.8 集成測(cè)試 310
12.3 平臺(tái)容器化部署與云端部署 313
12.3.1 使用Docker進(jìn)行容器化部署 313
12.3.2 使用Kubernetes實(shí)現(xiàn)云端可擴(kuò)展性和高可用性 315
12.4 本章小結(jié) 319
12.5 思考題 319