大模型輕量化：模型壓縮與訓(xùn)練加速

定　價(jià)：￥129.00

作　者：	梁志遠(yuǎn)
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

當(dāng)當(dāng)網(wǎng) (￥101.90)

ISBN：	9787302686002	出版時(shí)間：	2025-04-01	包裝：	平裝-膠訂
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《大模型輕量化：模型壓縮與訓(xùn)練加速》圍繞大模型輕量化這一主題，系統(tǒng)地闡述大模型輕量化的基本理論與實(shí)現(xiàn)方法，旨在提升模型的部署效率和計(jì)算性能。全書(shū)分為3部分，共10章。第1部分（第1～5章），介紹大模型的背景與面臨的問(wèn)題，以及Transformer和MoE架構(gòu)的基本原理；重點(diǎn)講解模型壓縮、訓(xùn)練加速和推理優(yōu)化等核心技術(shù)，包括量化、蒸餾和剪枝等，并通過(guò)實(shí)際案例驗(yàn)證其效果。第2部分（第6、7章），重點(diǎn)介紹端側(cè)學(xué)習(xí)與計(jì)算引擎優(yōu)化策略，尤其是動(dòng)態(tài)Batch和異構(gòu)執(zhí)行的工程實(shí)現(xiàn)。第3部分（第8～10章），針對(duì)高性能算子庫(kù)與手工算子開(kāi)發(fā)，分別以cuDNN、NEON、CUDA等為代表，揭示算子優(yōu)化的細(xì)節(jié)，最后，以國(guó)產(chǎn)開(kāi)源模型DeepSeek-V3為例，展現(xiàn)從訓(xùn)練到推理的綜合優(yōu)化方案?！洞竽Ｐ洼p量化：模型壓縮與訓(xùn)練加速》提供全面實(shí)用的輕量化方法論，結(jié)合豐富代碼示例與實(shí)踐案例，適合從事大模型開(kāi)發(fā)與優(yōu)化的工程師，也為研究人員提供深入探討的素材與視角，助力解決大模型訓(xùn)練與推理中的實(shí)際問(wèn)題。

作者簡(jiǎn)介

　　梁志遠(yuǎn)，博士，畢業(yè)于北京航空航天大學(xué)。長(zhǎng)期從事人工智能、大語(yǔ)言模型的開(kāi)發(fā)，專(zhuān)注于深度學(xué)習(xí)、自然語(yǔ)言處理、數(shù)據(jù)分析與智能決策等領(lǐng)域。主持或參與多項(xiàng)科研項(xiàng)目，涵蓋模型訓(xùn)練優(yōu)化、知識(shí)蒸餾、自動(dòng)推理與多模態(tài)學(xué)習(xí)等方向。致力于推動(dòng)人工智能技術(shù)在工業(yè)應(yīng)用、智能交互與數(shù)據(jù)驅(qū)動(dòng)中的實(shí)踐與發(fā)展。

圖書(shū)目錄

第 1 部分大模型概述與核心優(yōu)化技術(shù)
第 1 章大模型基本概念 3
1.1 大模型的興起與發(fā)展 3
1.1.1 大規(guī)模神經(jīng)網(wǎng)絡(luò) 4
1.1.2 Transformer編碼器－解碼器 5
1.1.3 MoE架構(gòu) 7
1.2 計(jì)算資源與性能瓶頸 9
1.2.1 GPU簡(jiǎn)介 10
1.2.2 TPU簡(jiǎn)介 12
1.2.3 網(wǎng)絡(luò)帶寬約束與分布式訓(xùn)練 13
1.2.4 大模型的訓(xùn)練時(shí)間與計(jì)算資源消耗問(wèn)題 14
1.3 數(shù)據(jù)與隱私問(wèn)題 16
1.3.1 急劇增加的數(shù)據(jù)量 16
1.3.2 數(shù)據(jù)隱私保護(hù)與合規(guī)性 19
1.4 模型部署與運(yùn)維 20
1.4.1 模型部署基本概念 20
1.4.2 云計(jì)算與邊緣計(jì)算 25
1.4.3 端側(cè)部署 29
1.4.4 大模型運(yùn)行與維護(hù) 30
1.5 本章小結(jié) 34
1.6 思考題 34
第 2 章模型壓縮、訓(xùn)練與推理 36
2.1 模型壓縮概述 36
2.1.1 模型壓縮簡(jiǎn)介 36
2.1.2 常見(jiàn)的模型壓縮方法分類(lèi) 37
2.2 訓(xùn)練加速基礎(chǔ) 38
2.2.1 數(shù)據(jù)并行與模型并行 39
2.2.2 混合精度訓(xùn)練 40
2.2.3 分布式訓(xùn)練框架：Horovod 44
2.3 推理加速基礎(chǔ) 49
2.3.1 硬件加速與推理引擎 49
2.3.2 低延遲與高吞吐量平衡 55
2.3.3 推理優(yōu)化實(shí)戰(zhàn)：批量推理 58
2.4 性能評(píng)估指標(biāo) 62
2.4.1 計(jì)算復(fù)雜度與性能指標(biāo) 62
2.4.2 延遲、吞吐量與精度之間的權(quán)衡 63
2.4.3 評(píng)估工具與基準(zhǔn)測(cè)試 67
2.5 本章小結(jié) 74
2.6 思考題 75
第 3 章模型格式轉(zhuǎn)換 76
3.1 模型格式的定義與轉(zhuǎn)換 76
3.1.1 常見(jiàn)的模型格式：ONNX、TensorFlow的SavedModel 76
3.1.2 模型格式轉(zhuǎn)換實(shí)現(xiàn) 81
3.1.3 模型的兼容性問(wèn)題 86
3.2 跨框架模型轉(zhuǎn)換 90
3.2.1 TensorFlow到PyTorch的模型轉(zhuǎn)換 90
3.2.2 ONNX與TensorFlow、PyTorch的兼容性 93
3.2.3 轉(zhuǎn)換時(shí)的精度損失問(wèn)題 99
3.3 硬件相關(guān)的格式轉(zhuǎn)換 105
3.3.1 從PyTorch到TensorRT 106
3.3.2 ONNX模型與NVIDIA TensorRT的兼容性 112
3.3.3 模型格式與硬件加速的關(guān)系 113
3.4 模型格式轉(zhuǎn)換的工具與庫(kù) 114
3.4.1 使用ONNX進(jìn)行跨平臺(tái)轉(zhuǎn)換 115
3.4.2 TensorFlow Lite與Edge模型優(yōu)化 117
3.5 本章小結(jié) 122
3.6 思考題 123
第 4 章圖優(yōu)化 124
4.1 算子融合技術(shù) 124
4.1.1 算子融合的原理 124
4.1.2 典型算子融合算法的實(shí)現(xiàn) 126
4.1.3 實(shí)驗(yàn)：算子融合對(duì)推理性能的提升 129
4.2 布局轉(zhuǎn)換與優(yōu)化 133
4.2.1 張量布局的原理 133
4.2.2 內(nèi)存訪問(wèn)優(yōu)化與布局選擇 135
4.3 算子替換技術(shù) 137
4.3.1 用低開(kāi)銷(xiāo)算子替換高開(kāi)銷(xiāo)算子 137
4.3.2 常見(jiàn)的算子替換策略 139
4.4 顯存優(yōu)化 142
4.4.1 顯存占用分析與優(yōu)化 142
4.4.2 梯度檢查點(diǎn)與顯存共享 145
4.4.3 動(dòng)態(tài)顯存分配與內(nèi)存池管理 148
4.5 本章小結(jié) 152
4.6 思考題 152
第 5 章模型壓縮 154
5.1 量化 154
5.1.1 定點(diǎn)量化與浮點(diǎn)量化的區(qū)別 154
5.1.2 量化算法與工具：TensorFlow Lite 157
5.1.3 量化帶來(lái)的精度損失問(wèn)題 160
5.2 知識(shí)蒸餾 163
5.2.1 知識(shí)蒸餾的基本概念與應(yīng)用場(chǎng)景 163
5.2.2 知識(shí)蒸餾的損失函數(shù)與訓(xùn)練過(guò)程 164
5.2.3 如何選擇蒸餾－教師網(wǎng)絡(luò)模型 167
5.3 剪枝 169
5.3.1 網(wǎng)絡(luò)剪枝基本原理 169
5.3.2 基于權(quán)重剪枝與結(jié)構(gòu)化剪枝 171
5.3.3 剪枝后的精度恢復(fù)方案 177
5.4 二值化與極端壓縮 183
5.4.1 二值化網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練 183
5.4.2 二值化對(duì)計(jì)算與存儲(chǔ)的影響 186
5.5 本章小結(jié) 189
5.6 思考題 189
第 2 部分端側(cè)學(xué)習(xí)與高效計(jì)算引擎優(yōu)化
第 6 章端側(cè)學(xué)習(xí)、端側(cè)推理及計(jì)算引擎優(yōu)化 193
6.1 聯(lián)邦學(xué)習(xí)概述 193
6.1.1 聯(lián)邦學(xué)習(xí)的基本概念與應(yīng)用 193
6.1.2 聯(lián)邦學(xué)習(xí)中的隱私保護(hù)機(jī)制、通信與聚合算法 194
6.2 數(shù)據(jù)處理與預(yù)處理 197
6.2.1 數(shù)據(jù)清洗與增廣技術(shù) 197
6.2.2 數(shù)據(jù)均衡與過(guò)采樣策略 199
6.2.3 端側(cè)數(shù)據(jù)處理的資源限制 201
6.3 Trainer與優(yōu)化器設(shè)計(jì) 202
6.3.1 端側(cè)訓(xùn)練的挑戰(zhàn)與策略 203
6.3.2 高效優(yōu)化器（如SGD、Adam）的選擇 204
6.3.3 動(dòng)態(tài)調(diào)整學(xué)習(xí)率與訓(xùn)練過(guò)程監(jiān)控 206
6.4 損失函數(shù)的設(shè)計(jì)與選擇 209
6.4.1 常見(jiàn)的損失函數(shù)與應(yīng)用場(chǎng)景 209
6.4.2 多任務(wù)學(xué)習(xí)中的損失函數(shù)設(shè)計(jì) 210
6.4.3 損失函數(shù)的數(shù)值穩(wěn)定性 213
6.5 Benchmark設(shè)計(jì)與性能評(píng)估 215
6.5.1 經(jīng)典Benchmark與定制Benchmark 215
6.5.2 推理與訓(xùn)練性能的綜合評(píng)估 216
6.5.3 性能瓶頸的識(shí)別與優(yōu)化 219
6.6 IR的作用與優(yōu)化 222
6.6.1 IR的定義及作用 222
6.6.2 IR轉(zhuǎn)換與優(yōu)化策略 223
6.7 Schema的設(shè)計(jì)與規(guī)范 225
6.7.1 數(shù)據(jù)格式與模型接口的設(shè)計(jì) 225
6.7.2 數(shù)據(jù)流與計(jì)算圖的規(guī)范化 228
6.8 動(dòng)態(tài)Batch與內(nèi)存調(diào)度 231
6.8.1 動(dòng)態(tài)Batch的選擇與調(diào)整 231
6.8.2 內(nèi)存調(diào)度與性能優(yōu)化 234
6.8.3 優(yōu)化內(nèi)存利用率與減少內(nèi)存溢出 237
6.9 異構(gòu)執(zhí)行與優(yōu)化 240
6.9.1 GPU與CPU的異構(gòu)計(jì)算模式原理 240
6.9.2 多核心與多節(jié)點(diǎn)并行優(yōu)化 242
6.9.3 異構(gòu)計(jì)算中的任務(wù)調(diào)度 245
6.10 裝箱操作與計(jì)算圖優(yōu)化 247
6.10.1 通過(guò)裝箱減少計(jì)算開(kāi)銷(xiāo) 248
6.10.2 裝箱優(yōu)化對(duì)計(jì)算圖的影響 250
6.11 本章小結(jié) 256
6.12 思考題 257
第 7 章高性能算子庫(kù)簡(jiǎn)介 258
7.1 cuDNN算子庫(kù)概述 258
7.1.1 cuDNN的主要功能 258
7.1.2 常用算子（卷積、池化等）的實(shí)現(xiàn) 259
7.1.3 算子加速實(shí)戰(zhàn)：cuDNN在深度學(xué)習(xí)中的應(yīng)用 262
7.2 MKLDNN算子庫(kù)概述 265
7.2.1 MKLDNN與Intel硬件的優(yōu)化 265
7.2.2 MKLDNN中的高效算子實(shí)現(xiàn) 266
7.2.3 多核支持與并行計(jì)算優(yōu)化 269
7.3 算子庫(kù)的選擇與性能比較 271
7.3.1 cuDNN與MKLDNN的應(yīng)用場(chǎng)景對(duì)比 271
7.3.2 在不同硬件平臺(tái)上的表現(xiàn) 272
7.4 算子庫(kù)的高效利用 275
7.4.1 如何選擇合適的算子庫(kù) 275
7.4.2 優(yōu)化算子庫(kù)接口與內(nèi)存管理 276
7.4.3 算法重構(gòu)：提高算子性能 278
7.5 本章小結(jié) 282
7.6 思考題 283
第 3 部分高性能算子與深度學(xué)習(xí)框架應(yīng)用
第 8 章常用高性能算子開(kāi)發(fā)實(shí)戰(zhàn) 287
8.1 NEON與ARM架構(gòu)優(yōu)化 287
8.1.1 NEON指令集與深度學(xué)習(xí)加速 287
8.1.2 ARM架構(gòu)上的并行計(jì)算優(yōu)化 289
8.1.3 使用NEON實(shí)現(xiàn)卷積等算子加速 291
8.2 CUDA與GPU優(yōu)化 294
8.2.1 CUDA編程模型與內(nèi)存管理 295
8.2.2 CUDA流與核函數(shù)優(yōu)化 297
8.2.3 高效利用GPU并行計(jì)算資源 300
8.3 Vulkan與圖形加速 303
8.3.1 Vulkan的低級(jí)控制與優(yōu)化 304
8.3.2 使用Vulkan進(jìn)行推理加速 311
8.3.3 圖形與計(jì)算并行加速的結(jié)合 312
8.4 AVX與OpenCL的優(yōu)化 321
8.4.1 AVX與CPU優(yōu)化的基本原理 321
8.4.2 OpenCL與跨平臺(tái)加速 322
8.5 本章小結(jié) 327
8.6 思考題 327
第 9 章 TIK、YVM算子原理及其應(yīng)用 328
9.1 TIK算子庫(kù)的應(yīng)用 328
9.1.1 TIK算子庫(kù)與TensorFlow Lite的集成 328
9.1.2 使用TIK進(jìn)行卷積與矩陣乘法加速 330
9.2 YVM算子庫(kù)的應(yīng)用 332
9.2.1 YVM在深度學(xué)習(xí)推理中的高效應(yīng)用 332
9.2.2 YVM的硬件適配與優(yōu)化 334
9.3 本章小結(jié) 346
9.4 思考題 346
第 10 章基于DeepSeek-V3分析大模型訓(xùn)練降本增效技術(shù) 347
10.1 DeepSeek-V3架構(gòu)概述 347
10.1.1 DeepSeek-V3的架構(gòu)設(shè)計(jì)與創(chuàng)新 347
10.1.2 模型參數(shù)共享與層次結(jié)構(gòu)優(yōu)化 350
10.2 DeepSeek-V3的訓(xùn)練降本技術(shù)分析 354
10.2.1 FP8精度訓(xùn)練、混合精度訓(xùn)練與分布式訓(xùn)練 354
10.2.2 動(dòng)態(tài)計(jì)算圖 357
10.2.3 自適應(yīng)批處理與梯度累積技術(shù) 359
10.2.4 Sigmoid路由機(jī)制 363
10.2.5 無(wú)輔助損失負(fù)載均衡算法 365
10.2.6 DualPipe算法 370
10.2.7 All-to-All跨節(jié)點(diǎn)通信 375
10.3 DeepSeek-V3的推理加速技術(shù) 377
10.3.1 量化與蒸餾在DeepSeek-V3中的應(yīng)用 377
10.3.2 模型壓縮與推理速度提升 381
10.4 本章小結(jié) 383
10.5 思考題 383