注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡操作系統(tǒng)Transformer深度解析與NLP應用開發(fā)

Transformer深度解析與NLP應用開發(fā)

Transformer深度解析與NLP應用開發(fā)

定 價:¥119.00

作 者: 梁志遠、韓曉晨
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302685623 出版時間: 2025-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《Transformer深度解析與NLP應用開發(fā)》系統(tǒng)解析Transformer的核心原理,從理論到實踐,幫助讀者全面掌握其在語言模型中的應用,并通過豐富案例剖析技術(shù)細節(jié)。《Transformer深度解析與NLP應用開發(fā)》共12章,內(nèi)容涵蓋Transformer模型的架構(gòu)原理、自注意力機制及其相對于傳統(tǒng)方法的優(yōu)勢,并詳細剖析BERT、GPT等經(jīng)典衍生模型的應用。書中圍繞數(shù)據(jù)預處理、文本分類、序列標注、文本生成、多語言模型等核心任務,結(jié)合遷移學習、微調(diào)與優(yōu)化技術(shù),展示Transformer在語義匹配、問答系統(tǒng)和文本聚類等場景中的實際應用。針對企業(yè)級開發(fā)需求,還特別介紹了ONNX與TensorRT優(yōu)化推理性能的最佳實踐,為大規(guī)模數(shù)據(jù)處理及低資源部署提供了解決方案?!禩ransformer深度解析與NLP應用開發(fā)》兼具理論深度與實際應用價值,內(nèi)容系統(tǒng),案例豐富,適合大模型及NLP研發(fā)人員、工程師、數(shù)據(jù)科學研究人員以及高校師生閱讀與參考。

作者簡介

  梁志遠,博士,畢業(yè)于北京航空航天大學。長期從事人工智能、大語言模型的開發(fā),專注于深度學習、自然語言處理、數(shù)據(jù)分析與智能決策等領(lǐng)域。主持或參與多項科研項目,涵蓋模型訓練優(yōu)化、知識蒸餾、自動推理與多模態(tài)學習等方向。致力于推動人工智能技術(shù)在工業(yè)應用、智能交互與數(shù)據(jù)驅(qū)動中的實踐與發(fā)展。韓曉晨,博士,長期從事高性能計算與大模型訓練算力優(yōu)化研究。近十年來,專注于智能計算架構(gòu)優(yōu)化及大規(guī)模數(shù)據(jù)處理,深耕控制算法、機器視覺等領(lǐng)域。近年來,重點研究大模型訓練加速、算力調(diào)度與異構(gòu)計算優(yōu)化,致力于提升計算效率與資源利用率,推動大規(guī)模人工智能模型的高效部署與應用。

圖書目錄

引    言 1
一、從統(tǒng)計學習到Transformer崛起 1
二、開發(fā)環(huán)境配置:構(gòu)建高效的Transformer開發(fā)平臺 3
第1章  Transformer與自然語言處理概述 7
1.1  Transformer的基礎架構(gòu)與原理 7
1.1.1  多頭注意力機制的核心計算 8
1.1.2  位置編碼與網(wǎng)絡穩(wěn)定性的設計 11
1.2  深度學習經(jīng)典架構(gòu)CNN和RNN的局限性 15
1.2.1  CNN在自然語言處理中的應用與局限 15
1.2.2  RNN架構(gòu)與長序列建模問題 17
1.3  自注意力機制 19
1.3.1  自注意力機制的矩陣計算原理 19
1.3.2  計算復雜度與信息保持 21
1.4  BERT雙向編碼器與GPT單向生成器 23
1.4.1  BERT架構(gòu)與雙向信息編碼 23
1.4.2  GPT架構(gòu)與單向生成能力 26
1.5  基于Transformer的遷移學習 27
1.5.1  遷移學習方法與特定任務適應性 27
1.5.2  遷移學習的實際應用與優(yōu)化策略 30
1.6  Hugging Face平臺開發(fā)基礎 34
1.6.1  關(guān)于Hugging Face 35
1.6.2  環(huán)境準備 35
1.6.3  快速上手:使用預訓練模型 35
1.6.4  數(shù)據(jù)預處理與分詞 36
1.6.5  使用自定義數(shù)據(jù)集進行推理 36
1.6.6  微調(diào)預訓練模型 37
1.6.7  保存與加載模型 38
1.6.8  部署模型到Hugging Face Hub 39
1.7  本章小結(jié) 40
1.8  思考題 40
第2章  文本預處理與數(shù)據(jù)增強 41
2.1  文本數(shù)據(jù)清洗與標準化 41
2.1.1  正則表達式在文本清洗中的應用 41
2.1.2  詞干提取與詞形還原技術(shù) 46
2.2  分詞與嵌入技術(shù) 48
2.2.1  n-gram分詞與BERT分詞原理 48
2.2.2  Word2Vec與BERT詞嵌入的動態(tài)表示 50
2.3  字符級別與詞級別的嵌入方法 56
2.3.1  字符級嵌入模型的實現(xiàn)與優(yōu)勢 56
2.3.2  FastText在細粒度信息捕捉中的應用 58
2.4  數(shù)據(jù)集格式與標簽處理 63
2.4.1  JSON和CSV格式的數(shù)據(jù)讀取與處理 63
2.4.2  多標簽分類的標簽編碼與存儲優(yōu)化 68
2.5  數(shù)據(jù)增強方法 70
2.5.1  同義詞替換與句子反轉(zhuǎn)的增強策略 70
2.5.2  EDA方法在數(shù)據(jù)擴充中的應用 73
2.6  本章小結(jié) 77
2.7  思考題 77
第3章  基于Transformer的文本分類 79
3.1  傳統(tǒng)的規(guī)則與機器學習的文本分類對比 79
3.1.1  基于邏輯樹和正則表達式的關(guān)鍵詞分類 79
3.1.2  TF-IDF與詞嵌入在傳統(tǒng)分類算法中的應用 81
3.2  BERT模型在文本分類中的應用 83
3.2.1  BERT特征提取與分類頭的實現(xiàn) 83
3.2.2  BERT在二分類與多分類任務中的微調(diào) 86
3.3  數(shù)據(jù)集加載與預處理 88
3.3.1  使用Hugging Face datasets庫加載數(shù)據(jù)集 89
3.3.2  數(shù)據(jù)清洗與DataLoader的批處理優(yōu)化 90
3.4  文本分類中的微調(diào)技巧 92
3.4.1  學習率調(diào)度器與參數(shù)凍結(jié) 92
3.4.2  Warmup Scheduler與線性衰減 95
3.5  本章小結(jié) 98
3.6  思考題 99
第4章  依存句法與語義解析 100
4.1  依存句法的基本概念 100
4.1.1  依存關(guān)系術(shù)語解析:主謂賓結(jié)構(gòu)與修飾關(guān)系 100
4.1.2  使用SpaCy構(gòu)建依存關(guān)系樹與句法提取 102
4.2  基于Tree-LSTM的依存句法打分方法 104
4.2.1  Tree-LSTM處理依存樹結(jié)構(gòu)的實現(xiàn) 104
4.2.2  句法結(jié)構(gòu)的打分與信息傳遞機制 107
4.3  使用GNN實現(xiàn)依存關(guān)系 109
4.3.1  圖神經(jīng)網(wǎng)絡在依存結(jié)構(gòu)建模中的應用 110
4.3.2  節(jié)點特征與邊權(quán)重的依存關(guān)系表示 112
4.4  Transformer在依存解析中的應用 115
4.4.1  BERT上下文嵌入與GNN模型的結(jié)合 115
4.4.2  混合模型在依存關(guān)系建模中的應用 117
4.5  依存句法與語義角色標注的結(jié)合 118
4.5.1  語義角色標注的定義與依存關(guān)系融合 119
4.5.2  使用AllenNLP實現(xiàn)句法結(jié)構(gòu)與語義角色標注的結(jié)合 121
4.6  本章小結(jié) 123
4.7  思考題 124
第5章  序列標注與命名實體識別 125
5.1  序列標注任務與常用方法 125
5.1.1  BIO編碼與標簽平滑技術(shù) 125
5.1.2  條件隨機場層的數(shù)學原理與實現(xiàn) 129
5.2  雙向LSTM與CRF的結(jié)合 131
5.2.1  雙向LSTM的結(jié)構(gòu)與工作原理 131
5.2.2  ELMo模型的上下文嵌入與序列標注 133
5.3  BERT在命名實體識別中的應用 134
5.3.1  BERT的CLS標記與Token向量在NER中的作用 134
5.3.2  NER任務的微調(diào)流程與代碼實現(xiàn) 136
5.4  實體識別任務的模型評估 138
5.4.1  NER評估標準:準確率、召回率與F1分數(shù) 138
5.4.2  各類實體的性能評估與代碼實現(xiàn) 140
5.5  結(jié)合Gazetteers與實體識別 141
5.5.1  領(lǐng)域特定詞典的構(gòu)建與應用 141
5.5.2  結(jié)合詞典信息提升實體識別準確性 144
5.6  本章小結(jié) 147
5.7  思考題 147
第6章  文本生成任務的Transformer實現(xiàn) 149
6.1  生成式文本任務的基本方法 149
6.1.1  n-gram模型與馬爾可夫假設 149
6.1.2  n-gram模型在長文本生成中的局限性 150
6.2  優(yōu)化生成策略 152
6.2.1  Greedy Search與Beam Search算法 152
6.2.2  Top-K采樣與Top-P采樣 155
6.3  T5模型在文本摘要中的應用 159
6.3.1  T5編碼器-解碼器架構(gòu)在文本摘要中的應用 159
6.3.2  T5模型的任務指令化微調(diào)與應用優(yōu)化 161
6.4  生成式Transformer模型的比較 164
6.4.1  GPT-2、T5和BART的架構(gòu)區(qū)別與生成任務適配 164
6.4.2  生成式模型在文本摘要和對話生成中的對比應用 167
6.5  Transformer在對話生成中的應用 169
6.5.1  對話生成模型的上下文保持與一致性 169
6.5.2  使用GPT-2與DialoGPT構(gòu)建多輪對話生成系統(tǒng) 172
6.6  文本生成的端到端實現(xiàn) 173
6.6.1  新聞摘要任務的文本生成流程 173
6.6.2  多種生成方式結(jié)合:提升生成質(zhì)量 175
6.7  本章小結(jié) 178
6.8  思考題 178
第7章  多語言模型與跨語言任務 180
7.1  多語言詞嵌入與對齊技術(shù) 180
7.1.1  對抗訓練在詞嵌入對齊中的應用 180
7.1.2  跨語言文本相似度計算的投影矩陣方法 183
7.2  XLM與XLM-R的實現(xiàn) 185
7.2.1  XLM與XLM-RoBERTa在多語言任務中的模型結(jié)構(gòu) 185
7.2.2  多語言文本分類與翻譯任務中的應用實例 186
7.3  使用XLM-RoBERTa進行多語言文本分類 188
7.3.1  XLM-RoBERTa的加載與微調(diào)流程 188
7.3.2  標簽不均衡與語言分布不平衡的處理技巧 190
7.4  跨語言模型中的翻譯任務 192
7.4.1  XLM-RoBERTa在翻譯任務中的應用 192
7.4.2  翻譯任務的模型微調(diào)與質(zhì)量提升策略 194
7.5  多語言模型的代碼實現(xiàn)與評估 197
7.5.1  多語言模型的數(shù)據(jù)加載與訓練實現(xiàn) 197
7.5.2  BLEU與F1分數(shù)在跨語言任務中的評估應用 199
7.5.3  多語言模型綜合應用示例 202
7.6  本章小結(jié) 205
7.7  思考題 206
第8章  深度剖析注意力機制 207
8.1  Scaled Dot-Product Attention的實現(xiàn) 207
8.1.1  查詢、鍵和值的矩陣計算與縮放 207
8.1.2  softmax歸一化與注意力權(quán)重的提取與分析 210
8.2  多頭注意力的實現(xiàn)細節(jié)與優(yōu)化 212
8.2.1  多頭注意力的并行計算與輸出拼接 212
8.2.2  初始化方法與正則化技巧防止過擬合 215
8.3  層歸一化與殘差連接在注意力模型中的作用 217
8.3.1  層歸一化的標準化與穩(wěn)定性提升 217
8.3.2  殘差連接在信息流動與收斂性中的作用 219
8.4  注意力機制在不同任務中的應用 221
8.4.1  機器翻譯與摘要生成中的注意力應用實例 221
8.4.2  注意力權(quán)重可行性解釋 225
8.5  Attention Is All You Need論文中的代碼實現(xiàn) 226
8.5.1  多頭注意力與前饋神經(jīng)網(wǎng)絡的分步實現(xiàn) 226
8.5.2  位置編碼的實現(xiàn)與代碼逐行解析 229
8.6  本章小結(jié) 232
8.7  思考題 232
第9章  文本聚類與BERT主題建模 234
9.1  文本聚類任務概述 234
9.1.1  K-means算法在文本聚類中的應用 234
9.1.2  層次聚類算法的實現(xiàn)與潛在類別發(fā)現(xiàn) 237
9.2  使用Sentence-BERT進行聚類 238
9.2.1  Sentence-BERT的文本嵌入表示 239
9.2.2  短文本與長文本聚類的相似度分析 240
9.3  BERT在主題建模中的應用 244
9.3.1  BERT與LDA結(jié)合實現(xiàn)主題模型 244
9.3.2  動態(tài)嵌入生成語義化主題表示 246
9.4  本章小結(jié) 250
9.5  思考題 250
第10章  基于語義匹配的問答系統(tǒng) 251
10.1  使用Sentence-BERT進行語義相似度計算 251
10.1.1  句子嵌入在語義相似度中的應用 251
10.1.2  余弦相似度的計算與代碼實現(xiàn) 253
10.2  語義匹配任務中的數(shù)據(jù)標注與處理 255
10.2.1  數(shù)據(jù)標注格式設計 255
10.2.2  數(shù)據(jù)不平衡問題:重采樣與加權(quán) 259
10.3  基于BERT的問答系統(tǒng) 261
10.3.1  BERT在SQuAD數(shù)據(jù)集上的微調(diào)流程 262
10.3.2  CLS與SEP標記在問答任務中的作用 266
10.4  使用DistilBERT進行MRC優(yōu)化 269
10.4.1  DistilBERT的蒸餾過程與模型簡化 269
10.4.2  DistilBERT在問答系統(tǒng)中的高效應用 271
10.5  本章小結(jié) 275
10.6  思考題 275
第11章  常用模型微調(diào)技術(shù) 277
11.1  微調(diào)基礎概念 277
11.1.1  凍結(jié)層與解凍策略的應用場景 277
11.1.2  微調(diào)中的參數(shù)不對稱更新 281
11.2  使用領(lǐng)域數(shù)據(jù)微調(diào)BERT模型 283
11.2.1  金融與醫(yī)學領(lǐng)域數(shù)據(jù)的預處理與標簽平衡 283
11.2.2  BERT微調(diào)過程中的參數(shù)初始化與學習率設置 285
11.3  參數(shù)高效微調(diào)(PEFT)進階 288
11.3.1  LoRA、Prefix Tuning的實現(xiàn)與應用 288
11.3.2  Adapter Tuning的工作原理與代碼實現(xiàn) 291
11.4  本章小結(jié) 294
11.5  思考題 294
第12章  高級應用:企業(yè)級系統(tǒng)開發(fā)實戰(zhàn) 296
12.1  基于Transformer的情感分析綜合案例 296
12.1.1  基于BERT的情感分類:數(shù)據(jù)預處理與模型訓練 296
12.1.2  Sentence-BERT文本嵌入 300
12.1.3  情感分類結(jié)果綜合分析 305
12.2  使用ONNX和TensorRT優(yōu)化推理性能 307
12.2.1  Transformer模型的ONNX轉(zhuǎn)換步驟 307
12.2.2  TensorRT量化與裁剪技術(shù)的推理加速 312
12.2.3  ONNX Runtime的多線程推理優(yōu)化與分布式部署 316
12.2.4  TensorRT動態(tài)批量大小支持與自定義算子優(yōu)化 318
12.3  構(gòu)建NLP企業(yè)問答系統(tǒng) 321
12.3.1  清洗、增強和格式化數(shù)據(jù) 322
12.3.2  模型訓練、微調(diào)及推理服務支持 327
12.3.3  RESTful API接口 330
12.3.4  系統(tǒng)狀態(tài)記錄與異常監(jiān)控 332
12.3.5  系統(tǒng)開發(fā)總結(jié) 337
12.4  本章小結(jié) 339
12.5  思考題 339

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號