注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫設計/管理實戰(zhàn)AI大模型

實戰(zhàn)AI大模型

實戰(zhàn)AI大模型

定 價:¥99.00

作 者: 尤洋
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111738787 出版時間: 2023-11-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  《實戰(zhàn)AI大模型》是一本旨在填補人工智能(AI)領域(特別是AI大模型)理論與實踐之間鴻溝的實用手冊。書中介紹了AI大模型的基礎知識和關鍵技術,如Transformer、BERT、ALBERT、T5、GPT系列、InstructGPT、ChatGPT、GPT 4、PaLM和視覺模型等,并詳細解釋了這些模型的技術原理、實際應用以及高性能計算(HPC)技術的使用,如并行計算和內存優(yōu)化。同時,《實戰(zhàn)AI大模型》還提供了實踐案例,詳細介紹了如何使用Colossal AI訓練各種模型。無論是人工智能初學者還是經(jīng)驗豐富的實踐者,都能從本書學到實用的知識和技能,從而在迅速發(fā)展的AI領域中找到適合自己的方向。

作者簡介

  尤洋,清華大學碩士,加州伯克利大學博士,新加坡國立大學計算機系校長青年教授(Presidential Young Professor)。曾創(chuàng)造ImageNet、BERT、AlphaFold、ViT訓練速度的世界紀錄,相關技術被廣泛應用于谷歌、微軟、英特爾、英偉達等科技巨頭。近三年以第一作者身份在NIPS,ICLR,SC,IPDPS,ICS等國際重要會議或期刊上發(fā)表論文十余篇,曾以第一作者身份獲國際并行與分布式處理大會(IPDPS)的Best Paper Award(0.8%獲獎率)和國際并行處理大會(ICPP)的Best Paper Award(0.3%獲獎率),也曾以通訊作者身份獲得了國際人工智能大會 (AAAI)的杰出論文獎(0.14%獲獎率)和國際計算語言學大會 (ACL)的杰出論文獎(0.86%獲獎率),總計發(fā)表論文近百篇。曾獲清華大學優(yōu)秀畢業(yè)生及當時清華大學計算機系數(shù)額最高的西貝爾獎學金,美國計算機協(xié)會(ACM)官網(wǎng)上唯一頒給在讀博士生的ACM-IEEE CS George Michael Memorial HPC Fellowship,頒發(fā)給伯克利優(yōu)秀畢業(yè)生的Lotfi A. Zadeh Prize。他被UC Berkeley提名為ACM Doctoral Dissertation Award候選人。他曾任職于谷歌,微軟,英偉達,英特爾,IBM,2021年入選福布斯30歲以下精英榜(亞洲)并獲得IEEE-CS超算杰出新人獎。

圖書目錄

第1章 深度學習中的AI大模型
1.1 AI大模型在人工智能領域的興起
1.1.1 AI大模型的發(fā)展與挑戰(zhàn)
1.1.2 AI大模型為何難以訓練
1.2 深度學習框架入門
1.2.1 搭建神經(jīng)網(wǎng)絡
1.2.2 訓練一個文本分類器
第2章 分布式系統(tǒng):AI大模型的誕生之所
2.1 深度學習與分布式系統(tǒng)
2.1.1 從分布式計算到分布式AI系統(tǒng)
2.1.2 大規(guī)模分布式訓練平臺的關鍵技術
2.1.3 Colossal AI應用實踐
2.2 AI大模型訓練方法
2.2.1 梯度累積和梯度裁剪
2.2.2 大批量優(yōu)化器LARSLAMB
2.2.3 模型精度與混合精度訓練
2.3 異構訓練
2.3.1 異構訓練的基本原理
2.3.2 異構訓練的實現(xiàn)策略
2.4 實戰(zhàn)分布式訓練
2.4.1 Colossal AI環(huán)境搭建
2.4.2 使用Colossal AI訓練第一個模型
2.4.3 AI大模型的異構訓練
第3章 分布式訓練:上千臺機器如何共同起舞
3.1 并行策略基礎原理
3.1.1 數(shù)據(jù)并行:最基本的并行訓練范式
3.1.2 張量并行:層內模型并行
3.1.3 流水線并行的原理與實現(xiàn)
3.2 高級并行策略基礎原理
3.2.1 序列并行:超長序列模型訓練
3.2.2 混合并行:擴展模型到千億參數(shù)
3.2.3 自動并行:自動化的分布式并行訓練
3.3 實戰(zhàn)分布式訓練
3.3.1 應用模型并行策略的實際案例
3.3.2 結合多種并行策略的訓練實踐
第4章 AI大模型時代的奠基石Transformer模型
4.1 自然語言處理基礎
4.1.1 自然語言任務介紹
4.1.2 語言輸入的預處理
4.1.3 序列到序列模型
4.2 Transformer詳解
4.2.1 Transformer模型結構
4.2.2 注意力與自注意力機制
4.2.3 Transformer中的歸一化
4.3 Transformer的變體與擴展
4.3.1 變體模型匯總
4.3.2 Transformer序列位置信息的編碼處理
4.3.3 Transformer訓練
第5章 AI大幅度提升Google搜索質量:BERT模型
5.1 BERT模型詳解
5.1.1 BERT模型總體架構與輸入形式
5.1.2 BERT模型預訓練任務
5.1.3 BERT模型的應用方法
5.2 高效降低內存使用的ALBERT模型
5.2.1 基于參數(shù)共享的參數(shù)縮減方法
5.2.2 句子順序預測(SOP)預訓練任務
5.3 BERT模型實戰(zhàn)訓練
5.3.1 構建BERT模型
5.3.2 并行訓練BERT模型
第6章 統(tǒng)一自然語言處理范式的T5模型
6.1 T5模型詳解
6.1.1 T5模型架構和輸入輸出——文本到文本
6.1.2 T5模型預訓練
6.1.3 T5模型應用前景及未來發(fā)展
6.2 統(tǒng)一BERT和GPT的BART模型
6.2.1 從BERT、GPT到BART
6.2.2 BART模型預訓練
6.2.3 BART模型的應用
6.3 統(tǒng)一語言學習范式的UL2框架
6.3.1 關于語言模型預訓練的統(tǒng)一視角
6.3.2 結合不同預訓練范式的混合去噪器
6.3.3 UL2的模型性能
6.4 T5模型預訓練方法和關鍵技術
第7章 作為通用人工智能起點的GPT系列模型
7.1 GPT系列模型的起源
7.1.1 GPT的訓練方法和關鍵技術
7.1.2 GPT的模型性能評估分析
7.2 GPT 2模型詳解
7.2.1 GPT 2的核心思想
7.2.2 GPT 2的模型性能
7.3 GPT 3模型詳解
7.3.1 小樣本學習、一次學習與零次學習的異同
7.3.2 GPT 3的訓練方法和關鍵技術
7.3.3 GPT 3的模型性能與效果評估
7.4 GPT 3模型構建與訓練實戰(zhàn)
7.4.1 構建GPT 3模型
7.4.2 使用異構訓練降低GPT 3訓練消耗資源
第8章 興起新一代人工智能浪潮:ChatGPT模型
8.1 能與互聯(lián)網(wǎng)交互的WebGPT
8.1.1 WebGPT的訓練方法和關鍵技術
8.1.2 WebGPT的模型性能評估分析
8.2 能與人類交互的InstructGPT模型
8.2.1 指令學習
8.2.2 近端策略優(yōu)化
8.2.3 基于人類反饋的強化學習(RLHF)方法匯總
8.3 ChatGPT和GPT4
8.3.1 ChatGPT模型簡介和應用
8.3.2 GPT 4模型特點與應用
8.4 構建會話系統(tǒng)模型
8.4.1 基于監(jiān)督的指令精調與模型訓練
8.4.2 會話系統(tǒng)的推理與部署策略
第9章 百花齊放的自然語言模型:Switch Transfomer和PaLM
9.1 萬億參數(shù)稀疏大模型Switch Transformer
9.1.1 稀疏門控混合專家模型MoE
9.1.2 基于MoE的萬億參數(shù)模型Switch Transformer
9.2 PaLM模型:優(yōu)化語言模型性能
9.2.1 PaLM模型的結構、原理和關鍵特點
9.2.2 PaLM訓練策略與效果評估
9.3 PaLM實戰(zhàn)訓練
第10章 實現(xiàn)Transformer向計算機視覺進軍的ViT模型
10.1 Transformer在計算機視覺中的應用
10.1.1 ViT模型在計算機視覺中的發(fā)展背景
10.1.2 ViT模型的架構、原理和關鍵要素
10.1.3 大規(guī)模ViT模型的應用場景和挑戰(zhàn)
10.2 視覺大模型的進一步發(fā)展:Transformer與卷積的融合
10.2.1 基于Transformer的視覺模型的改進應用
10.2.2 基于卷積的視覺模型的發(fā)展優(yōu)化
10.3 ViT模型構建與訓練實戰(zhàn)
10.3.1 構建ViT模型的關鍵步驟與關鍵方法
10.3.2 多維張量并行的ViT的實戰(zhàn)演練
參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號