注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)計(jì)算機(jī)科學(xué)理論與基礎(chǔ)知識(shí)大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南

大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南

大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南

定 價(jià):¥128.00

作 者: 方天戟
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787121481239 出版時(shí)間: 2024-07-01 包裝: 平塑勒
開本: 128開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  大模型是近年來(lái)引人注目的熱點(diǎn)之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對(duì)其需求設(shè)計(jì)的算力及基礎(chǔ)架構(gòu)。本書針對(duì)如何為大模型構(gòu)建基礎(chǔ)架構(gòu)進(jìn)行深入講解,并基于TOGAF方法論,剖析業(yè)界知名案例的設(shè)計(jì)方案。 全書總計(jì)13章。第1章講解AI與大模型時(shí)代對(duì)基礎(chǔ)架構(gòu)的需求;第2章講解軟件程序與專用硬件的結(jié)合,涉及GPU并行運(yùn)算庫(kù)、機(jī)器學(xué)習(xí)程序的開發(fā)框架和分布式AI訓(xùn)練;第3章剖析GPU的硬件架構(gòu),涉及GPU的總體設(shè)計(jì)、Nvidia GH100芯片架構(gòu)和擁有其他Hopper架構(gòu)的GPU;第4章講解GPU服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn);第5章講解機(jī)器學(xué)習(xí)所依托的I/O框架體系;第6章講解GPU集群的網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn);第7章講解GPU板卡算力調(diào)度技術(shù);第8章講解GPU虛擬化調(diào)度方案;第9章講解GPU集群的網(wǎng)絡(luò)虛擬化設(shè)計(jì)與實(shí)現(xiàn);第10章講解GPU集群的存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn);第11章講解如何基于云原生技術(shù)為機(jī)器學(xué)習(xí)應(yīng)用設(shè)計(jì)與實(shí)現(xiàn)更好的開發(fā)和運(yùn)行平臺(tái);第12章講解基于云平臺(tái)的GPU集群的管理與運(yùn)營(yíng),涉及云運(yùn)維平臺(tái)、云運(yùn)營(yíng)平臺(tái)和云審計(jì)平臺(tái);第13章基于一個(gè)服務(wù)機(jī)器學(xué)習(xí)的GPU計(jì)算平臺(tái)落地案例,展示如何針對(duì)機(jī)器學(xué)習(xí)應(yīng)用進(jìn)行需求分析、設(shè)計(jì)與實(shí)現(xiàn)。 無(wú)論是高等院校計(jì)算機(jī)與人工智能等相關(guān)專業(yè)的本科生或研究生,還是對(duì)并行計(jì)算技術(shù)、云計(jì)算技術(shù)、高性能存儲(chǔ)及高性能網(wǎng)絡(luò)技術(shù)感興趣的研究人員或工程技術(shù)人員,都可以參考和閱讀本書。

作者簡(jiǎn)介

  方天戟騰訊專有云與智算平臺(tái)shou席架構(gòu)師,本科畢業(yè)于北京航空航天大學(xué)自動(dòng)控制專業(yè),碩士研究生畢業(yè)于中國(guó)科學(xué)院研究生院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)。從業(yè)近20年,從事過硬件開發(fā)、內(nèi)核與驅(qū)動(dòng)開發(fā)、協(xié)議棧開發(fā)、網(wǎng)絡(luò)與云計(jì)算解決方案設(shè)計(jì)等工作,曾在華為、新華三、Juniper等企業(yè)任職,為航天科技、中國(guó)建筑、BMW及環(huán)球影城等國(guó)內(nèi)外知名客戶設(shè)計(jì)且落地過云計(jì)算與網(wǎng)絡(luò)解決方案?!霸畦b”叢書編寫組核心成員。微信公眾號(hào):帥云霓的技術(shù)小屋

圖書目錄

第1章 AI與大模型時(shí)代對(duì)基礎(chǔ)架構(gòu)的需求
1.1 我們?cè)谡務(wù)揂I時(shí),到底在談?wù)撌裁?
1.2 機(jī)器學(xué)習(xí)算法初窺
1.3 一元線性回歸算法剖析
1.4 機(jī)器學(xué)習(xí)算法對(duì)計(jì)算機(jī)硬件的特殊需求
1.4.1 機(jī)器學(xué)習(xí)算法的核心運(yùn)算特征
1.4.2 使用CPU實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法和并行加速
1.4.3 機(jī)器學(xué)習(xí)算法的主力引擎——GPU
1.4.4 機(jī)器學(xué)習(xí)算法的新引擎——TPU和NPU
1.5 本章小結(jié)

第2章 軟件程序與專用硬件的結(jié)合
2.1 GPU并行運(yùn)算庫(kù)
2.2 機(jī)器學(xué)習(xí)程序的開發(fā)框架
2.3 分布式AI訓(xùn)練
2.4 本章小結(jié)

第3章 GPU硬件架構(gòu)剖析
3.1 GPU的總體設(shè)計(jì)
3.2 Nvidia GH100芯片架構(gòu)剖析
3.3 其他Hopper架構(gòu)的GPU
3.4 本章小結(jié)

第4章 GPU服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)
4.1 初識(shí)Nvidia DGX
4.2 Nvidia DGX A100的總體設(shè)計(jì)
4.3 Nvidia DGX A100 CPU與內(nèi)存子系統(tǒng)的設(shè)計(jì)
4.4 Nvidia DGX A100 PCI-E子系統(tǒng)的設(shè)計(jì)
4.5 Nvidia DGX A100 NVLink子系統(tǒng)的設(shè)計(jì)
4.6 其他輔助子系統(tǒng)的設(shè)計(jì)
4.7 本章小結(jié)

第5章 機(jī)器學(xué)習(xí)所依托的I/O框架體系
5.1 Magnum IO的需求來(lái)源
5.2 Magnum IO的核心組件
5.3 服務(wù)器內(nèi)部的GPU互通
5.4 跨服務(wù)器節(jié)點(diǎn)的GPU通信
5.5 RDMA的兩種實(shí)現(xiàn)
5.6 GPU對(duì)存儲(chǔ)的訪問
5.7 Magnum IO所依賴的其他支撐技術(shù)
5.7.1 DPDK( Data Plane Development Kit,數(shù)據(jù)平面開發(fā)套件)
5.7.2 DPU(Data Processing Unit,數(shù)據(jù)處理器)
5.7.3 MPI Tag Matching
5.8 本章小結(jié)

第6章 GPU集群的網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn)
6.1 GPU集群中RoCE計(jì)算網(wǎng)絡(luò)的設(shè)計(jì)與實(shí)現(xiàn)
6.2 GPU集群中存儲(chǔ)與業(yè)務(wù)網(wǎng)絡(luò)的設(shè)計(jì)與實(shí)現(xiàn)
6.3 GPU集群中帶外管理監(jiān)控網(wǎng)絡(luò)的設(shè)計(jì)與實(shí)現(xiàn)
6.4 GPU集群中網(wǎng)絡(luò)邊界的設(shè)計(jì)與實(shí)現(xiàn)
6.5 本章小結(jié)

第7章 GPU板卡級(jí)算力調(diào)度技術(shù)
7.1 基于虛擬化技術(shù)的GPU調(diào)度
7.2 基于容器技術(shù)的GPU調(diào)度
7.3 本章小結(jié)

第8章 GPU虛擬化調(diào)度方案
8.1 Nvidia的GPU虛擬化調(diào)度方案
8.1.1 API Remoting與vCUDA
8.1.2 GRID vGPU
8.1.3 Nvidia MIG
8.2 其他硬件廠商的GPU虛擬化調(diào)度方案
8.2.1 AMD的SRIOV方案
8.2.2 Intel的GVT-G方案
8.3 云廠商與開源社區(qū)基于容器的GPU虛擬化調(diào)度方案
8.3.1 TKE vCUDA+GPU Manager
8.3.2 阿里云的cGPU
8.3.3 騰訊云的qGPU
8.4 本章小結(jié)

第9章 GPU集群的網(wǎng)絡(luò)虛擬化設(shè)計(jì)與實(shí)現(xiàn)
9.1 基于SDN的VPC技術(shù):網(wǎng)絡(luò)虛擬化技術(shù)的基石
9.2 云負(fù)載均衡:機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的中流砥柱
9.3 專線接入、對(duì)等連接與VPC網(wǎng)關(guān)
9.4 SDN NFV網(wǎng)關(guān)的實(shí)現(xiàn)與部署
9.4.1 基于virtio-net/vhost的虛擬機(jī)部署NFV
9.4.2 基于SRIOV的虛擬機(jī)部署NFV
9.4.3 使用DPDK技術(shù)對(duì)NFV加速
9.5 本章小結(jié)

第10章 GPU集群的存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)
10.1 程序與系統(tǒng)存儲(chǔ)——分布式塊存儲(chǔ)
10.1.1 塊存儲(chǔ)的業(yè)務(wù)需求
10.1.2 集中式塊存儲(chǔ)與分布式塊存儲(chǔ)
10.1.3 分布式塊存儲(chǔ)的故障恢復(fù)
10.1.4 分布式塊存儲(chǔ)的性能優(yōu)化
10.1.5 分布式塊存儲(chǔ)的快照與回滾
10.2 海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)——分布式對(duì)象存儲(chǔ)
10.2.1 入門級(jí)對(duì)象存儲(chǔ)的首選:Ceph
10.2.2 開源海量對(duì)象存儲(chǔ):Swift
10.2.3 商業(yè)化對(duì)象存儲(chǔ):大型公有云對(duì)象存儲(chǔ)私有化
10.2.4 未來(lái)之星:Minio
10.3 AI訓(xùn)練素材存儲(chǔ)——分布式并發(fā)高性能存儲(chǔ)
10.3.1 開源大數(shù)據(jù)存儲(chǔ)鼻祖:HDFS
10.3.2 業(yè)界對(duì)HDFS的改進(jìn)
10.3.3 長(zhǎng)青松柏:Lustre
10.4 本章小結(jié)

第11章 機(jī)器學(xué)習(xí)應(yīng)用開發(fā)與運(yùn)行平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
11.1 微服務(wù)平臺(tái)
11.1.1 Kubernetes:微服務(wù)基礎(chǔ)能力平臺(tái)
11.1.2 Spring Cloud:Java系專屬微服務(wù)平臺(tái)
11.1.3 Istio:不挑開發(fā)語(yǔ)言,只挑部署架構(gòu)
11.1.4 商業(yè)化微服務(wù)平臺(tái):兼顧各類需求的選擇
11.2 中間件服務(wù)
11.2.1 消息中間件
11.2.2 緩存中間件
11.2.3 數(shù)據(jù)庫(kù)(數(shù)據(jù)中間件)
11.3 應(yīng)用日志服務(wù)
11.4 本章小結(jié)

第12章 基于云平臺(tái)的GPU集群的管理與運(yùn)營(yíng)
12.1 云運(yùn)維平臺(tái)
12.1.1 硬件基礎(chǔ)設(shè)施管理
12.1.2 系統(tǒng)監(jiān)控與告警平臺(tái)
12.1.3 CMDB
12.2 云運(yùn)營(yíng)平臺(tái)
12.3 云審計(jì)平臺(tái)
12.4 本章小結(jié)

第13章 服務(wù)機(jī)器學(xué)習(xí)的GPU計(jì)算平臺(tái)落地案例
13.1 需求來(lái)源:自動(dòng)駕駛模型訓(xùn)練
13.2 總體設(shè)計(jì)——基于云原生的高性能計(jì)算
13.3 計(jì)算需求分析與設(shè)計(jì)實(shí)現(xiàn)
13.4 存儲(chǔ)需求分析與設(shè)計(jì)實(shí)現(xiàn)
13.5 網(wǎng)絡(luò)需求分析與設(shè)計(jì)實(shí)現(xiàn)
13.6 本章小結(jié)
后記

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)