注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計程序設計綜合大規(guī)模并行處理器編程實戰(zhàn)(第2版)

大規(guī)模并行處理器編程實戰(zhàn)(第2版)

大規(guī)模并行處理器編程實戰(zhàn)(第2版)

定 價:¥59.80

作 者: (美)柯克(David B.Kirk),(美)胡(Wen-mei W.Hwu)著 趙開勇,汪朝輝,程亦超 譯
出版社: 清華大學出版社
叢編項:
標 簽: 編程語言與程序設計 計算機與互聯(lián)網(wǎng)

ISBN: 9787302342724 出版時間: 2013-11-01 包裝: 平裝
開本: 16開 頁數(shù): 412 字數(shù):  

內(nèi)容簡介

  在上一版十分暢銷的基礎上,《安全技術經(jīng)典譯叢:大規(guī)模并行處理器編程實戰(zhàn)(第2版)》全面更新了并行編程方法和技術的內(nèi)容。《安全技術經(jīng)典譯叢:大規(guī)模并行處理器編程實戰(zhàn)(第2版)》旨在綜述并行編程,展示了專業(yè)人士和學生都可以使用的一種編程思維,以此來指導并行編程和優(yōu)化應用程序,從而使性能得到顯著提升?!栋踩夹g經(jīng)典譯叢:大規(guī)模并行處理器編程實戰(zhàn)(第2版)》作者David B. Kirk和Wen-mei W. Hwu所采用的簡潔、直觀、實用的方法基于他們多年的并行計算課程實踐。《安全技術經(jīng)典譯叢:大規(guī)模并行處理器編程實戰(zhàn)(第2版)》新增的內(nèi)容:并行模式:包括多章并行模式內(nèi)容,是并行編程應用中使用的很多并行算法的基礎。CUDA Fortran:新增的這一章介紹CUDA Fortran編程如何使用CUDA架構,其中講解了幾個CUDA Fortran編程的實用示例。OpenACC:新增的這一章介紹一個開放的并行編程預編譯指令,以實現(xiàn)并行編程簡潔化的目的。Thrust:Thrust庫是CUDA C/C++的抽象層函數(shù)庫。新增的這一章介紹了如何通過使用Thrust并行編程模板,對源程序只做簡單的修改就可以使程序實現(xiàn)高性能。C++ AMP:簡單介紹了C++ AMP,它是由微軟提出來的Windows環(huán)境下一套簡化大規(guī)模并行處理器的編程接口。NVIDIA的Kepler架構:探討NVIDIA的高性能、低功耗的GPU架構的編程特性。

作者簡介

  David B. Kirk院士,美國國家工程院院士,NVIDIA院士、前首席科學家,也是CUDA技術的創(chuàng)始人之一,2002年曾榮獲ACM SIGGRAPH計算機圖形成就獎。他擁有麻省理工學院的機械工程學學士和碩士學位,加州理工學院的計算機科學博士學位。Kirk是50項與圖形芯片設計相關的專利和專利申請的發(fā)明者,發(fā)表了50多篇關于圖形處理技術的論文,是可視化計算技術方面的權威。胡文美(Wen-mei W. Hwu)教授,擁有美國加州大學伯克利分校計算機科學博士學位,擔任美國伊利諾伊大學厄巴納-香檳分校(UIUC)協(xié)調(diào)科學實驗室電氣與計算機工程AMD創(chuàng)始人Jerry Sanders講席教授(Walter J. SandersⅢAdvanced Micro Devices Endowed Chair)。胡文美教授還是IEEE(國際電氣電子工程師學會)院士,ACM(美國計算機學會)院士。

圖書目錄

第1章 引言 
1.1 異構并行計算 
1.2 現(xiàn)代GPU的體系結構 
1.3 為什么需要更高的速度和并行化 
1.4 應用程序的加速 
1.5 并行編程語言和模型 
1.6 本書的總體目標 
1.7 本書的組織結構 
參考文獻 
第2章 GPU計算的發(fā)展歷程 
2.1 圖形流水線的發(fā)展 
2.1.1 固定功能的圖形流水線時代
2.1.2 可編程實時圖形流水線的發(fā)展 
2.1.3 圖形與計算結合的處理器 
2.2 GPGPU:一個中間步驟 
2.3 GPU計算
2.3.1 可擴展的GPU
2.3.2 發(fā)展近況 
2.3.3 未來發(fā)展趨勢 
參考文獻與課外閱讀 
第3章 CUDA簡介 
3.1 數(shù)據(jù)并行性 
3.2 CUDA的程序結構 
3.3 向量加法kernel函數(shù) 
3.4 設備全局存儲器與數(shù)據(jù)傳輸 
3.6 小結
3.6.1 函數(shù)聲明
3.6.2 啟動kernel函數(shù) 
3.6.3 預定義變量
3.6.4 運行時API 
3.7 習題
參考文獻 
第4章 數(shù)據(jù)并行執(zhí)行模型 
4.1 CUDA的線程組織 
4.2 線程與多維數(shù)據(jù)的映射
4.3 矩陣乘法——一個更加復雜的kernel函數(shù) 
4.4 線程同步和透明的可擴展性
4.5 線程塊的資源分配 
4.6 查詢設備屬性 
4.7 線程調(diào)度和容許時延
4.8 小結 
4.9 習題 
第5章 CUDA存儲器 
5.1 存儲器訪問效率的重要性 
5.2 CUDA設備存儲器的類型
5.3 減少全局存儲器流量的一種策略 
5.4 分塊矩陣乘法的kernel函數(shù) 
5.5 存儲器——限制并行性的一個因素
5.6 小結
5.7 習題 
第6章 性能優(yōu)化
6.1 WARP和線程執(zhí)行 
6.2 全局存儲器的帶寬 
6.3 執(zhí)行資源的動態(tài)劃分 
6.4 指令混合和線程粒度 
6.5 小結
6.6 習題 
參考文獻 
第7章 浮點運算 
7.1 浮點格
7.1.1 M的規(guī)范化表示 
7.1.2 E的余碼表示
7.2 能表示的數(shù)
7.3 特殊的位模式與IEEE格式中的精度 
7.4 算術運算的準確度和舍入 
7.5 算法的優(yōu)化 
7.6 數(shù)值穩(wěn)定性 
7.7 小結 
7.8 習題 
參考文獻 
第8章 并行模式:卷積 
8.1 背景
8.2 一個基本算法:一維并行卷積 
8.3 常數(shù)存儲器和高速緩存
8.4 使用光環(huán)元素的分塊一維卷積 
8.5 一個更簡單的分塊一維卷積——通用高速緩存 
8.6 小結
8.7 習題 
第9章 并行模式:前綴和 
9.1 背景 
9.2 簡單并行掃描 
9.3 考慮工作效率 
9.4 工作高效的并行掃描 
9.5 任意輸入長度的并行掃描 
9.6 小結 
9.7 習題 
參考文獻 
第10章 并行模式:稀疏矩陣-向量乘法
10.1 背景 
10.2 使用CSR格式的并行SpMV 
10.3 填充與轉置 
10.4 用混合方法來控制填充
10.5 通過排序和劃分來規(guī)則化 
10.6 小結
10.7 習題 
參考文獻 
第11章 應用案例研究:高級MRI重構 
11.1 應用背景 
11.2 迭代重構 
11.3 計算FHD 
11.4 最終評估 
11.5 習題 
參考文獻
第12章 應用案例研究:分子可視化和分析 
12.1 應用背景 
12.2 kernel函數(shù)簡單的實現(xiàn)方案
12.3 線程粒度調(diào)節(jié) 
12.4 存儲器合并 
12.5 小結 
12.6 習題 
參考文獻 
第13章 并行編程和計算思想 
13.1 并行計算的目標 
13.2 問題分解 
13.3 算法選擇 
13.4 計算思想 
13.5 小結 
13.6 習題 
參考文獻 
第14章 OpenCL簡介 
14.1 背景 
14.2 數(shù)據(jù)并行性模型 
14.3 設備的體系結構 
14.4 kernel函數(shù) 
14.5 設備管理和啟動kernel 
14.6 OpenCL中的靜電勢圖譜 
14.7 小結 
14.8 習題 
參考文獻 
第15章 OpenACC并行編程 
15.1 OpenACC與CUDA C的比較 
15.2 執(zhí)行模型 
15.3 存儲器模型 
15.4 基本的OpenACC程序 
15.4.1 并行構造 
15.4.2 循環(huán)構造 
15.4.3 kernels構造 
15.4.4 數(shù)據(jù)管理 
15.4.5 數(shù)據(jù)構造 
15.4.6 異步計算和數(shù)據(jù)傳輸 
15.5 OpenACC的發(fā)展方向 
15.6 習題
第16章 Thrust:一個面向效率的CUDA編程庫 
16.1 背景簡介 
16.2 動機 
16.3 Thrust的基本特性
16.3.1 迭代器和內(nèi)存空間 
16.3.2 互操作性 
16.4 泛型編程 
16.5 抽象的益處 
16.5.1 編程效率 
16.5.2 魯棒性 
16.5.3 真實性能 
16.6 最佳范例 
16.6.1 融合 
16.6.2 數(shù)組結構體
16.6.3 隱式范圍 
16.7 習題 
參考文獻 298
第17章 CUDA FORTRAN 
17.1 CUDA FORTRAN和CUDA C的區(qū)別 
17.2 第一個CUDA FORTRAN程序
17.3 CUDA FORTRAN中的多維數(shù)組 
17.4 用通用接口重載主機/設備端例程 
17.5 通過iso_c_binding調(diào)用CUDA C 
17.6 kernel循環(huán)指令和歸約操作
17.7 動態(tài)共享存儲器 
17.8 異步數(shù)據(jù)傳輸 
17.9 編譯和性能剖析 
17.10 在CUDA FORTRAN中調(diào)用Thrust 
17.11 習題 
第18章 C++ AMP簡介 
18.1 C++ AMP核心特性 
18.2 C++ AMP執(zhí)行模式詳解 
18.2.1 顯式和隱式的數(shù)據(jù)復制
18.2.2 異步操作 
18.2.3 本節(jié)小結 
18.3 加速器管理 
18.4 分塊執(zhí)行
18.5 C++ AMP圖形特性 
18.6 小結 
18.7 習題 
第19章 異構集群編程 
19.1 背景簡介 
19.2 運行示例 
19.3 MPI基礎 
19.4 MPI點對點通信模型 
19.5 重疊計算和通信 
19.6 MPI集合通信模型 
19.7 小結 
19.8 習題 
參考文獻 
第20章 CUDA動態(tài)并行 
20.1 背景 
20.2 動態(tài)并行簡介 
20.3 重要細節(jié)
20.3.1 啟動環(huán)境變量設置 
20.3.2 API錯誤和啟動失敗
20.3.3 事件 
20.3.4 流 
20.3.5 同步范圍
20.4 內(nèi)存可見性
20.4.1 全局內(nèi)存 
20.4.2 零拷貝內(nèi)存
20.4.3 常量內(nèi)存 
20.4.4 局部內(nèi)存 
20.4.5 共享內(nèi)存 
20.4.6 紋理內(nèi)存 
20.5 一個簡單示例 
20.6 運行時限制 
20.6.1 內(nèi)存占用 
20.6.2 嵌套深度 
20.6.3 內(nèi)存分配和生存周期 
20.6.4 ECC錯誤 
20.6.5 流 
20.6.6 事件 
20.6.7 啟動池 
20.7 一個更復雜的示例 
20.7.1 線性貝塞爾曲線 
20.7.2 二次貝塞爾曲線 
20.7.3 貝塞爾曲線計算(非動態(tài)并行版本) 
20.7.4 貝塞爾曲線計算(使用動態(tài)并行) 
20.8 小結 
參考文獻 
第21章 結論與展望 
21.1 重點回顧 
21.2 存儲器模型的演變
21.2.1 大型虛擬和物理地址空間 
21.2.2 統(tǒng)一的設備存儲空間
21.2.3 可配置的緩存和暫時存儲器 
21.2.4 提高原子操作的速度
21.2.5 提高全局內(nèi)存的訪問速度 
21.3 kernel函數(shù)執(zhí)行控制過程的演變 
21.3.1 kernel函數(shù)內(nèi)部的函數(shù)調(diào)用 
21.3.2 kernel函數(shù)中的異常處理 
21.3.3 多個kernel函數(shù)的同步執(zhí)行
21.3.4 可中斷的kernel函數(shù)
21.4 內(nèi)核的性能 
21.4.1 雙精度的速度 
21.4.2 更好的控制流效率 
21.5 編程環(huán)境 
21.6 美好前景 
參考文獻 
附錄A 矩陣乘法主機版的源代碼 
附錄B GPU的計算能力 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號