大規(guī)模并行處理器編程實(shí)戰(zhàn)（第2版）

定　價(jià)：￥59.80

作　者：	（美）柯克（David B.Kirk），（美）胡（Wen-mei W.Hwu）著趙開勇，汪朝輝，程亦超譯
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	編程語言與程序設(shè)計(jì) 計(jì)算機(jī)與互聯(lián)網(wǎng)

購買這本書可以去

ISBN：	9787302342724	出版時(shí)間：	2013-11-01	包裝：	平裝
開本：	16開	頁數(shù)：	412	字?jǐn)?shù)：

內(nèi)容簡介

　　在上一版十分暢銷的基礎(chǔ)上，《安全技術(shù)經(jīng)典譯叢：大規(guī)模并行處理器編程實(shí)戰(zhàn)（第2版）》全面更新了并行編程方法和技術(shù)的內(nèi)容?！栋踩夹g(shù)經(jīng)典譯叢：大規(guī)模并行處理器編程實(shí)戰(zhàn)（第2版）》旨在綜述并行編程，展示了專業(yè)人士和學(xué)生都可以使用的一種編程思維，以此來指導(dǎo)并行編程和優(yōu)化應(yīng)用程序，從而使性能得到顯著提升?！栋踩夹g(shù)經(jīng)典譯叢：大規(guī)模并行處理器編程實(shí)戰(zhàn)（第2版）》作者David B. Kirk和Wen-mei W. Hwu所采用的簡潔、直觀、實(shí)用的方法基于他們多年的并行計(jì)算課程實(shí)踐?！栋踩夹g(shù)經(jīng)典譯叢：大規(guī)模并行處理器編程實(shí)戰(zhàn)（第2版）》新增的內(nèi)容：并行模式：包括多章并行模式內(nèi)容，是并行編程應(yīng)用中使用的很多并行算法的基礎(chǔ)。CUDA Fortran：新增的這一章介紹CUDA Fortran編程如何使用CUDA架構(gòu)，其中講解了幾個(gè)CUDA Fortran編程的實(shí)用示例。OpenACC：新增的這一章介紹一個(gè)開放的并行編程預(yù)編譯指令，以實(shí)現(xiàn)并行編程簡潔化的目的。Thrust：Thrust庫是CUDA C/C++的抽象層函數(shù)庫。新增的這一章介紹了如何通過使用Thrust并行編程模板，對源程序只做簡單的修改就可以使程序?qū)崿F(xiàn)高性能。C++ AMP：簡單介紹了C++ AMP，它是由微軟提出來的Windows環(huán)境下一套簡化大規(guī)模并行處理器的編程接口。NVIDIA的Kepler架構(gòu)：探討NVIDIA的高性能、低功耗的GPU架構(gòu)的編程特性。

作者簡介

　　David B. Kirk院士，美國國家工程院院士，NVIDIA院士、前首席科學(xué)家，也是CUDA技術(shù)的創(chuàng)始人之一，2002年曾榮獲ACM SIGGRAPH計(jì)算機(jī)圖形成就獎(jiǎng)。他擁有麻省理工學(xué)院的機(jī)械工程學(xué)學(xué)士和碩士學(xué)位，加州理工學(xué)院的計(jì)算機(jī)科學(xué)博士學(xué)位。Kirk是50項(xiàng)與圖形芯片設(shè)計(jì)相關(guān)的專利和專利申請的發(fā)明者，發(fā)表了50多篇關(guān)于圖形處理技術(shù)的論文，是可視化計(jì)算技術(shù)方面的權(quán)威。胡文美（Wen-mei W. Hwu）教授，擁有美國加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)博士學(xué)位，擔(dān)任美國伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）協(xié)調(diào)科學(xué)實(shí)驗(yàn)室電氣與計(jì)算機(jī)工程AMD創(chuàng)始人Jerry Sanders講席教授（Walter J. SandersⅢAdvanced Micro Devices Endowed Chair）。胡文美教授還是IEEE（國際電氣電子工程師學(xué)會）院士，ACM（美國計(jì)算機(jī)學(xué)會）院士。

圖書目錄

第1章引言
1.1 異構(gòu)并行計(jì)算
1.2 現(xiàn)代GPU的體系結(jié)構(gòu)
1.3 為什么需要更高的速度和并行化
1.4 應(yīng)用程序的加速
1.5 并行編程語言和模型
1.6 本書的總體目標(biāo)
1.7 本書的組織結(jié)構(gòu)
參考文獻(xiàn)
第2章 GPU計(jì)算的發(fā)展歷程
2.1 圖形流水線的發(fā)展
2.1.1 固定功能的圖形流水線時(shí)代
2.1.2 可編程實(shí)時(shí)圖形流水線的發(fā)展
2.1.3 圖形與計(jì)算結(jié)合的處理器
2.2 GPGPU：一個(gè)中間步驟
2.3 GPU計(jì)算
2.3.1 可擴(kuò)展的GPU
2.3.2 發(fā)展近況
2.3.3 未來發(fā)展趨勢
參考文獻(xiàn)與課外閱讀
第3章 CUDA簡介
3.1 數(shù)據(jù)并行性
3.2 CUDA的程序結(jié)構(gòu)
3.3 向量加法kernel函數(shù)
3.4 設(shè)備全局存儲器與數(shù)據(jù)傳輸
3.6 小結(jié)
3.6.1 函數(shù)聲明
3.6.2 啟動(dòng)kernel函數(shù)
3.6.3 預(yù)定義變量
3.6.4 運(yùn)行時(shí)API
3.7 習(xí)題
參考文獻(xiàn)
第4章數(shù)據(jù)并行執(zhí)行模型
4.1 CUDA的線程組織
4.2 線程與多維數(shù)據(jù)的映射
4.3 矩陣乘法——一個(gè)更加復(fù)雜的kernel函數(shù)
4.4 線程同步和透明的可擴(kuò)展性
4.5 線程塊的資源分配
4.6 查詢設(shè)備屬性
4.7 線程調(diào)度和容許時(shí)延
4.8 小結(jié)
4.9 習(xí)題
第5章 CUDA存儲器
5.1 存儲器訪問效率的重要性
5.2 CUDA設(shè)備存儲器的類型
5.3 減少全局存儲器流量的一種策略
5.4 分塊矩陣乘法的kernel函數(shù)
5.5 存儲器——限制并行性的一個(gè)因素
5.6 小結(jié)
5.7 習(xí)題
第6章性能優(yōu)化
6.1 WARP和線程執(zhí)行
6.2 全局存儲器的帶寬
6.3 執(zhí)行資源的動(dòng)態(tài)劃分
6.4 指令混合和線程粒度
6.5 小結(jié)
6.6 習(xí)題
參考文獻(xiàn)
第7章浮點(diǎn)運(yùn)算
7.1 浮點(diǎn)格
7.1.1 M的規(guī)范化表示
7.1.2 E的余碼表示
7.2 能表示的數(shù)
7.3 特殊的位模式與IEEE格式中的精度
7.4 算術(shù)運(yùn)算的準(zhǔn)確度和舍入
7.5 算法的優(yōu)化
7.6 數(shù)值穩(wěn)定性
7.7 小結(jié)
7.8 習(xí)題
參考文獻(xiàn)
第8章并行模式：卷積
8.1 背景
8.2 一個(gè)基本算法：一維并行卷積
8.3 常數(shù)存儲器和高速緩存
8.4 使用光環(huán)元素的分塊一維卷積
8.5 一個(gè)更簡單的分塊一維卷積——通用高速緩存
8.6 小結(jié)
8.7 習(xí)題
第9章并行模式：前綴和
9.1 背景
9.2 簡單并行掃描
9.3 考慮工作效率
9.4 工作高效的并行掃描
9.5 任意輸入長度的并行掃描
9.6 小結(jié)
9.7 習(xí)題
參考文獻(xiàn)
第10章并行模式：稀疏矩陣-向量乘法
10.1 背景
10.2 使用CSR格式的并行SpMV
10.3 填充與轉(zhuǎn)置
10.4 用混合方法來控制填充
10.5 通過排序和劃分來規(guī)則化
10.6 小結(jié)
10.7 習(xí)題
參考文獻(xiàn)
第11章應(yīng)用案例研究：高級MRI重構(gòu)
11.1 應(yīng)用背景
11.2 迭代重構(gòu)
11.3 計(jì)算FHD
11.4 最終評估
11.5 習(xí)題
參考文獻(xiàn)
第12章應(yīng)用案例研究：分子可視化和分析
12.1 應(yīng)用背景
12.2 kernel函數(shù)簡單的實(shí)現(xiàn)方案
12.3 線程粒度調(diào)節(jié)
12.4 存儲器合并
12.5 小結(jié)
12.6 習(xí)題
參考文獻(xiàn)
第13章并行編程和計(jì)算思想
13.1 并行計(jì)算的目標(biāo)
13.2 問題分解
13.3 算法選擇
13.4 計(jì)算思想
13.5 小結(jié)
13.6 習(xí)題
參考文獻(xiàn)
第14章 OpenCL簡介
14.1 背景
14.2 數(shù)據(jù)并行性模型
14.3 設(shè)備的體系結(jié)構(gòu)
14.4 kernel函數(shù)
14.5 設(shè)備管理和啟動(dòng)kernel
14.6 OpenCL中的靜電勢圖譜
14.7 小結(jié)
14.8 習(xí)題
參考文獻(xiàn)
第15章 OpenACC并行編程
15.1 OpenACC與CUDA C的比較
15.2 執(zhí)行模型
15.3 存儲器模型
15.4 基本的OpenACC程序
15.4.1 并行構(gòu)造
15.4.2 循環(huán)構(gòu)造
15.4.3 kernels構(gòu)造
15.4.4 數(shù)據(jù)管理
15.4.5 數(shù)據(jù)構(gòu)造
15.4.6 異步計(jì)算和數(shù)據(jù)傳輸
15.5 OpenACC的發(fā)展方向
15.6 習(xí)題
第16章 Thrust：一個(gè)面向效率的CUDA編程庫
16.1 背景簡介
16.2 動(dòng)機(jī)
16.3 Thrust的基本特性
16.3.1 迭代器和內(nèi)存空間
16.3.2 互操作性
16.4 泛型編程
16.5 抽象的益處
16.5.1 編程效率
16.5.2 魯棒性
16.5.3 真實(shí)性能
16.6 最佳范例
16.6.1 融合
16.6.2 數(shù)組結(jié)構(gòu)體
16.6.3 隱式范圍
16.7 習(xí)題
參考文獻(xiàn) 298
第17章 CUDA FORTRAN
17.1 CUDA FORTRAN和CUDA C的區(qū)別
17.2 第一個(gè)CUDA FORTRAN程序
17.3 CUDA FORTRAN中的多維數(shù)組
17.4 用通用接口重載主機(jī)/設(shè)備端例程
17.5 通過iso_c_binding調(diào)用CUDA C
17.6 kernel循環(huán)指令和歸約操作
17.7 動(dòng)態(tài)共享存儲器
17.8 異步數(shù)據(jù)傳輸
17.9 編譯和性能剖析
17.10 在CUDA FORTRAN中調(diào)用Thrust
17.11 習(xí)題
第18章 C++ AMP簡介
18.1 C++ AMP核心特性
18.2 C++ AMP執(zhí)行模式詳解
18.2.1 顯式和隱式的數(shù)據(jù)復(fù)制
18.2.2 異步操作
18.2.3 本節(jié)小結(jié)
18.3 加速器管理
18.4 分塊執(zhí)行
18.5 C++ AMP圖形特性
18.6 小結(jié)
18.7 習(xí)題
第19章異構(gòu)集群編程
19.1 背景簡介
19.2 運(yùn)行示例
19.3 MPI基礎(chǔ)
19.4 MPI點(diǎn)對點(diǎn)通信模型
19.5 重疊計(jì)算和通信
19.6 MPI集合通信模型
19.7 小結(jié)
19.8 習(xí)題
參考文獻(xiàn)
第20章 CUDA動(dòng)態(tài)并行
20.1 背景
20.2 動(dòng)態(tài)并行簡介
20.3 重要細(xì)節(jié)
20.3.1 啟動(dòng)環(huán)境變量設(shè)置
20.3.2 API錯(cuò)誤和啟動(dòng)失敗
20.3.3 事件
20.3.4 流
20.3.5 同步范圍
20.4 內(nèi)存可見性
20.4.1 全局內(nèi)存
20.4.2 零拷貝內(nèi)存
20.4.3 常量內(nèi)存
20.4.4 局部內(nèi)存
20.4.5 共享內(nèi)存
20.4.6 紋理內(nèi)存
20.5 一個(gè)簡單示例
20.6 運(yùn)行時(shí)限制
20.6.1 內(nèi)存占用
20.6.2 嵌套深度
20.6.3 內(nèi)存分配和生存周期
20.6.4 ECC錯(cuò)誤
20.6.5 流
20.6.6 事件
20.6.7 啟動(dòng)池
20.7 一個(gè)更復(fù)雜的示例
20.7.1 線性貝塞爾曲線
20.7.2 二次貝塞爾曲線
20.7.3 貝塞爾曲線計(jì)算(非動(dòng)態(tài)并行版本)
20.7.4 貝塞爾曲線計(jì)算(使用動(dòng)態(tài)并行)
20.8 小結(jié)
參考文獻(xiàn)
第21章結(jié)論與展望
21.1 重點(diǎn)回顧
21.2 存儲器模型的演變
21.2.1 大型虛擬和物理地址空間
21.2.2 統(tǒng)一的設(shè)備存儲空間
21.2.3 可配置的緩存和暫時(shí)存儲器
21.2.4 提高原子操作的速度
21.2.5 提高全局內(nèi)存的訪問速度
21.3 kernel函數(shù)執(zhí)行控制過程的演變
21.3.1 kernel函數(shù)內(nèi)部的函數(shù)調(diào)用
21.3.2 kernel函數(shù)中的異常處理
21.3.3 多個(gè)kernel函數(shù)的同步執(zhí)行
21.3.4 可中斷的kernel函數(shù)
21.4 內(nèi)核的性能
21.4.1 雙精度的速度
21.4.2 更好的控制流效率
21.5 編程環(huán)境
21.6 美好前景
參考文獻(xiàn)
附錄A 矩陣乘法主機(jī)版的源代碼
附錄B GPU的計(jì)算能力