注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)其他編程語(yǔ)言/工具并行編程方法與優(yōu)化實(shí)踐

并行編程方法與優(yōu)化實(shí)踐

并行編程方法與優(yōu)化實(shí)踐

定 價(jià):¥59.00

作 者: 劉文志 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787111501947 出版時(shí)間: 2015-06-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書介紹了并行編程的方法和優(yōu)化實(shí)踐,主要結(jié)合X86SSE與AVX、ARMNeon、OpenMP、CUDA和OpenCL等講解了并行編程的技術(shù)、方法和*實(shí)踐。第1章講解X86SSE與AVX的矩陣實(shí)現(xiàn);第2章講解如何利用ARMNeon進(jìn)行編程;第3章介紹OpenMP并行程序設(shè)計(jì);第4章講解基于GPU的CUDA和OpenCL程序設(shè)計(jì);第5章講解OpenACC的應(yīng)用;第6~8章講解線性代數(shù)和圖形學(xué)在并行編程中的實(shí)踐與應(yīng)用,并給出大量示例。

作者簡(jiǎn)介

暫缺《并行編程方法與優(yōu)化實(shí)踐》作者簡(jiǎn)介

圖書目錄

前 言
第1章 X86 SSE/AVX指令集
1.1 SSE內(nèi)置函數(shù)
1.1.1 算術(shù)運(yùn)算
1.1.2 邏輯運(yùn)算
1.1.3 比較
1.1.4 加載和存儲(chǔ)
1.2 AVX內(nèi)置函數(shù)
1.2.1 算術(shù)運(yùn)算
1.2.2 邏輯運(yùn)算
1.2.3 比較
1.2.4 加載和存儲(chǔ)
1.3 優(yōu)化實(shí)例及分析
1.3.1 如何測(cè)得CPU的浮點(diǎn)峰值性能
1.3.2 積分計(jì)算圓周率π
1.3.3 稀疏矩陣向量乘法
1.3.4 二維單通道圖像離散卷積
1.4 本章小結(jié)

第2章 ARM NEON SIMD 指令優(yōu)化
2.1 NEON指令集綜述
2.2 ARM A15 處理器性能
2.3 NEON 支持的操作
2.3.1 基本算術(shù)運(yùn)算
2.3.2 基本比較運(yùn)算
2.3.3 基本數(shù)據(jù)類型轉(zhuǎn)換及舍入運(yùn)算
2.3.4 基本位運(yùn)算
2.3.5 基本邏輯運(yùn)算
2.3.6 基本設(shè)置加載存儲(chǔ)操作
2.3.7 特殊操作
2.4 應(yīng)用實(shí)例
2.4.1 彩色圖像轉(zhuǎn)灰度圖像
2.4.2 矩陣轉(zhuǎn)置
2.4.3 矩陣乘
2.5 本章小結(jié)

第3章 OpenMP程序設(shè)計(jì)
3.1 OpenMP編程模型
3.1.1 OpenMP執(zhí)行模型
3.1.2 OpenMP存儲(chǔ)器模型
3.2 環(huán)境變量
3.3 函數(shù)
3.3.1 普通函數(shù)
3.3.2 鎖函數(shù)
3.4 OpenMP編譯制導(dǎo)語(yǔ)句
3.4.1 常用的OpenMP構(gòu)造
3.4.2 常用的OpenMP子句
3.5 OpenMP異構(gòu)并行計(jì)算
3.6 OpenMP程序優(yōu)化
3.6.1 OpenMP程序優(yōu)化準(zhǔn)則
3.6.2 OpenMP并行優(yōu)化實(shí)例
3.7 本章小結(jié)

第4章 基于GPU的異構(gòu)并行計(jì)算環(huán)境:CUDA與OpenCL
4.1 GPU計(jì)算概述
4.1.1 GPU計(jì)算歷史
4.1.2 CUDA概述
4.1.3 OpenCL概述
4.2 異構(gòu)并行計(jì)算模型
4.2.1 平臺(tái)模型
4.2.2 執(zhí)行模型
4.2.3 存儲(chǔ)器模型
4.2.4 編程模型
4.3 C語(yǔ)言接口
4.3.1 OpenCL C語(yǔ)言
4.3.2 CUDA C語(yǔ)言
4.4 基于GPU的異構(gòu)并行計(jì)算性能優(yōu)化
4.4.1 總體優(yōu)化準(zhǔn)則
4.4.2 全局存儲(chǔ)器優(yōu)化
4.4.3 合并訪問(wèn)
4.4.4 局部存儲(chǔ)器
4.4.5 存儲(chǔ)體沖突
4.4.6 常量存儲(chǔ)器優(yōu)化
4.4.7 CUDA紋理存儲(chǔ)器優(yōu)化
4.4.8 寄存器及私有存儲(chǔ)器優(yōu)化
4.4.9 工作組數(shù)目及大小
4.4.10 占用率
4.4.11 指令優(yōu)化
4.4.12 分支優(yōu)化
4.4.13 數(shù)據(jù)傳輸優(yōu)化
4.5 GPU與CPU精度差別
4.6 矩陣轉(zhuǎn)置
4.6.1 初次實(shí)現(xiàn)
4.6.2 滿足合并訪問(wèn)的實(shí)現(xiàn)
4.6.3 沒(méi)有存儲(chǔ)體沖突的實(shí)現(xiàn)
4.7 矩陣乘法
4.7.1 初次實(shí)現(xiàn)
4.7.2 矩陣分塊實(shí)現(xiàn)
4.8 本章小結(jié)

第5章 OpenACC
5.1OpenACC 編程模型
5.1.1 執(zhí)行模型
5.1.2存儲(chǔ)器模型
5.2編譯制導(dǎo)語(yǔ)句
5.2.1kernels構(gòu)造
5.2.2parallel構(gòu)造
5.2.3 線程配置相關(guān)子句
5.2.4data構(gòu)造
5.2.5loop構(gòu)造
5.2.6 atomic構(gòu)造
5.2.7 dtype子句
5.2.8reduction子句
5.2.9變量可見(jiàn)性子句
5.2.10if子句
5.2.11async和wait
5.3OpenACC和CUDA協(xié)作
5.3.1CUDA使用OpenACC生產(chǎn)的數(shù)據(jù)
5.3.2 OpenACC使用CUDA生產(chǎn)的數(shù)據(jù)
5.4兩小時(shí)性能提升10倍
5.5本章小結(jié)

第6章 多核向量處理器架構(gòu)及OpenCL程序映射
6.1多核向量處理器架構(gòu)
6.1.1Intel Haswell CPU 架構(gòu)
6.1.2ARM A15 多核向量處理器架構(gòu)
6.1.3AMD GCN GPU架構(gòu)
6.1.4NVIDIA Kepler 和 Maxwell GPU架構(gòu)
6.2OpenCL 程序在多核向量處理器上的映射
6.2.1OpenCL程序在多核向量CPU上的映射
6.2.2OpenCL程序在NVIDIA GPU上的映射
6.2.3OpenCL程序在AMD GCN上的映射
6.3本章小結(jié)

第7章 利用多種技術(shù)優(yōu)化圖像處理中的算法性能
7.1圖像濾波
7.1.1均值濾波
7.1.2中值濾波
7.2圖像直方圖
7.2.1OpenMP 實(shí)現(xiàn)
7.2.2CUDA 實(shí)現(xiàn)
7.3曼德勃羅集
7.3.1串行算法
7.3.2不適合進(jìn)行向量化
7.3.3OpenMP實(shí)現(xiàn)
7.3.4CUDA 實(shí)現(xiàn)
7.4本章小結(jié)

第8章 利用多種技術(shù)優(yōu)化線性代數(shù)中的算法性能
8.1兩向量距離
8.1.1串行代碼
8.1.2循環(huán)展開(kāi)代碼
8.1.3AVX指令加速
8.1.4NEON 實(shí)現(xiàn)
8.1.5CUDA實(shí)現(xiàn)
8.2稠密矩陣與向量乘法
8.2.1串行算法
8.2.2AVX 指令加速
8.2.3NEON 實(shí)現(xiàn)
8.2.4CUDA 實(shí)現(xiàn)
8.2.5OpenMP 實(shí)現(xiàn)
8.3本章小結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)