本文共 2035 字,大约阅读时间需要 6 分钟。
本节书摘来自华章出版社《OpenACC并行编程实战》一 书中的第3章,第3.1节,作者何沧平,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
程序的加速效果来自于对计算部分的并行化。本章重点介绍计算并行化所用的3个构件:kernels、loop和parallel,以及几个重要的子语。编译器将串行循环映射成并行线程的方式多种多样,需要仔细观察几种常用循环的并行化方式,掌握映射规律。为了演示计算构件的语法和加速效果,3.7节移植常用的Jacobi迭代。
特别提醒:用OpenACC并行化程序的过程中,可能不会立即有加速效果,甚至计算并行化反而使整体运行时间延长。这是正常现象,增加的时间是主机与设备之间的数据传输,不必担忧,第4章会详细讲述如何缩短数据传输时间。从本章开始,假定读者拥有Linux环境下日常操作、编译运行代码的基础,已经成功部署OpenACC开发环境。Linux入门教材推荐《鸟哥的Linux私房菜》。本书中所有示例代码均经过测试验证,测试环境有3种:英伟达GeForce GT 420m拥有96个CUDA核心。默认使用第1种环境编辑、调试代码,使用第2种环境获取程序性能、绘制性能图形,第3种环境特别用于计算区域内的过程调用和6.6节单机多卡的情形。
对示例代码的讲述以C语言主为,如无特别需要,只列出Fortran版代码,不再讲述重复的语法、技巧。为便于讲述,每行代码都添加了行号,这些行号不是代码的组成部分。OpenACC规范要求支持它的编译器预定义一个宏_OPENACC,宏的值为yyyymm,其中yyyy是编译器所支持OpenACC版本的发布年份,mm是月份。当且仅当OpenACC导语功能打开时,编译器必须定义这个宏。OpenACC 1.0、2.0、2.5版本对应的宏值分别为201111、201306、201509。可以在程序中使用下列语句将宏_OPENACC的值输出到屏幕上:
printf("_OPENACC=%d\n", _OPENACC); /* C语言 */print*, "_OPENACC=", _OPENACC ! Fortran语言
结合程序语言的预处理语句,该宏可以增强代码的适应性,请看例3.1。
$ gcc comp1c.c -o comp1c.exe$ ./comp1c.exeOpenACC is not supported.
使用支持OpenACC的PGI编译器编译,并打开支持选项,在拥有一块英伟达显卡的笔记本上运行,正确给出运行环境中的设备数量:
$ pgcc -acc comp1c.c -o comp1c.exe$ ./comp1c.exeNumber of device: 1
PGI编译器的C语言编译程序是pgcc,选项-acc的作用是打开编译器对OpenACC的支持,从而有了编译器定义的宏_OPENACC,没有选
项-acc的话,第3、8~9行会被忽略。Fortran代码有个预编译小技巧:Fortran语言本身不支持#ifdef等预处理指令,因此要在正式编译前预处理一下,见例3.2。将Fortran源码文件的扩展名由通常的小写.f90改为大写的.F90,PGI编译器就会自动添加预处理过程。$ pgfortran -acc -o comp1f.exe comp1f.F90$ ./comp1f.exe Number of device: 1
转载地址:http://sndma.baihongyu.com/