# 3.5 檢測OpenMP的并行環境
**NOTE**:*此示例代碼可以在 https://github.com/dev-cafe/cmake-cookbook/tree/v1.0/chapter-03/recipe-05 中找到,有一個C++和一個Fortran示例。該示例在CMake 3.5版(或更高版本)中是有效的,并且已經在GNU/Linux、macOS和Windows上進行過測試。https://github.com/dev-cafe/cmake-cookbook/tree/v1.0/chapter-03/recipe-05 中也有一個適用于CMake 3.5的示例。*
目前,市面上的計算機幾乎都是多核機器,對于性能敏感的程序,我們必須關注這些多核處理器,并在編程模型中使用并發。OpenMP是多核處理器上并行性的標準之一。為了從OpenMP并行化中獲得性能收益,通常不需要修改或重寫現有程序。一旦確定了代碼中的性能關鍵部分,例如:使用分析工具,程序員就可以通過預處理器指令,指示編譯器為這些區域生成可并行的代碼。
本示例中,我們將展示如何編譯一個包含OpenMP指令的程序(前提是使用一個支持OpenMP的編譯器)。有許多支持OpenMP的Fortran、C和C++編譯器。對于相對較新的CMake版本,為OpenMP提供了非常好的支持。本示例將展示如何在使用CMake 3.9或更高版本時,使用簡單C++和Fortran程序來鏈接到OpenMP。
**NOTE**:*根據Linux發行版的不同,Clang編譯器的默認版本可能不支持OpenMP。使用或非蘋果版本的Clang(例如,Conda提供的)或GNU編譯器,除非單獨安裝libomp庫(https://iscinumpy.gitlab.io/post/omp-on-high-sierra/ ),否則本節示例將無法在macOS上工作。*
## 準備工作
C和C++程序可以通過包含`omp.h`頭文件和鏈接到正確的庫,來使用OpenMP功能。編譯器將在性能關鍵部分之前添加預處理指令,并生成并行代碼。在本示例中,我們將構建以下示例源代碼(`example.cpp`)。這段代碼從1到N求和,其中N作為命令行參數:
```c++
#include <iostream>
#include <omp.h>
#include <string>
int main(int argc, char *argv[])
{
std::cout << "number of available processors: " << omp_get_num_procs()
<< std::endl;
std::cout << "number of threads: " << omp_get_max_threads() << std::endl;
auto n = std::stol(argv[1]);
std::cout << "we will form sum of numbers from 1 to " << n << std::endl;
// start timer
auto t0 = omp_get_wtime();
auto s = 0LL;
#pragma omp parallel for reduction(+ : s)
for (auto i = 1; i <= n; i++)
{
s += i;
}
// stop timer
auto t1 = omp_get_wtime();
std::cout << "sum: " << s << std::endl;
std::cout << "elapsed wall clock time: " << t1 - t0 << " seconds" << std::endl;
return 0;
}
```
在Fortran語言中,需要使用`omp_lib`模塊并鏈接到庫。在性能關鍵部分之前的代碼注釋中,可以再次使用并行指令。例如:`F90`需要包含以下內容:
```fortran
program example
use omp_lib
implicit none
integer(8) :: i, n, s
character(len=32) :: arg
real(8) :: t0, t1
print *, "number of available processors:", omp_get_num_procs()
print *, "number of threads:", omp_get_max_threads()
call get_command_argument(1, arg)
read(arg , *) n
print *, "we will form sum of numbers from 1 to", n
! start timer
t0 = omp_get_wtime()
s = 0
!$omp parallel do reduction(+:s)
do i = 1, n
s = s + i
end do
! stop timer
t1 = omp_get_wtime()
print *, "sum:", s
print *, "elapsed wall clock time (seconds):", t1 - t0
end program
```
## 具體實施
對于C++和Fortran的例子,`CMakeLists.txt`將遵循一個模板,該模板在這兩種語言上很相似:
1. 兩者都定義了CMake最低版本、項目名稱和語言(CXX或Fortran;我們將展示C++版本):
```cmake
cmake_minimum_required(VERSION 3.9 FATAL_ERROR)
project(recipe-05 LANGUAGES CXX)
```
2. 使用C++11標準:
```cmake
set(CMAKE_CXX_STANDARD 11)
set(CMAKE_CXX_EXTENSIONS OFF)
set(CMAKE_CXX_STANDARD_REQUIRED ON)
```
3. 調用find_package來搜索OpenMP:
```cmake
find_package(OpenMP REQUIRED)
```
4. 最后,我們定義可執行目標,并鏈接到FindOpenMP模塊提供的導入目標(在Fortran的情況下,我們鏈接到`OpenMP::OpenMP_Fortran`):
```cmake
add_executable(example example.cpp)
target_link_libraries(example
PUBLIC
OpenMP::OpenMP_CXX
)
```
5. 現在,可以配置和構建代碼了:
```shell
$ mkdir -p build
$ cd build
$ cmake ..
$ cmake --build .
```
6. 并行測試(在本例中使用了4個內核):
```shell
$ ./example 1000000000
number of available processors: 4
number of threads: 4
we will form sum of numbers from 1 to 1000000000
sum: 500000000500000000
elapsed wall clock time: 1.08343 seconds
```
7. 為了比較,我們可以重新運行這個例子,并將OpenMP線程的數量設置為1:
```shell
$ env OMP_NUM_THREADS=1 ./example 1000000000
number of available processors: 4
number of threads: 1
we will form sum of numbers from 1 to 1000000000
sum: 500000000500000000
elapsed wall clock time: 2.96427 seconds
```
## 工作原理
我們的示例很簡單:編譯代碼,并運行在多個內核上時,我們會看到加速效果。加速效果并不是`OMP_NUM_THREADS`的倍數,不過本示例中并不關心,因為我們更關注的是如何使用CMake配置需要使用OpenMP的項目。我們發現鏈接到OpenMP非常簡單,這要感謝`FindOpenMP`模塊:
```cmake
target_link_libraries(example
PUBLIC
OpenMP::OpenMP_CXX
)
```
我們不關心編譯標志或包含目錄——這些設置和依賴項是在`OpenMP::OpenMP_CXX`中定義的(`IMPORTED`類型)。如第1章第3節中提到的,`IMPORTED`庫是偽目標,它完全是我們自己項目的外部依賴項。要使用OpenMP,需要設置一些編譯器標志,包括目錄和鏈接庫。所有這些都包含在`OpenMP::OpenMP_CXX`的屬性上,并通過使用`target_link_libraries`命令傳遞給`example`。這使得在CMake中,使用庫變得非常容易。我們可以使用`cmake_print_properties`命令打印接口的屬性,該命令由`CMakePrintHelpers.CMake`模塊提供:
```cmake
include(CMakePrintHelpers)
cmake_print_properties(
TARGETS
OpenMP::OpenMP_CXX
PROPERTIES
INTERFACE_COMPILE_OPTIONS
INTERFACE_INCLUDE_DIRECTORIES
INTERFACE_LINK_LIBRARIES
)
```
所有屬性都有`INTERFACE_`前綴,因為這些屬性對所需目標,需要以接口形式提供,并且目標以接口的方式使用OpenMP。
對于低于3.9的CMake版本:
```cmake
add_executable(example example.cpp)
target_compile_options(example
PUBLIC
${OpenMP_CXX_FLAGS}
)
set_target_properties(example
PROPERTIES
LINK_FLAGS ${OpenMP_CXX_FLAGS}
)
```
對于低于3.5的CMake版本,我們需要為Fortran項目顯式定義編譯標志。
在這個示例中,我們討論了C++和Fortran。相同的參數和方法對于C項目也有效。
- Introduction
- 前言
- 第0章 配置環境
- 0.1 獲取代碼
- 0.2 Docker鏡像
- 0.3 安裝必要的軟件
- 0.4 測試環境
- 0.5 上報問題并提出改進建議
- 第1章 從可執行文件到庫
- 1.1 將單個源文件編譯為可執行文件
- 1.2 切換生成器
- 1.3 構建和鏈接靜態庫和動態庫
- 1.4 用條件句控制編譯
- 1.5 向用戶顯示選項
- 1.6 指定編譯器
- 1.7 切換構建類型
- 1.8 設置編譯器選項
- 1.9 為語言設定標準
- 1.10 使用控制流
- 第2章 檢測環境
- 2.1 檢測操作系統
- 2.2 處理與平臺相關的源代碼
- 2.3 處理與編譯器相關的源代碼
- 2.4 檢測處理器體系結構
- 2.5 檢測處理器指令集
- 2.6 為Eigen庫使能向量化
- 第3章 檢測外部庫和程序
- 3.1 檢測Python解釋器
- 3.2 檢測Python庫
- 3.3 檢測Python模塊和包
- 3.4 檢測BLAS和LAPACK數學庫
- 3.5 檢測OpenMP的并行環境
- 3.6 檢測MPI的并行環境
- 3.7 檢測Eigen庫
- 3.8 檢測Boost庫
- 3.9 檢測外部庫:Ⅰ. 使用pkg-config
- 3.10 檢測外部庫:Ⅱ. 自定義find模塊
- 第4章 創建和運行測試
- 4.1 創建一個簡單的單元測試
- 4.2 使用Catch2庫進行單元測試
- 4.3 使用Google Test庫進行單元測試
- 4.4 使用Boost Test進行單元測試
- 4.5 使用動態分析來檢測內存缺陷
- 4.6 預期測試失敗
- 4.7 使用超時測試運行時間過長的測試
- 4.8 并行測試
- 4.9 運行測試子集
- 4.10 使用測試固件
- 第5章 配置時和構建時的操作
- 5.1 使用平臺無關的文件操作
- 5.2 配置時運行自定義命令
- 5.3 構建時運行自定義命令:Ⅰ. 使用add_custom_command
- 5.4 構建時運行自定義命令:Ⅱ. 使用add_custom_target
- 5.5 構建時為特定目標運行自定義命令
- 5.6 探究編譯和鏈接命令
- 5.7 探究編譯器標志命令
- 5.8 探究可執行命令
- 5.9 使用生成器表達式微調配置和編譯
- 第6章 生成源碼
- 6.1 配置時生成源碼
- 6.2 使用Python在配置時生成源碼
- 6.3 構建時使用Python生成源碼
- 6.4 記錄項目版本信息以便報告
- 6.5 從文件中記錄項目版本
- 6.6 配置時記錄Git Hash值
- 6.7 構建時記錄Git Hash值
- 第7章 構建項目
- 7.1 使用函數和宏重用代碼
- 7.2 將CMake源代碼分成模塊
- 7.3 編寫函數來測試和設置編譯器標志
- 7.4 用指定參數定義函數或宏
- 7.5 重新定義函數和宏
- 7.6 使用廢棄函數、宏和變量
- 7.7 add_subdirectory的限定范圍
- 7.8 使用target_sources避免全局變量
- 7.9 組織Fortran項目
- 第8章 超級構建模式
- 8.1 使用超級構建模式
- 8.2 使用超級構建管理依賴項:Ⅰ.Boost庫
- 8.3 使用超級構建管理依賴項:Ⅱ.FFTW庫
- 8.4 使用超級構建管理依賴項:Ⅲ.Google Test框架
- 8.5 使用超級構建支持項目
- 第9章 語言混合項目
- 9.1 使用C/C++庫構建Fortran項目
- 9.2 使用Fortran庫構建C/C++項目
- 9.3 使用Cython構建C++和Python項目
- 9.4 使用Boost.Python構建C++和Python項目
- 9.5 使用pybind11構建C++和Python項目
- 9.6 使用Python CFFI混合C,C++,Fortran和Python
- 第10章 編寫安裝程序
- 10.1 安裝項目
- 10.2 生成輸出頭文件
- 10.3 輸出目標
- 10.4 安裝超級構建
- 第11章 打包項目
- 11.1 生成源代碼和二進制包
- 11.2 通過PyPI發布使用CMake/pybind11構建的C++/Python項目
- 11.3 通過PyPI發布使用CMake/CFFI構建C/Fortran/Python項目
- 11.4 以Conda包的形式發布一個簡單的項目
- 11.5 將Conda包作為依賴項發布給項目
- 第12章 構建文檔
- 12.1 使用Doxygen構建文檔
- 12.2 使用Sphinx構建文檔
- 12.3 結合Doxygen和Sphinx
- 第13章 選擇生成器和交叉編譯
- 13.1 使用CMake構建Visual Studio 2017項目
- 13.2 交叉編譯hello world示例
- 13.3 使用OpenMP并行化交叉編譯Windows二進制文件
- 第14章 測試面板
- 14.1 將測試部署到CDash
- 14.2 CDash顯示測試覆蓋率
- 14.3 使用AddressSanifier向CDash報告內存缺陷
- 14.4 使用ThreadSaniiser向CDash報告數據爭用
- 第15章 使用CMake構建已有項目
- 15.1 如何開始遷移項目
- 15.2 生成文件并編寫平臺檢查
- 15.3 檢測所需的鏈接和依賴關系
- 15.4 復制編譯標志
- 15.5 移植測試
- 15.6 移植安裝目標
- 15.7 進一步遷移的措施
- 15.8 項目轉換為CMake的常見問題
- 第16章 可能感興趣的書
- 16.1 留下評論——讓其他讀者知道你的想法