warp 分支串行执行

在 CUDA 中，warp 是由 32 个线程 组成的基本执行单元。每个 warp 中的线程执行相同的指令，这就是所谓的 SIMT（Single Instruction Multiple Thread） 模型。但是，当线程遇到分支（例如 if 语句或 switch 语句）时，情况会变得更加复杂，因为不同的线程可能会按照不同的路径执行。

线程分支时的执行方式：分支分歧（Branch Divergence）

当一个 warp 中的线程遇到条件分支时，可能会导致 分支分歧，即不同线程执行不同的分支路径。具体来说，CUDA 使用以下机制来处理这种情况：

分支分歧的发生：
- 如果同一个 warp 中的不同线程需要执行不同的分支（例如，某些线程执行 if 分支，而其他线程执行 else 分支），则会发生 分支分歧。
- warp 中的所有线程仍然会按顺序执行相同的指令，但 不同路径的执行是串行的，即需要依次执行所有分支路径。
如何执行：
- 串行执行分支：在执行时，所有线程会 先执行一个分支路径，然后再执行 另一个分支路径。在执行过程中，其他不在该分支路径中的线程会被 “屏蔽”，即它们的执行会被推迟，直到当前路径执行完毕。
- 掩码机制：CUDA 使用掩码来确保每个线程在当前路径中是否执行。执行完当前路径后，线程会跳到下一条路径，然后继续执行。
执行流程：
- 步骤 1：如果 warp 中的线程遇到一个分支，CUDA 会首先确定哪些线程需要执行 if 语句中的代码，哪些线程需要执行 else 语句中的代码。
- 步骤 2：CUDA 会 首先执行一个分支，此时只有需要执行该分支的线程会被激活，其他线程会被“屏蔽”。
- 步骤 3：执行完当前分支后，CUDA 会 切换到另一个分支，然后重新激活那些应该执行该分支的线程。
- 步骤 4：这两次路径的执行分别按照序列化的方式完成，但每次执行时，线程数量始终是 32 个，只是某些线程会被“屏蔽”，它们的计算结果不会被使用。
性能影响：
- 性能下降：分支分歧会导致性能下降，因为线程需要等待执行不同分支的路径，导致 线程的同步延迟。理想情况下，所有线程应该沿着相同的路径执行，以便充分利用 SIMT 模型的并行能力。
- 编译器优化：编译器通常会尽量避免分支分歧，或者优化线程的执行路径，以减少分支导致的性能损失。

举个例子：

考虑以下代码片段：

__global__ void example_kernel(int *arr) {
    int id = threadIdx.x + blockIdx.x * blockDim.x;
    if (id % 2 == 0) {
        arr[id] = 100;  // 执行这条语句的线程将是 id 为偶数的线程
    } else {
        arr[id] = 200;  // 执行这条语句的线程将是 id 为奇数的线程
    }
}

假设 warp 中的 32 个线程执行此代码，其中 16 个线程的 id 为偶数，另外 16 个线程的 id 为奇数。
当 warp 遇到这个 if 语句时，CUDA 会执行以下步骤：
1. 执行偶数路径：16 个偶数线程会按预期执行 arr[id] = 100，而剩余的 16 个线程（奇数线程）被屏蔽，不执行。
2. 执行奇数路径：执行完偶数路径后，CUDA 会跳到 else 分支，16 个奇数线程会执行 arr[id] = 200，而偶数线程将被屏蔽。

这种情况下，虽然 warp 中有 32 个线程，实际上执行了两次序列化的路径：一次偶数路径、一次奇数路径。

分支分歧带来的问题

执行时间延长：由于每个 warp 都必须按顺序执行每个分支路径，分支分歧会导致相同 warp 内的线程执行顺序受到限制，降低并行执行效率。
带宽和缓存效率下降：分支分歧可能导致不同的内存访问模式，这可能影响内存带宽利用率和缓存命中率，从而进一步影响性能。

如何优化分支分歧

减少分支数量：尽量避免在同一个 warp 内存在多个分支。可以通过设计更为简洁的控制流或者使用掩码来控制线程的执行。
线程同步：在某些情况下，可以通过线程同步来减少分支分歧的影响，例如在不同线程需要按相同方式执行的情况下，使用线程同步来确保一致的执行路径。
使用条件变量：通过条件语句来确保分支路径尽量不在同一个 warp 内分歧，例如将分支尽可能均匀地分布到多个 warp 中。

总结

CUDA 中的分支分歧 是当 warp 内的线程按照不同路径执行时的现象。
当分支发生时，CUDA 会先执行一个分支路径，屏蔽不在该路径中的线程，然后再执行另一个分支路径。
分支分歧可能导致性能下降，因为它会阻止线程同时执行相同的指令，导致延迟和低效的执行。
为了避免分支分歧，应该尽量设计无分支或尽量减少同一 warp 中的分支数量。