推理性能优化：GPU/NPU Profiling

https://zhuanlan.zhihu.com/p/1981436859470074335?share_code=bZtoKsWUIpcD&utm_psn=1981881255978096583

我直接照搬过来备份一下，老师写的还是很好，只不过真正看起来确实比较麻烦。

这篇 blog 主要是看序列图如何分析，包括：

profiling分析性能的案例。
多流并行在profiling上面是如何体现？
计算与通信掩盖如何分析？

我们会在其中穿插一些内容。

GPU场景

GPU + Qwen(Dense) + tracing场景。

首先用 vllm 收集 profiling：

from vllm import LLM, SamplingParams
import torch
import torch.profiler as profiler
import os
os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"


if __name__ == "__main__":
    with profiler.profile(
        activities=[profiler.ProfilerActivity.CPU, profiler.ProfilerActivity.CUDA],
        record_shapes=True,          # 记录张量形状
        profile_memory=True,         # 记录内存分配/释放
        with_stack=False              # close 调用栈
        ) as prof:
        model_name = "/home/kaiyuan/models/Qwen2.5-7B-Instruct" 
        llm = LLM(model=model_name, dtype='float16', tensor_parallel_size=4)
        prompts = [
        "Hello, my name is",
        "The capital of France is",
        "The future of AI is",
        "Please introduce vLLM framework"
        ]
    # 设置采样参数
        sampling_params = SamplingParams(
        temperature=0.8,  # 控制生成文本的随机性，值越高越随机
        top_p=0.95,  # 控制采样范围，值越高生成文本越多样化
        max_tokens=50,  # 生成的最大 token 数量
        n=1
        )

        outputs = llm.generate(prompts, sampling_params)
    prof.export_chrome_trace("trace.json")

上述是 PyTorch Profiler，是在 pytorch 级别的 CPU 算子/ CUDA kernel 级别的分析，而 nsys/ncu/nvprof 是在 CUDA Driver 级别的分析，Linux perf/ftrace 等是在 cpu 级别的分析。

正常运行后，能够获得"trace.json"文件，直接拖拽到浏览器的https://ui.perfetto.dev/ （推荐）、如果是chrome浏览器可用chrome://tracing/

profiling导入之后，可找到主机端（python层）的执行时序、GPU端（stream）的执行时序：

先看一下python层执行情况。在profiling中找到序列图进行放大，我们可以定位一个完整的层的位置，比如用耗时较长的attention进行隔断，截取一段内容进行分析

Qwen2.5 dense的模型主体是GQA+FFN，这些层的运算在profiling中可找到对应的位置。

通过放大profiling，找到GAQ在python中的时序图位置。有几个细节：

时序条的操作与操作之间存在空白，这并不代表执行不连续。

Timeline 上 kernel 之间的空白不等价于 GPU 停机。很多时候 GPU 正在执行其他 stream 的 kernel、进行 DMA 拷贝、等待 sync、或者 profiler 没显示某些事件。只有当 SM 利用率下降到 0 时，才能判断 GPU 真正 idle。

在O linear计算完成后有个all reduce操作，这是因为开启TP并行，即OKV矩阵运算时的权重W进行了列切分、O矩阵运算采用W行切分，最后结果需要一个all reduce校正结果。

这里有些需要澄清的地方，在 TP(Tensor Parallel，相对于 DP/PP) 中，TP 发生在大矩阵维度，不是在单个 head 内部。Multi-head attention 是模型设计上的逻辑维度切分；Tensor Parallel 是运行时为了利用多 GPU 资源而进行的权重张量物理切分。两者互不重叠，一个负责表示能力，一个负责计算并行性。
QKV projection 的权重按列拆分后，每个 GPU 计算部分 heads；O projection 的权重按行拆分，因此每个 GPU 对最终 hidden_dim 输出贡献一部分；这些部分结果需要 All-Reduce(sum) 来恢复完整的 hidden_dim 输出。