上下文并行指南#

概述#

本指南介绍如何使用上下文并行(Context Parallel),一种长序列推理优化技术。上下文并行包括 PCP(预填充上下文并行)和 DCP(解码上下文并行),可减少长序列LLM推理中的NPU内存使用并提升推理速度。

上下文并行的优势#

上下文并行主要解决服务长上下文请求的问题。由于预填充和解码阶段具有截然不同的特性以及不同的服务级别目标(SLO),我们需要分别为它们实现上下文并行。主要考虑点如下:

  • 对于长上下文预填充,我们可以使用上下文并行,通过将预填充的计算时间分摊到查询令牌上,从而减少首令牌时间(TTFT)。

  • 对于长上下文解码,我们可以使用上下文并行来减少KV缓存的重复存储,为KV缓存提供更多空间,从而增加批处理大小(进而提升吞吐量)。

要了解更多关于上下文并行的理论和实现细节,请参阅上下文并行开发者指南

支持场景#

目前上下文并行可与大多数其他功能结合使用,支持的功能如下:

Eager模式

Graph模式

前缀
缓存

分块
预填充

推测解码
(MTP)

PD
解耦

MLAPO

PCP

DCP

如何使用上下文并行#

您可以通过 prefill_context_parallel_sizedecode_context_parallel_size 启用 PCPDCP,请参考以下示例:

  • 离线示例:

    from vllm import LLM, SamplingParams
    
    prompts = [
        "The future of AI is",
    ]
    sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
    
    llm = LLM(
        model="deepseek-ai/DeepSeek-V2-Lite",
        tensor_parallel_size=2,
        decode_context_parallel_size=2,
        prefill_context_parallel_size=2,
    )
    outputs = llm.generate(prompts, sampling_params)
    
  • 在线示例:

    vllm serve deepseek-ai/DeepSeek-V2-Lite \
        --tensor-parallel-size 2 \
        --decode-context-parallel-size 2 \
        --prefill-context-parallel-size 2 \
    

总的世界大小为 tensor_parallel_size * prefill_context_parallel_size,因此上述示例各需要4个NPU。

约束条件#

  • 使用DCP时,必须满足以下约束条件:

    • 对于基于MLA的模型,例如DeepSeek-R1:

      • tensor_parallel_size >= decode_context_parallel_size

      • tensor_parallel_size % decode_context_parallel_size == 0

    • 对于基于GQA的模型,例如Qwen3-235B:

      • (tensor_parallel_size // num_key_value_heads) >= decode_context_parallel_size

      • (tensor_parallel_size // num_key_value_heads) % decode_context_parallel_size == 0

  • 在需要KV缓存传输的场景(例如KV池化、PD解耦)中使用上下文并行时,为简化KV缓存传输,必须将 cp_kv_cache_interleave_size 设置为与KV缓存 block_size(默认:128)相同的值,这指定了CP以块交错方式分割KV缓存。例如:

    vllm serve deepseek-ai/DeepSeek-V2-Lite \
        --tensor-parallel-size 2 \
        --decode-context-parallel-size 2 \
        --prefill-context-parallel-size 2 \
        --cp-kv-cache-interleave-size 128 \
        --kv-transfer-config {...} \
    

实验结果#

为评估上下文并行在长序列LLM推理场景中的有效性,我们使用 DeepSeek-R1-W8A8Qwen3-235B,在64卡Ascend Atlas A3推理产品*64G(A3)环境中部署PD解耦实例,配置和性能数据如下。

  • DeepSeek-R1-W8A8:

    配置

    输入长度
    32k

    输入长度
    64k

    输入长度
    128k

    P节点: (DP2 TP8 EP16) *2
    D节点: (DP32 EP32)*1

    TTFT: 9.3s
    TPOT: 72ms

    TTFT: 22.8s
    TPOT: 74ms

    TTFT: 73.2s
    TPOT: 82ms

    P节点: (PCP2 TP8 DCP8 EP16) *2
    D节点: (DP32 EP32)*1

    TTFT: 7.9s
    TPOT: 74ms

    TTFT: 15.9s
    TPOT: 78ms

    TTFT: 46.0s
    TPOT: 83ms

  • Qwen3-235B:

    配置

    输入长度
    32k

    输入长度
    64k

    输入长度
    120k

    P节点: (DP2 TP8 EP16) *2
    D节点: (DP32 EP32)*1

    TTFT: 5.1s
    TPOT: 65ms

    TTFT: 13.1s
    TPOT: 85ms

    TTFT: 33.9s
    TPOT: 120ms

    P节点: (PCP2 TP8 DCP2 EP16) *2
    D节点: (DP32 EP32)*1

    TTFT: 3.0s
    TPOT: 66ms

    TTFT: 8.9s
    TPOT: 86ms

    TTFT: 22.7s
    TPOT: 121ms