vllm_omni.diffusion.attention.backends.flash_attn ¶

logger `module-attribute` ¶

logger = init_logger(__name__)

FlashAttentionBackend ¶

Bases: AttentionBackend

accept_output_buffer `class-attribute` `instance-attribute` ¶

accept_output_buffer: bool = True

get_impl_cls `staticmethod` ¶

get_impl_cls() -> type[FlashAttentionImpl]

get_name `staticmethod` ¶

get_name() -> str

get_supported_head_sizes `staticmethod` ¶

get_supported_head_sizes() -> list[int]

supports_attention_mask `classmethod` ¶

supports_attention_mask() -> bool

FlashAttentionImpl ¶

Bases: AttentionImpl

causal `instance-attribute` ¶

causal = causal

num_heads `instance-attribute` ¶

num_heads = num_heads

qkv_layout `instance-attribute` ¶

qkv_layout = qkv_layout

softmax_scale `instance-attribute` ¶

softmax_scale = softmax_scale

forward_cuda ¶

forward_cuda(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata = None,
) -> Tensor

CUDA/ROCm/MUSA flash attention implementation.

forward_fa_npu ¶

forward_fa_npu(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata = None,
) -> Tensor

forward_fa_quant_npu ¶

forward_fa_quant_npu(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata = None,
) -> Tensor

forward_npu ¶

forward_npu(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata = None,
) -> Tensor

NPU attention implementation using mindiesd.

forward_xpu ¶

forward_xpu(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata = None,
) -> Tensor

XPU flash attention implementation.

vllm_omni.diffusion.attention.backends.flash_attn ¶

logger module-attribute ¶

FlashAttentionBackend ¶

accept_output_buffer class-attribute instance-attribute ¶

get_impl_cls staticmethod ¶

get_name staticmethod ¶

get_supported_head_sizes staticmethod ¶

supports_attention_mask classmethod ¶

FlashAttentionImpl ¶

causal instance-attribute ¶

num_heads instance-attribute ¶

qkv_layout instance-attribute ¶

softmax_scale instance-attribute ¶

forward_cuda ¶

forward_fa_npu ¶

forward_fa_quant_npu ¶

forward_npu ¶

forward_xpu ¶

logger `module-attribute` ¶

accept_output_buffer `class-attribute` `instance-attribute` ¶

get_impl_cls `staticmethod` ¶

get_name `staticmethod` ¶

get_supported_head_sizes `staticmethod` ¶

supports_attention_mask `classmethod` ¶

causal `instance-attribute` ¶

num_heads `instance-attribute` ¶

qkv_layout `instance-attribute` ¶

softmax_scale `instance-attribute` ¶