vllm_omni.diffusion.attention.backends.sdpa ¶

SDPAMaskMode `module-attribute` ¶

SDPAMaskMode = Literal['broadcast_k', 'full_qk']

logger = init_logger(__name__)

accept_output_buffer: bool = True

get_impl_cls() -> type[SDPAImpl]

get_name() -> str

get_supported_head_sizes() -> list[int]

supports_attention_mask() -> bool

causal = causal

requires_gqa = num_heads != num_kv_heads

softmax_scale = softmax_scale

forward_cuda(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata | None = None,
) -> Tensor

forward_hip(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata | None = None,
) -> Tensor

forward_npu(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata | None = None,
) -> Tensor

forward_xpu(
    query: Tensor,
    key: Tensor,
    value: Tensor,
    attn_metadata: AttentionMetadata | None = None,
) -> Tensor