vllm_omni.diffusion.models.stable_audio ¶

Stable Audio Open model support for vLLM-Omni.

Modules:

Name	Description
`pipeline_stable_audio`	Stable Audio Open Pipeline for vLLM-Omni.
`stable_audio_transformer`	Stable Audio DiT Model for vLLM-Omni.

StableAudioDiTModel ¶

Bases: Module

Optimized Stable Audio DiT model using vLLM layers.

This is an optimized version of the diffusers StableAudioDiTModel that uses vLLM's efficient linear layers and attention implementations.

Architecture: - Input: [B, in_channels, L] (e.g., [B, 64, L]) - preprocess_conv: residual conv layer (keeps 64 channels) - proj_in: projects 64 -> 1536 (inner_dim) - Global+time embeddings prepended to sequence - Transformer blocks work on 1536-dim - proj_out: projects 1536 -> 64 (out_channels) - postprocess_conv: residual conv layer (keeps 64 channels) - Output: [B, out_channels, L]

attention_head_dim `instance-attribute` ¶

attention_head_dim = attention_head_dim

config `instance-attribute` ¶

config = type(
    "Config",
    (),
    {
        "sample_size": sample_size,
        "in_channels": in_channels,
        "out_channels": out_channels,
        "num_layers": num_layers,
        "attention_head_dim": attention_head_dim,
        "num_attention_heads": num_attention_heads,
        "num_key_value_attention_heads": num_key_value_attention_heads,
        "cross_attention_dim": cross_attention_dim,
        "time_proj_dim": time_proj_dim,
        "global_states_input_dim": global_states_input_dim,
        "cross_attention_input_dim": cross_attention_input_dim,
    },
)()

cross_attention_proj `instance-attribute` ¶

cross_attention_proj = nn.Sequential(
    nn.Linear(
        cross_attention_input_dim,
        cross_attention_dim,
        bias=False,
    ),
    nn.SiLU(),
    nn.Linear(
        cross_attention_dim, cross_attention_dim, bias=False
    ),
)

dtype `property` ¶

dtype: dtype

Return the dtype of the model parameters.

global_proj `instance-attribute` ¶

global_proj = nn.Sequential(
    nn.Linear(
        global_states_input_dim, self.inner_dim, bias=False
    ),
    nn.SiLU(),
    nn.Linear(self.inner_dim, self.inner_dim, bias=False),
)

in_channels `instance-attribute` ¶

in_channels = in_channels

inner_dim `instance-attribute` ¶

inner_dim = num_attention_heads * attention_head_dim

num_attention_heads `instance-attribute` ¶

num_attention_heads = num_attention_heads

num_layers `instance-attribute` ¶

num_layers = num_layers

out_channels `instance-attribute` ¶

out_channels = out_channels

postprocess_conv `instance-attribute` ¶

postprocess_conv = nn.Conv1d(
    out_channels, out_channels, 1, bias=False
)

preprocess_conv `instance-attribute` ¶

preprocess_conv = nn.Conv1d(
    in_channels, in_channels, 1, bias=False
)

proj_in `instance-attribute` ¶

proj_in = nn.Linear(in_channels, self.inner_dim, bias=False)

proj_out `instance-attribute` ¶

proj_out = nn.Linear(
    self.inner_dim, out_channels, bias=False
)

sample_size `instance-attribute` ¶

sample_size = sample_size

time_proj `instance-attribute` ¶

time_proj = StableAudioGaussianFourierProjection(
    embedding_size=time_proj_dim // 2
)

timestep_proj `instance-attribute` ¶

timestep_proj = nn.Sequential(
    nn.Linear(time_proj_dim, self.inner_dim, bias=True),
    nn.SiLU(),
    nn.Linear(self.inner_dim, self.inner_dim, bias=True),
)

transformer_blocks `instance-attribute` ¶

transformer_blocks = nn.ModuleList(
    [
        (
            StableAudioDiTBlock(
                dim=self.inner_dim,
                num_attention_heads=num_attention_heads,
                num_key_value_attention_heads=num_key_value_attention_heads,
                attention_head_dim=attention_head_dim,
                cross_attention_dim=cross_attention_dim,
            )
        )
        for _ in (range(num_layers))
    ]
)

forward ¶

forward(
    hidden_states: Tensor,
    timestep: Tensor,
    encoder_hidden_states: Tensor,
    global_hidden_states: Tensor | None = None,
    rotary_embedding: tuple[Tensor, Tensor] | None = None,
    return_dict: bool = True,
    attention_mask: Tensor | None = None,
    encoder_attention_mask: Tensor | None = None,
) -> Tensor | Transformer2DModelOutput

Forward pass of the Stable Audio DiT model.

Parameters:

Name	Type	Description	Default
`hidden_states`	`Tensor`	Input latent tensor [B, C, L] (C=in_channels=64)	required
`timestep`	`Tensor`	Timestep tensor [B] or [1]	required
`encoder_hidden_states`	`Tensor`	Text/condition embeddings [B, S, D]	required
`global_hidden_states`	`Tensor \| None`	Global conditioning (duration) [B, 1, D]	`None`
`rotary_embedding`	`tuple[Tensor, Tensor] \| None`	Precomputed rotary embeddings (cos, sin)	`None`
`return_dict`	`bool`	Whether to return a dataclass or tuple	`True`
`attention_mask`	`Tensor \| None`	Attention mask for self-attention	`None`
`encoder_attention_mask`	`Tensor \| None`	Attention mask for cross-attention	`None`

Returns:

Type	Description
`Tensor \| Transformer2DModelOutput`	Denoised latent tensor

load_weights ¶

load_weights(
    weights: Iterable[tuple[str, Tensor]],
) -> set[str]

Load weights from a pretrained model.

Maps diffusers weight names to our module structure.

Returns:

Type	Description
`set[str]`	Set of parameter names that were successfully loaded.

StableAudioPipeline ¶

Bases: Module, SupportAudioOutput, SupportsComponentDiscovery, DiffusionPipelineProfilerMixin

Pipeline for text-to-audio generation using Stable Audio Open.

This pipeline generates audio from text prompts using the Stable Audio Open model from Stability AI, integrated with vLLM-Omni's diffusion framework.

Parameters:

Name	Type	Description	Default
`od_config`	`OmniDiffusionConfig`	OmniDiffusion configuration object	required
`prefix`	`str`	Weight prefix for loading (default: "")	`''`

audio_sample_rate `class-attribute` ¶

audio_sample_rate: int = 44100

current_timestep `property` ¶

current_timestep

device `instance-attribute` ¶

device = get_local_device()

do_classifier_free_guidance `property` ¶

do_classifier_free_guidance

guidance_scale `property` ¶

guidance_scale

num_timesteps `property` ¶

num_timesteps

od_config `instance-attribute` ¶

od_config = od_config

projection_model `instance-attribute` ¶

projection_model = from_pretrained_with_prefetch(
    StableAudioProjectionModel.from_pretrained,
    model,
    subfolder="projection_model",
    prefetch_list=sa_subfolders,
    local_files_only=local_files_only,
    torch_dtype=dtype,
).to(self.device)

rotary_embed_dim `instance-attribute` ¶

rotary_embed_dim = (
    self.transformer.config.attention_head_dim // 2
)

scheduler `instance-attribute` ¶

scheduler = StableAudioSchedulerWrapper(
    CosineDPMSolverMultistepScheduler.from_pretrained(
        model,
        subfolder="scheduler",
        local_files_only=local_files_only,
    )
)

support_audio_output `class-attribute` ¶

support_audio_output: bool = True

supports_request_batch `class-attribute` `instance-attribute` ¶

supports_request_batch = False

text_encoder `instance-attribute` ¶

text_encoder = from_pretrained_with_prefetch(
    T5EncoderModel.from_pretrained,
    model,
    subfolder="text_encoder",
    prefetch_list=sa_subfolders,
    local_files_only=local_files_only,
    torch_dtype=dtype,
).to(self.device)

tokenizer `instance-attribute` ¶

tokenizer = T5TokenizerFast.from_pretrained(
    model,
    subfolder="tokenizer",
    local_files_only=local_files_only,
)

transformer `instance-attribute` ¶

transformer = StableAudioDiTModel(
    od_config=od_config, **transformer_kwargs
)

vae `instance-attribute` ¶

vae = from_pretrained_with_prefetch(
    AutoencoderOobleck.from_pretrained,
    model,
    subfolder="vae",
    prefetch_list=sa_subfolders,
    local_files_only=local_files_only,
    torch_dtype=torch.float32,
).to(self.device)

weights_sources `instance-attribute` ¶

weights_sources = [
    DiffusersPipelineLoader.ComponentSource(
        model_or_path=od_config.model,
        subfolder="transformer",
        revision=None,
        prefix="transformer.",
        fall_back_to_pt=True,
    )
]

check_inputs ¶

check_inputs(
    prompt: str | list[str] | None,
    audio_start_in_s: float,
    audio_end_in_s: float,
    negative_prompt: str | list[str] | None = None,
    prompt_embeds: Tensor | None = None,
    negative_prompt_embeds: Tensor | None = None,
)

Validate input parameters.

encode_duration ¶

encode_duration(
    audio_start_in_s: float,
    audio_end_in_s: float,
    device: device,
    do_classifier_free_guidance: bool,
    batch_size: int,
) -> tuple[Tensor, Tensor]

Encode audio duration to conditioning tensors.

encode_prompt ¶

encode_prompt(
    prompt: str | list[str],
    device: device,
    do_classifier_free_guidance: bool,
    negative_prompt: str | list[str] | None = None,
    prompt_embeds: Tensor | None = None,
    negative_prompt_embeds: Tensor | None = None,
    attention_mask: Tensor | None = None,
    negative_attention_mask: Tensor | None = None,
) -> Tensor

Encode text prompt to embeddings.

forward ¶

forward(req: DiffusionRequestBatch) -> DiffusionOutput

Generate audio from text prompt.

Parameters:

Name	Type	Description	Default
`req`	`DiffusionRequestBatch`	OmniDiffusionRequest containing generation parameters. The `req.sampling_params.extra_args` can include the following keys: - audio_start_in_s (`float`, optional, defaults to 0.0): Start time of the audio in seconds. - audio_end_in_s (`float`, optional): End time of the audio in seconds. - num_waveforms_per_prompt (`int`, optional, defaults to 1): Number of audio outputs per prompt. - output_type (`str`, optional, defaults to "np"): Output format ("np", "pt", or "latent").	required

Returns:

Type	Description
`DiffusionOutput`	DiffusionOutput containing generated audio

load_weights ¶

load_weights(
    weights: Iterable[tuple[str, Tensor]],
) -> set[str]

Load weights using AutoWeightsLoader for vLLM integration.

prepare_latents ¶

prepare_latents(
    batch_size: int,
    num_channels_vae: int,
    sample_size: int,
    dtype: dtype,
    device: device,
    generator: Generator | list[Generator] | None,
    latents: Tensor | None = None,
) -> Tensor

Prepare initial latent noise.

get_stable_audio_post_process_func ¶

get_stable_audio_post_process_func(
    od_config: OmniDiffusionConfig,
)

Create post-processing function for Stable Audio output.

Converts raw audio tensor to numpy array for saving.

vllm_omni.diffusion.models.stable_audio ¶

StableAudioDiTModel ¶

attention_head_dim instance-attribute ¶

config instance-attribute ¶

cross_attention_proj instance-attribute ¶

dtype property ¶

global_proj instance-attribute ¶

in_channels instance-attribute ¶

inner_dim instance-attribute ¶

num_attention_heads instance-attribute ¶

num_layers instance-attribute ¶

out_channels instance-attribute ¶

postprocess_conv instance-attribute ¶

preprocess_conv instance-attribute ¶

proj_in instance-attribute ¶

proj_out instance-attribute ¶

sample_size instance-attribute ¶

time_proj instance-attribute ¶

timestep_proj instance-attribute ¶

transformer_blocks instance-attribute ¶

forward ¶

load_weights ¶

StableAudioPipeline ¶

audio_sample_rate class-attribute ¶

current_timestep property ¶

device instance-attribute ¶

do_classifier_free_guidance property ¶

guidance_scale property ¶

num_timesteps property ¶

od_config instance-attribute ¶

projection_model instance-attribute ¶

rotary_embed_dim instance-attribute ¶

scheduler instance-attribute ¶

support_audio_output class-attribute ¶

supports_request_batch class-attribute instance-attribute ¶

text_encoder instance-attribute ¶

tokenizer instance-attribute ¶

transformer instance-attribute ¶

vae instance-attribute ¶

weights_sources instance-attribute ¶

check_inputs ¶

encode_duration ¶

encode_prompt ¶

forward ¶

load_weights ¶

prepare_latents ¶

get_stable_audio_post_process_func ¶

attention_head_dim `instance-attribute` ¶

config `instance-attribute` ¶

cross_attention_proj `instance-attribute` ¶

dtype `property` ¶

global_proj `instance-attribute` ¶

in_channels `instance-attribute` ¶

inner_dim `instance-attribute` ¶

num_attention_heads `instance-attribute` ¶

num_layers `instance-attribute` ¶

out_channels `instance-attribute` ¶

postprocess_conv `instance-attribute` ¶

preprocess_conv `instance-attribute` ¶

proj_in `instance-attribute` ¶

proj_out `instance-attribute` ¶

sample_size `instance-attribute` ¶

time_proj `instance-attribute` ¶

timestep_proj `instance-attribute` ¶

transformer_blocks `instance-attribute` ¶

audio_sample_rate `class-attribute` ¶

current_timestep `property` ¶

device `instance-attribute` ¶

do_classifier_free_guidance `property` ¶

guidance_scale `property` ¶

num_timesteps `property` ¶

od_config `instance-attribute` ¶

projection_model `instance-attribute` ¶

rotary_embed_dim `instance-attribute` ¶

scheduler `instance-attribute` ¶

support_audio_output `class-attribute` ¶

supports_request_batch `class-attribute` `instance-attribute` ¶

text_encoder `instance-attribute` ¶

tokenizer `instance-attribute` ¶

transformer `instance-attribute` ¶

vae `instance-attribute` ¶

weights_sources `instance-attribute` ¶