vllm_omni.diffusion.models.stable_audio.pipeline_stable_audio ¶

Stable Audio Open Pipeline for vLLM-Omni.

This module provides text-to-audio generation using the Stable Audio Open model from Stability AI, integrated with the vLLM-Omni diffusion framework.

logger `module-attribute` ¶

logger = init_logger(__name__)

StableAudioPipeline ¶

Bases: Module, SupportAudioOutput, SupportsComponentDiscovery, DiffusionPipelineProfilerMixin

Pipeline for text-to-audio generation using Stable Audio Open.

This pipeline generates audio from text prompts using the Stable Audio Open model from Stability AI, integrated with vLLM-Omni's diffusion framework.

Parameters:

Name	Type	Description	Default
`od_config`	`OmniDiffusionConfig`	OmniDiffusion configuration object	required
`prefix`	`str`	Weight prefix for loading (default: "")	`''`

audio_sample_rate `class-attribute` ¶

audio_sample_rate: int = 44100

current_timestep `property` ¶

current_timestep

device `instance-attribute` ¶

device = get_local_device()

do_classifier_free_guidance `property` ¶

do_classifier_free_guidance

guidance_scale `property` ¶

guidance_scale

num_timesteps `property` ¶

num_timesteps

od_config `instance-attribute` ¶

od_config = od_config

projection_model `instance-attribute` ¶

projection_model = from_pretrained_with_prefetch(
    StableAudioProjectionModel.from_pretrained,
    model,
    subfolder="projection_model",
    prefetch_list=sa_subfolders,
    local_files_only=local_files_only,
    torch_dtype=dtype,
).to(self.device)

rotary_embed_dim `instance-attribute` ¶

rotary_embed_dim = (
    self.transformer.config.attention_head_dim // 2
)

scheduler `instance-attribute` ¶

scheduler = StableAudioSchedulerWrapper(
    CosineDPMSolverMultistepScheduler.from_pretrained(
        model,
        subfolder="scheduler",
        local_files_only=local_files_only,
    )
)

support_audio_output `class-attribute` ¶

support_audio_output: bool = True

supports_request_batch `class-attribute` `instance-attribute` ¶

supports_request_batch = False

text_encoder `instance-attribute` ¶

text_encoder = from_pretrained_with_prefetch(
    T5EncoderModel.from_pretrained,
    model,
    subfolder="text_encoder",
    prefetch_list=sa_subfolders,
    local_files_only=local_files_only,
    torch_dtype=dtype,
).to(self.device)

tokenizer `instance-attribute` ¶

tokenizer = T5TokenizerFast.from_pretrained(
    model,
    subfolder="tokenizer",
    local_files_only=local_files_only,
)

transformer `instance-attribute` ¶

transformer = StableAudioDiTModel(
    od_config=od_config, **transformer_kwargs
)

vae `instance-attribute` ¶

vae = from_pretrained_with_prefetch(
    AutoencoderOobleck.from_pretrained,
    model,
    subfolder="vae",
    prefetch_list=sa_subfolders,
    local_files_only=local_files_only,
    torch_dtype=torch.float32,
).to(self.device)

weights_sources `instance-attribute` ¶

weights_sources = [
    DiffusersPipelineLoader.ComponentSource(
        model_or_path=od_config.model,
        subfolder="transformer",
        revision=None,
        prefix="transformer.",
        fall_back_to_pt=True,
    )
]

check_inputs ¶

check_inputs(
    prompt: str | list[str] | None,
    audio_start_in_s: float,
    audio_end_in_s: float,
    negative_prompt: str | list[str] | None = None,
    prompt_embeds: Tensor | None = None,
    negative_prompt_embeds: Tensor | None = None,
)

Validate input parameters.

encode_duration ¶

encode_duration(
    audio_start_in_s: float,
    audio_end_in_s: float,
    device: device,
    do_classifier_free_guidance: bool,
    batch_size: int,
) -> tuple[Tensor, Tensor]

Encode audio duration to conditioning tensors.

encode_prompt ¶

encode_prompt(
    prompt: str | list[str],
    device: device,
    do_classifier_free_guidance: bool,
    negative_prompt: str | list[str] | None = None,
    prompt_embeds: Tensor | None = None,
    negative_prompt_embeds: Tensor | None = None,
    attention_mask: Tensor | None = None,
    negative_attention_mask: Tensor | None = None,
) -> Tensor

Encode text prompt to embeddings.

forward ¶

forward(req: DiffusionRequestBatch) -> DiffusionOutput

Generate audio from text prompt.

Parameters:

Name	Type	Description	Default
`req`	`DiffusionRequestBatch`	OmniDiffusionRequest containing generation parameters. The `req.sampling_params.extra_args` can include the following keys: - audio_start_in_s (`float`, optional, defaults to 0.0): Start time of the audio in seconds. - audio_end_in_s (`float`, optional): End time of the audio in seconds. - num_waveforms_per_prompt (`int`, optional, defaults to 1): Number of audio outputs per prompt. - output_type (`str`, optional, defaults to "np"): Output format ("np", "pt", or "latent").	required

Returns:

Type	Description
`DiffusionOutput`	DiffusionOutput containing generated audio

load_weights ¶

load_weights(
    weights: Iterable[tuple[str, Tensor]],
) -> set[str]

Load weights using AutoWeightsLoader for vLLM integration.

prepare_latents ¶

prepare_latents(
    batch_size: int,
    num_channels_vae: int,
    sample_size: int,
    dtype: dtype,
    device: device,
    generator: Generator | list[Generator] | None,
    latents: Tensor | None = None,
) -> Tensor

Prepare initial latent noise.

get_stable_audio_post_process_func ¶

get_stable_audio_post_process_func(
    od_config: OmniDiffusionConfig,
)

Create post-processing function for Stable Audio output.

Converts raw audio tensor to numpy array for saving.

vllm_omni.diffusion.models.stable_audio.pipeline_stable_audio ¶

logger module-attribute ¶

StableAudioPipeline ¶

audio_sample_rate class-attribute ¶

current_timestep property ¶

device instance-attribute ¶

do_classifier_free_guidance property ¶

guidance_scale property ¶

num_timesteps property ¶

od_config instance-attribute ¶

projection_model instance-attribute ¶

rotary_embed_dim instance-attribute ¶

scheduler instance-attribute ¶

support_audio_output class-attribute ¶

supports_request_batch class-attribute instance-attribute ¶

text_encoder instance-attribute ¶

tokenizer instance-attribute ¶

transformer instance-attribute ¶

vae instance-attribute ¶

weights_sources instance-attribute ¶