vllm_omni.diffusion.models.magi_human.pipeline_magi_human ¶

logger `module-attribute` ¶

logger = logging.getLogger(__name__)

EvalInput `dataclass` ¶

audio_feat_len `instance-attribute` ¶

audio_feat_len: Tensor | list[int]

audio_x_t `instance-attribute` ¶

audio_x_t: Tensor

txt_feat `instance-attribute` ¶

txt_feat: Tensor

txt_feat_len `instance-attribute` ¶

txt_feat_len: Tensor | list[int]

x_t `instance-attribute` ¶

x_t: Tensor

FlowUniPCMultistepScheduler ¶

Bases: SchedulerMixin, ConfigMixin

begin_index `property` ¶

begin_index

disable_corrector `instance-attribute` ¶

disable_corrector = disable_corrector

last_sample `instance-attribute` ¶

last_sample = None

lower_order_nums `instance-attribute` ¶

lower_order_nums = 0

model_outputs `instance-attribute` ¶

model_outputs = [None] * solver_order

num_inference_steps `instance-attribute` ¶

num_inference_steps = None

order `class-attribute` `instance-attribute` ¶

order = 1

predict_x0 `instance-attribute` ¶

predict_x0 = predict_x0

sigma_max `instance-attribute` ¶

sigma_max = self.sigmas[0].item()

sigma_min `instance-attribute` ¶

sigma_min = self.sigmas[-1].item()

sigmas `instance-attribute` ¶

sigmas = self.sigmas.to('cpu')

solver_p `instance-attribute` ¶

solver_p = solver_p

step_index `property` ¶

step_index

timestep_list `instance-attribute` ¶

timestep_list = [None] * solver_order

timesteps `instance-attribute` ¶

timesteps = sigmas * num_train_timesteps

add_noise ¶

add_noise(
    original_samples: Tensor,
    noise: Tensor,
    timesteps: IntTensor,
) -> Tensor

convert_model_output ¶

convert_model_output(
    model_output: Tensor,
    *args,
    sample: Tensor = None,
    **kwargs,
) -> Tensor

index_for_timestep ¶

index_for_timestep(timestep, schedule_timesteps=None)

multistep_uni_c_bh_update ¶

multistep_uni_c_bh_update(
    this_model_output: Tensor,
    *args,
    last_sample: Tensor = None,
    this_sample: Tensor = None,
    order: int | None = None,
    **kwargs,
) -> Tensor

multistep_uni_p_bh_update ¶

multistep_uni_p_bh_update(
    model_output: Tensor,
    *args,
    sample: Tensor | None = None,
    order: int | None = None,
    **kwargs,
) -> Tensor

scale_model_input ¶

scale_model_input(
    sample: Tensor, *args, **kwargs
) -> Tensor

set_begin_index ¶

set_begin_index(begin_index: int = 0)

set_timesteps ¶

set_timesteps(
    num_inference_steps: int | None = None,
    device: str | device = None,
    sigmas: list[float] | None = None,
    mu: float | None | None = None,
    shift: float | None | None = None,
)

step ¶

step(
    model_output: Tensor,
    timestep: int | Tensor,
    sample: Tensor,
    return_dict: bool = True,
    generator=None,
) -> SchedulerOutput | tuple

step_ddim ¶

step_ddim(
    velocity: FloatTensor,
    t: int,
    curr_state: FloatTensor,
    prev_state: FloatTensor | None = None,
    generator: Generator | None = None,
)

step_sde ¶

step_sde(
    velocity: FloatTensor,
    t: int,
    curr_state: FloatTensor,
    noise_theta: float = 1.0,
    prev_state: FloatTensor | None = None,
    generator: Generator | None = None,
)

time_shift ¶

time_shift(mu: float, sigma: float, t: Tensor)

MagiDataProxy ¶

coords_style `instance-attribute` ¶

coords_style = coords_style

frame_receptive_field `instance-attribute` ¶

frame_receptive_field = frame_receptive_field

patch_size `instance-attribute` ¶

patch_size = patch_size

ref_audio_offset `instance-attribute` ¶

ref_audio_offset = ref_audio_offset

spatial_rope_interpolation `instance-attribute` ¶

spatial_rope_interpolation = spatial_rope_interpolation

t_patch_size `instance-attribute` ¶

t_patch_size = t_patch_size

text_offset `instance-attribute` ¶

text_offset = text_offset

get_saved_data ¶

get_saved_data(key: str)

img2tokens ¶

img2tokens(x_t: Tensor)

process_input ¶

process_input(transported_data: EvalInput)

process_output ¶

process_output(x: Tensor)

saved_for_output ¶

saved_for_output(**kwargs)

MagiHumanPipeline ¶

Bases: Module, ProgressBarMixin, SupportsComponentDiscovery, DiffusionPipelineProfilerMixin

audio_txt_guidance_scale `instance-attribute` ¶

audio_txt_guidance_scale = eval_cfg.get(
    "audio_txt_guidance_scale", 5.0
)

audio_vae `instance-attribute` ¶

audio_vae = SAAudioFeatureExtractor(
    device=device,
    model_path=_resolve_subdir(
        model_path,
        "audio_vae",
        local_files_only,
        required_files=[
            "config.json",
            "model_config.json",
            "model.safetensors",
        ],
    ),
)

cfg_number `instance-attribute` ¶

cfg_number = eval_cfg.get('cfg_number', 2)

cfg_trick_start_frame `instance-attribute` ¶

cfg_trick_start_frame = eval_cfg.get(
    "cfg_trick_start_frame", 13
)

cfg_trick_value `instance-attribute` ¶

cfg_trick_value = eval_cfg.get('cfg_trick_value', 2.0)

data_proxy `instance-attribute` ¶

data_proxy = MagiDataProxy(
    patch_size=dp_cfg.get("patch_size", 2),
    t_patch_size=dp_cfg.get("t_patch_size", 1),
    frame_receptive_field=dp_cfg.get(
        "frame_receptive_field", 11
    ),
    spatial_rope_interpolation=dp_cfg.get(
        "spatial_rope_interpolation", "extra"
    ),
    ref_audio_offset=dp_cfg.get("ref_audio_offset", 1000),
    text_offset=dp_cfg.get("text_offset", 0),
    coords_style=dp_cfg.get("coords_style", "v2"),
)

device_str `instance-attribute` ¶

device_str = device

dit `instance-attribute` ¶

dit = DiTModel(dit_model_config)

dtype `instance-attribute` ¶

dtype = od_config.dtype or torch.bfloat16

fps `instance-attribute` ¶

fps = eval_cfg.get('fps', 25)

noise_value `instance-attribute` ¶

noise_value = eval_cfg.get('noise_value', 220)

num_inference_steps_default `instance-attribute` ¶

num_inference_steps_default = eval_cfg.get(
    "num_inference_steps", 32
)

patch_size `instance-attribute` ¶

patch_size = eval_cfg.get('patch_size', [1, 2, 2])

shift `instance-attribute` ¶

shift = eval_cfg.get('shift', 5.0)

sr_audio_noise_scale `instance-attribute` ¶

sr_audio_noise_scale = eval_cfg.get(
    "sr_audio_noise_scale", 0.7
)

sr_cfg_number `instance-attribute` ¶

sr_cfg_number = eval_cfg.get('sr_cfg_number', 2)

sr_data_proxy `instance-attribute` ¶

sr_data_proxy = MagiDataProxy(
    patch_size=dp_cfg.get("patch_size", 2),
    t_patch_size=dp_cfg.get("t_patch_size", 1),
    frame_receptive_field=dp_cfg.get(
        "frame_receptive_field", 11
    ),
    spatial_rope_interpolation=dp_cfg.get(
        "spatial_rope_interpolation", "extra"
    ),
    ref_audio_offset=dp_cfg.get("ref_audio_offset", 1000),
    text_offset=dp_cfg.get("text_offset", 0),
    coords_style="v1",
)

sr_dit `instance-attribute` ¶

sr_dit = DiTModel(sr_dit_model_config)

sr_num_inference_steps_default `instance-attribute` ¶

sr_num_inference_steps_default = eval_cfg.get(
    "sr_num_inference_steps", 5
)

sr_video_txt_guidance_scale `instance-attribute` ¶

sr_video_txt_guidance_scale = eval_cfg.get(
    "sr_video_txt_guidance_scale", 3.5
)

t5_gemma_target_length `instance-attribute` ¶

t5_gemma_target_length = eval_cfg.get(
    "t5_gemma_target_length", 640
)

text_encoder `instance-attribute` ¶

text_encoder = _T5GemmaEncoder(
    model_path=txt_enc_path,
    device=device,
    weight_dtype=self.dtype,
    subfolder=txt_enc_subfolder,
)

use_cfg_trick `instance-attribute` ¶

use_cfg_trick = eval_cfg.get('use_cfg_trick', True)

using_sde_flag `instance-attribute` ¶

using_sde_flag = eval_cfg.get('using_sde_flag', False)

vae `instance-attribute` ¶

vae = DistributedAutoencoderKLWan.from_pretrained(
    model_path, subfolder="vae"
)

vae_latent_mean `instance-attribute` ¶

vae_latent_mean = torch.tensor(
    vae_cfg["latents_mean"], dtype=torch.float32
)

vae_latent_std `instance-attribute` ¶

vae_latent_std = torch.tensor(
    vae_cfg["latents_std"], dtype=torch.float32
)

vae_stride `instance-attribute` ¶

vae_stride = eval_cfg.get('vae_stride', [4, 16, 16])

video_processor `instance-attribute` ¶

video_processor = VideoProcessor(vae_scale_factor=16)

video_txt_guidance_scale `instance-attribute` ¶

video_txt_guidance_scale = eval_cfg.get(
    "video_txt_guidance_scale", 5.0
)

weights_sources `instance-attribute` ¶

weights_sources = [
    DiffusersPipelineLoader.ComponentSource(
        model_or_path=model_path,
        subfolder=dit_subfolder,
        revision=None,
        prefix="dit.",
        fall_back_to_pt=True,
    ),
    DiffusersPipelineLoader.ComponentSource(
        model_or_path=model_path,
        subfolder=sr_dit_subfolder,
        revision=None,
        prefix="sr_dit.",
        fall_back_to_pt=True,
    ),
]

z_dim `instance-attribute` ¶

z_dim = eval_cfg.get('z_dim', 48)

zerosnr_sigmas `instance-attribute` ¶

zerosnr_sigmas = ZeroSNRDDPMDiscretization()(
    1000, do_append_zero=False, flip=True
)

encode_prompt ¶

encode_prompt(
    prompt: str, target_length: int | None = None
) -> tuple[Tensor, int]

Encode prompt with the T5-Gemma text encoder and pad to fixed length.

This is the single text-encoder entrypoint so the runner-level prompt-embedding cache (see vllm_omni/diffusion/cache/prompt_embed_cache.py) can transparently memoize results when the same prompt is submitted repeatedly.

Returns:

Type	Description
`Tensor`	`(context, original_context_len)` matching
`int`	func:`_get_padded_t5_gemma_embedding`.

forward ¶

forward(
    req: DiffusionRequestBatch,
    prompt: str | None = None,
    height: int = 256,
    width: int = 448,
    num_inference_steps: int | None = None,
    seconds: int = 10,
    seed: int | None = None,
    image_path: str | None = None,
    audio_path: str | None = None,
    **kwargs,
) -> DiffusionOutput

load_weights ¶

load_weights(
    weights: Iterable[tuple[str, Tensor]],
) -> set[str]

SAAudioFeatureExtractor ¶

device `instance-attribute` ¶

device = device

resampler `instance-attribute` ¶

resampler = None

decode ¶

decode(latents)

encode ¶

encode(waveform)

ZeroSNRDDPMDiscretization ¶

ZeroSNR DDPM sigma schedule, ported from daVinci-MagiHuman. Used to compute sigma values for SR noise injection.

alphas_cumprod `instance-attribute` ¶

alphas_cumprod = np.cumprod(alphas, axis=0)

num_timesteps `instance-attribute` ¶

num_timesteps = num_timesteps

post_shift `instance-attribute` ¶

post_shift = post_shift

shift_scale `instance-attribute` ¶

shift_scale = shift_scale

to_torch `instance-attribute` ¶

to_torch = partial(torch.tensor, dtype=torch.float32)

get_magi_human_post_process_func ¶

get_magi_human_post_process_func(*args, **kwargs)

get_magi_human_pre_process_func ¶

get_magi_human_pre_process_func(*args, **kwargs)

load_audio_and_encode ¶

load_audio_and_encode(
    audio_vae, audio_path: str, seconds: int | None = None
) -> Tensor

Load audio from file and encode to latent space using the Stable Audio VAE.

vllm_omni.diffusion.models.magi_human.pipeline_magi_human ¶

logger module-attribute ¶

EvalInput dataclass ¶

audio_feat_len instance-attribute ¶

audio_x_t instance-attribute ¶

txt_feat instance-attribute ¶

txt_feat_len instance-attribute ¶

x_t instance-attribute ¶

FlowUniPCMultistepScheduler ¶

begin_index property ¶

disable_corrector instance-attribute ¶

last_sample instance-attribute ¶

lower_order_nums instance-attribute ¶

model_outputs instance-attribute ¶

num_inference_steps instance-attribute ¶

order class-attribute instance-attribute ¶

predict_x0 instance-attribute ¶

sigma_max instance-attribute ¶

sigma_min instance-attribute ¶

sigmas instance-attribute ¶

solver_p instance-attribute ¶

step_index property ¶

timestep_list instance-attribute ¶

timesteps instance-attribute ¶

add_noise ¶

convert_model_output ¶

index_for_timestep ¶

multistep_uni_c_bh_update ¶

multistep_uni_p_bh_update ¶

scale_model_input ¶

set_begin_index ¶

set_timesteps ¶

step ¶

step_ddim ¶

step_sde ¶

time_shift ¶

MagiDataProxy ¶

coords_style instance-attribute ¶

frame_receptive_field instance-attribute ¶

patch_size instance-attribute ¶

ref_audio_offset instance-attribute ¶

spatial_rope_interpolation instance-attribute ¶

t_patch_size instance-attribute ¶

text_offset instance-attribute ¶

get_saved_data ¶

img2tokens ¶

process_input ¶

process_output ¶

saved_for_output ¶

MagiHumanPipeline ¶

audio_txt_guidance_scale instance-attribute ¶

audio_vae instance-attribute ¶

cfg_number instance-attribute ¶

cfg_trick_start_frame instance-attribute ¶

cfg_trick_value instance-attribute ¶

data_proxy instance-attribute ¶

device_str instance-attribute ¶

dit instance-attribute ¶

dtype instance-attribute ¶

fps instance-attribute ¶

noise_value instance-attribute ¶

num_inference_steps_default instance-attribute ¶

patch_size instance-attribute ¶

shift instance-attribute ¶

sr_audio_noise_scale instance-attribute ¶

sr_cfg_number instance-attribute ¶

sr_data_proxy instance-attribute ¶

sr_dit instance-attribute ¶

sr_num_inference_steps_default instance-attribute ¶

sr_video_txt_guidance_scale instance-attribute ¶

t5_gemma_target_length instance-attribute ¶

text_encoder instance-attribute ¶

use_cfg_trick instance-attribute ¶

using_sde_flag instance-attribute ¶

vae instance-attribute ¶

vae_latent_mean instance-attribute ¶

vae_latent_std instance-attribute ¶

vae_stride instance-attribute ¶

video_processor instance-attribute ¶

video_txt_guidance_scale instance-attribute ¶

logger `module-attribute` ¶

EvalInput `dataclass` ¶

audio_feat_len `instance-attribute` ¶

audio_x_t `instance-attribute` ¶

txt_feat `instance-attribute` ¶

txt_feat_len `instance-attribute` ¶

x_t `instance-attribute` ¶

begin_index `property` ¶

disable_corrector `instance-attribute` ¶

last_sample `instance-attribute` ¶

lower_order_nums `instance-attribute` ¶

model_outputs `instance-attribute` ¶

num_inference_steps `instance-attribute` ¶

order `class-attribute` `instance-attribute` ¶

predict_x0 `instance-attribute` ¶

sigma_max `instance-attribute` ¶

sigma_min `instance-attribute` ¶

sigmas `instance-attribute` ¶

solver_p `instance-attribute` ¶

step_index `property` ¶

timestep_list `instance-attribute` ¶

timesteps `instance-attribute` ¶

coords_style `instance-attribute` ¶

frame_receptive_field `instance-attribute` ¶

patch_size `instance-attribute` ¶

ref_audio_offset `instance-attribute` ¶

spatial_rope_interpolation `instance-attribute` ¶

t_patch_size `instance-attribute` ¶

text_offset `instance-attribute` ¶

audio_txt_guidance_scale `instance-attribute` ¶

audio_vae `instance-attribute` ¶

cfg_number `instance-attribute` ¶

cfg_trick_start_frame `instance-attribute` ¶

cfg_trick_value `instance-attribute` ¶

data_proxy `instance-attribute` ¶

device_str `instance-attribute` ¶

dit `instance-attribute` ¶

dtype `instance-attribute` ¶

fps `instance-attribute` ¶

noise_value `instance-attribute` ¶

num_inference_steps_default `instance-attribute` ¶

patch_size `instance-attribute` ¶

shift `instance-attribute` ¶

sr_audio_noise_scale `instance-attribute` ¶

sr_cfg_number `instance-attribute` ¶

sr_data_proxy `instance-attribute` ¶

sr_dit `instance-attribute` ¶

sr_num_inference_steps_default `instance-attribute` ¶

sr_video_txt_guidance_scale `instance-attribute` ¶

t5_gemma_target_length `instance-attribute` ¶

text_encoder `instance-attribute` ¶

use_cfg_trick `instance-attribute` ¶

using_sde_flag `instance-attribute` ¶

vae `instance-attribute` ¶

vae_latent_mean `instance-attribute` ¶

vae_latent_std `instance-attribute` ¶

vae_stride `instance-attribute` ¶

video_processor `instance-attribute` ¶

video_txt_guidance_scale `instance-attribute` ¶

weights_sources `instance-attribute` ¶

z_dim `instance-attribute` ¶

zerosnr_sigmas `instance-attribute` ¶

device `instance-attribute` ¶

resampler `instance-attribute` ¶

alphas_cumprod `instance-attribute` ¶

num_timesteps `instance-attribute` ¶

post_shift `instance-attribute` ¶

shift_scale `instance-attribute` ¶

to_torch `instance-attribute` ¶