vllm_omni.diffusion.models.sensenova_u1 ¶

Modules:

Name	Description
`fused_rmsnorm_rope`
`pipeline_sensenova_u1`	SenseNova-U1 Pipeline for vLLM-Omni.
`sensenova_u1_transformer`	Qwen3 LLM with Mixture-of-Tokenizers (MoT) for SenseNova-U1.

SenseNovaU1Pipeline ¶

Bases: Module, SupportsComponentDiscovery, DiffusionPipelineProfilerMixin, CFGParallelMixin

SenseNova-U1 text-to-image and image-to-image pipeline for vllm-omni.

Builds the full model graph internally: - language_model: SenseNovaU1ForCausalLM (TP-aware) - vision_model: NEOVisionModel (understanding branch) - fm_modules: ModuleDict with vision_model_mot_gen, timestep_embedder, fm_head, etc.

img2img (image editing) is triggered when multi_modal_data["image"] is present in the prompt dict. The pipeline then uses triple KV caches (condition / img_condition / uncondition) with dual CFG (cfg_scale + img_cfg_scale).

denoising_transformer `instance-attribute` ¶

denoising_transformer = SenseNovaU1DenoisingAdapter(
    self.language_model
)

device `instance-attribute` ¶

device = get_local_device()

downsample_ratio `instance-attribute` ¶

downsample_ratio = self.top_cfg.downsample_ratio

fm_modules `instance-attribute` ¶

fm_modules = nn.ModuleDict(
    {
        "vision_model_mot_gen": vision_model_mot_gen,
        "timestep_embedder": timestep_embedder,
        "fm_head": fm_head,
    }
)

img_context_token_id `instance-attribute` ¶

img_context_token_id = self.tokenizer.convert_tokens_to_ids(
    IMG_CONTEXT_TOKEN
)

img_start_token_id `instance-attribute` ¶

img_start_token_id = self.tokenizer.convert_tokens_to_ids(
    IMG_START_TOKEN
)

language_model `instance-attribute` ¶

language_model = SenseNovaU1ForCausalLM(
    self.llm_cfg, prefix="language_model"
)

local_model_path `instance-attribute` ¶

local_model_path = _resolve_model_path(model_path)

merge_size `instance-attribute` ¶

merge_size = merge_size

od_config `instance-attribute` ¶

od_config = od_config

patch_size `instance-attribute` ¶

patch_size = patch_size

support_image_input `class-attribute` `instance-attribute` ¶

support_image_input = True

tokenizer `instance-attribute` ¶

tokenizer = AutoTokenizer.from_pretrained(
    self.local_model_path
)

transformer `instance-attribute` ¶

transformer = self.language_model.model

vision_model `instance-attribute` ¶

vision_model = NEOVisionModel(self.vis_cfg)

weights_sources `instance-attribute` ¶

weights_sources = [
    DiffusersPipelineLoader.ComponentSource(
        model_or_path=self.local_model_path,
        subfolder=None,
        revision=od_config.revision,
        prefix="",
        fall_back_to_pt=False,
    )
]

combine_cfg_noise ¶

combine_cfg_noise(
    out_cond,
    out_uncond,
    cfg_scale,
    cfg_norm,
    kwargs: dict[str, Any] | None = None,
)

combine_multi_branch_cfg_noise ¶

combine_multi_branch_cfg_noise(
    predictions, true_cfg_scale, cfg_normalize
)

forward ¶

forward(req: DiffusionRequestBatch) -> DiffusionOutput

load_weights ¶

load_weights(
    weights: Iterable[tuple[str, Tensor]],
) -> set[str]

predict_noise ¶

predict_noise(**kwargs)

get_sensenova_u1_post_process_func ¶

get_sensenova_u1_post_process_func(
    od_config: OmniDiffusionConfig,
)

vllm_omni.diffusion.models.sensenova_u1 ¶

SenseNovaU1Pipeline ¶

denoising_transformer instance-attribute ¶

device instance-attribute ¶

downsample_ratio instance-attribute ¶

fm_modules instance-attribute ¶

img_context_token_id instance-attribute ¶

img_start_token_id instance-attribute ¶

language_model instance-attribute ¶

local_model_path instance-attribute ¶

merge_size instance-attribute ¶

od_config instance-attribute ¶

patch_size instance-attribute ¶

support_image_input class-attribute instance-attribute ¶

tokenizer instance-attribute ¶

transformer instance-attribute ¶

vision_model instance-attribute ¶

weights_sources instance-attribute ¶