vllm_omni.diffusion.models.sensenova_u1.pipeline_sensenova_u1 ¶

SenseNova-U1 Pipeline for vLLM-Omni.

SenseNova-U1 is a unified Qwen3-based model that uses Mixture-of-Tokenizers (MoT) attention for text-to-image generation via flow matching in patch space. It has no separate VAE or text encoder — the Qwen3 LLM itself serves as both the text encoder (via KV cache) and the denoising backbone (via MoT branches).

Key integration points: - Transformer layers ported with TP support (QKVParallelLinear, MergedColumnParallelLinear, RowParallelLinear) in sensenova_u1_transformer.py. - Vision model (NEOVisionModel) and FM modules kept as standard nn.Module since they are lightweight (no transformer blocks). - Weight loading uses stacked_params_mapping for fused QKV and gate_up.

IMAGENET_MEAN `module-attribute` ¶

IMAGENET_MEAN = (0.485, 0.456, 0.406)

IMAGENET_STD `module-attribute` ¶

IMAGENET_STD = (0.229, 0.224, 0.225)

IMG_CONTEXT_TOKEN `module-attribute` ¶

IMG_CONTEXT_TOKEN = '<IMG_CONTEXT>'

IMG_END_TOKEN `module-attribute` ¶

IMG_END_TOKEN = '</img>'

IMG_START_TOKEN `module-attribute` ¶

IMG_START_TOKEN = '<img>'

NORM_MEAN `module-attribute` ¶

NORM_MEAN = (0.5, 0.5, 0.5)

NORM_STD `module-attribute` ¶

NORM_STD = (0.5, 0.5, 0.5)

SYSTEM_MESSAGE_FOR_GEN `module-attribute` ¶

SYSTEM_MESSAGE_FOR_GEN = "You are an image generation and editing assistant that accurately understands and executes user intent.\n\nYou support two modes:\n\n1. Think Mode:\nIf the task requires reasoning, you MUST start with a <think></think> block. Put all reasoning inside the block using plain text. DO NOT include any image tags. Keep it reasonable and directly useful for producing the final image.\n\n2. Non-Think Mode:\nIf no reasoning is needed, directly produce the final image.\n\nTask Types:\n\nA. Text-to-Image Generation:\n- Generate a high-quality image based on the user's description.\n- Ensure visual clarity, semantic consistency, and completeness.\n- DO NOT introduce elements that contradict or override the user's intent.\n\nB. Image Editing:\n- Use the provided image(s) as input or reference for modification or transformation.\n- The result can be an edited image or a new image based on the reference(s).\n- Preserve all unspecified attributes unless explicitly changed.\n\nGeneral Rules:\n- For any visible text in the image, follow the language specified for the rendered text in the user's description, not the language of the prompt. If no language is specified, use the user's input language."

logger `module-attribute` ¶

logger = init_logger(__name__)

ConvDecoder ¶

Bases: Module

act1 `instance-attribute` ¶

act1 = nn.GELU()

conv1 `instance-attribute` ¶

conv1 = nn.Conv2d(
    input_dim // 4, hidden_dim, kernel_size=3, padding=1
)

conv2 `instance-attribute` ¶

conv2 = nn.Conv2d(
    hidden_dim // 4, 192, kernel_size=3, padding=1
)

ps1 `instance-attribute` ¶

ps1 = nn.PixelShuffle(2)

ps2 `instance-attribute` ¶

ps2 = nn.PixelShuffle(2)

ps3 `instance-attribute` ¶

ps3 = nn.PixelShuffle(8)

forward ¶

forward(x)

NEOVisionEmbeddings ¶

Bases: Module

config `instance-attribute` ¶

config = config

dense_embedding `instance-attribute` ¶

dense_embedding = nn.Conv2d(
    self.embed_dim,
    self.llm_embed_dim,
    kernel_size=self.downsample_factor,
    stride=self.downsample_factor,
)

downsample_factor `instance-attribute` ¶

downsample_factor = int(1 / ds_ratio)

embed_dim `instance-attribute` ¶

embed_dim = config.hidden_size

gelu `instance-attribute` ¶

gelu = nn.GELU()

llm_embed_dim `instance-attribute` ¶

llm_embed_dim = llm_hidden

patch_embedding `instance-attribute` ¶

patch_embedding = nn.Conv2d(
    config.num_channels,
    self.embed_dim,
    kernel_size=self.patch_size,
    stride=self.patch_size,
)

patch_size `instance-attribute` ¶

patch_size = config.patch_size

forward ¶

forward(pixel_values, grid_hw=None)

NEOVisionModel ¶

Bases: Module

embeddings `instance-attribute` ¶

embeddings = NEOVisionEmbeddings(config)

forward ¶

forward(pixel_values=None, grid_hw=None, **_kwargs)

SenseNovaU1DenoisingAdapter ¶

Bases: Module

Denoising-only entry point used by cache backends.

do_true_cfg `instance-attribute` ¶

do_true_cfg = True

lm_head `property` ¶

lm_head

logits_processor `property` ¶

logits_processor

model `property` ¶

model

forward ¶

forward(*args, **kwargs)

SenseNovaU1Pipeline ¶

Bases: Module, SupportsComponentDiscovery, DiffusionPipelineProfilerMixin, CFGParallelMixin

SenseNova-U1 text-to-image and image-to-image pipeline for vllm-omni.

Builds the full model graph internally: - language_model: SenseNovaU1ForCausalLM (TP-aware) - vision_model: NEOVisionModel (understanding branch) - fm_modules: ModuleDict with vision_model_mot_gen, timestep_embedder, fm_head, etc.

img2img (image editing) is triggered when multi_modal_data["image"] is present in the prompt dict. The pipeline then uses triple KV caches (condition / img_condition / uncondition) with dual CFG (cfg_scale + img_cfg_scale).

denoising_transformer `instance-attribute` ¶

denoising_transformer = SenseNovaU1DenoisingAdapter(
    self.language_model
)

device `instance-attribute` ¶

device = get_local_device()

downsample_ratio `instance-attribute` ¶

downsample_ratio = self.top_cfg.downsample_ratio

fm_modules `instance-attribute` ¶

fm_modules = nn.ModuleDict(
    {
        "vision_model_mot_gen": vision_model_mot_gen,
        "timestep_embedder": timestep_embedder,
        "fm_head": fm_head,
    }
)

img_context_token_id `instance-attribute` ¶

img_context_token_id = self.tokenizer.convert_tokens_to_ids(
    IMG_CONTEXT_TOKEN
)

img_start_token_id `instance-attribute` ¶

img_start_token_id = self.tokenizer.convert_tokens_to_ids(
    IMG_START_TOKEN
)

language_model `instance-attribute` ¶

language_model = SenseNovaU1ForCausalLM(
    self.llm_cfg, prefix="language_model"
)

local_model_path `instance-attribute` ¶

local_model_path = _resolve_model_path(model_path)

merge_size `instance-attribute` ¶

merge_size = merge_size

od_config `instance-attribute` ¶

od_config = od_config

patch_size `instance-attribute` ¶

patch_size = patch_size

support_image_input `class-attribute` `instance-attribute` ¶

support_image_input = True

tokenizer `instance-attribute` ¶

tokenizer = AutoTokenizer.from_pretrained(
    self.local_model_path
)

transformer `instance-attribute` ¶

transformer = self.language_model.model

vision_model `instance-attribute` ¶

vision_model = NEOVisionModel(self.vis_cfg)

weights_sources `instance-attribute` ¶

weights_sources = [
    DiffusersPipelineLoader.ComponentSource(
        model_or_path=self.local_model_path,
        subfolder=None,
        revision=od_config.revision,
        prefix="",
        fall_back_to_pt=False,
    )
]

combine_cfg_noise ¶

combine_cfg_noise(
    out_cond,
    out_uncond,
    cfg_scale,
    cfg_norm,
    kwargs: dict[str, Any] | None = None,
)

combine_multi_branch_cfg_noise ¶

combine_multi_branch_cfg_noise(
    predictions, true_cfg_scale, cfg_normalize
)

forward ¶

forward(req: DiffusionRequestBatch) -> DiffusionOutput

load_weights ¶

load_weights(
    weights: Iterable[tuple[str, Tensor]],
) -> set[str]

predict_noise ¶

predict_noise(**kwargs)

TimestepEmbedder ¶

Bases: Module

frequency_embedding_size `instance-attribute` ¶

frequency_embedding_size = frequency_embedding_size

mlp `instance-attribute` ¶

mlp = nn.Sequential(
    nn.Linear(
        frequency_embedding_size, hidden_size, bias=True
    ),
    nn.SiLU(),
    nn.Linear(hidden_size, hidden_size, bias=True),
)

forward ¶

forward(t)

timestep_embedding `staticmethod` ¶

timestep_embedding(t, dim, max_period=10000.0)

get_sensenova_u1_post_process_func ¶

get_sensenova_u1_post_process_func(
    od_config: OmniDiffusionConfig,
)

vllm_omni.diffusion.models.sensenova_u1.pipeline_sensenova_u1 ¶

IMAGENET_MEAN module-attribute ¶

IMAGENET_STD module-attribute ¶

IMG_CONTEXT_TOKEN module-attribute ¶

IMG_END_TOKEN module-attribute ¶

IMG_START_TOKEN module-attribute ¶

NORM_MEAN module-attribute ¶

NORM_STD module-attribute ¶

SYSTEM_MESSAGE_FOR_GEN module-attribute ¶

logger module-attribute ¶

ConvDecoder ¶

act1 instance-attribute ¶

conv1 instance-attribute ¶

conv2 instance-attribute ¶

ps1 instance-attribute ¶

ps2 instance-attribute ¶

ps3 instance-attribute ¶

forward ¶

NEOVisionEmbeddings ¶

config instance-attribute ¶

dense_embedding instance-attribute ¶

downsample_factor instance-attribute ¶

embed_dim instance-attribute ¶

gelu instance-attribute ¶

llm_embed_dim instance-attribute ¶

patch_embedding instance-attribute ¶

patch_size instance-attribute ¶

forward ¶

NEOVisionModel ¶

embeddings instance-attribute ¶

forward ¶

SenseNovaU1DenoisingAdapter ¶

do_true_cfg instance-attribute ¶

lm_head property ¶

logits_processor property ¶

model property ¶

forward ¶

SenseNovaU1Pipeline ¶

denoising_transformer instance-attribute ¶

device instance-attribute ¶

downsample_ratio instance-attribute ¶

fm_modules instance-attribute ¶

img_context_token_id instance-attribute ¶

img_start_token_id instance-attribute ¶

language_model instance-attribute ¶

local_model_path instance-attribute ¶

merge_size instance-attribute ¶

od_config instance-attribute ¶

patch_size instance-attribute ¶

support_image_input class-attribute instance-attribute ¶

tokenizer instance-attribute ¶

transformer instance-attribute ¶

vision_model instance-attribute ¶

weights_sources instance-attribute ¶

combine_cfg_noise ¶

combine_multi_branch_cfg_noise ¶

forward ¶

load_weights ¶

predict_noise ¶

TimestepEmbedder ¶

frequency_embedding_size instance-attribute ¶

mlp instance-attribute ¶

forward ¶

timestep_embedding staticmethod ¶

get_sensenova_u1_post_process_func ¶

IMAGENET_MEAN `module-attribute` ¶

IMAGENET_STD `module-attribute` ¶

IMG_CONTEXT_TOKEN `module-attribute` ¶

IMG_END_TOKEN `module-attribute` ¶

IMG_START_TOKEN `module-attribute` ¶

NORM_MEAN `module-attribute` ¶

NORM_STD `module-attribute` ¶

SYSTEM_MESSAGE_FOR_GEN `module-attribute` ¶

logger `module-attribute` ¶

act1 `instance-attribute` ¶

conv1 `instance-attribute` ¶

conv2 `instance-attribute` ¶

ps1 `instance-attribute` ¶

ps2 `instance-attribute` ¶

ps3 `instance-attribute` ¶

config `instance-attribute` ¶

dense_embedding `instance-attribute` ¶

downsample_factor `instance-attribute` ¶

embed_dim `instance-attribute` ¶

gelu `instance-attribute` ¶

llm_embed_dim `instance-attribute` ¶

patch_embedding `instance-attribute` ¶

patch_size `instance-attribute` ¶

embeddings `instance-attribute` ¶

do_true_cfg `instance-attribute` ¶

lm_head `property` ¶

logits_processor `property` ¶

model `property` ¶

denoising_transformer `instance-attribute` ¶

device `instance-attribute` ¶

downsample_ratio `instance-attribute` ¶

fm_modules `instance-attribute` ¶

img_context_token_id `instance-attribute` ¶

img_start_token_id `instance-attribute` ¶

language_model `instance-attribute` ¶

local_model_path `instance-attribute` ¶

merge_size `instance-attribute` ¶

od_config `instance-attribute` ¶

patch_size `instance-attribute` ¶

support_image_input `class-attribute` `instance-attribute` ¶

tokenizer `instance-attribute` ¶

transformer `instance-attribute` ¶

vision_model `instance-attribute` ¶

weights_sources `instance-attribute` ¶

frequency_embedding_size `instance-attribute` ¶

mlp `instance-attribute` ¶

timestep_embedding `staticmethod` ¶