Skip to content

vLLM Hardware Plugin for Intel® Gaudi®

qwen3_vl_moe

vllm_gaudi.models.qwen3_vl_moe ¶

HpuQwen3_VLMoeForConditionalGeneration ¶

Bases: Qwen3VLMoeForConditionalGeneration

Source code in vllm_gaudi/models/qwen3_vl_moe.py

class HpuQwen3_VLMoeForConditionalGeneration(Qwen3VLMoeForConditionalGeneration):

    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
        super().__init__(vllm_config=vllm_config, prefix=prefix)

        quant_config = getattr(self, "quant_config", None)
        multimodal_config = getattr(vllm_config.model_config, "multimodal_config", None)

        if hasattr(self, "visual") and self.visual is not None:
            self.visual = HPUQwen3_VisionTransformer(
                self.config.vision_config,
                norm_eps=getattr(self.config, "rms_norm_eps", 1e-6),
                quant_config=quant_config,
                multimodal_config=multimodal_config,
                prefix=maybe_prefix(prefix, "visual"),
            )

        # qwen3 moe mlp blocks: make forward for 3d safe (b,s,h -> t,h)
        lm = getattr(self, "language_model", None)
        if lm is not None:
            _n = upgrade_qwen3_moe_blocks_inplace(lm)

    def _compute_deepstack_embeds(self, *args, **kwargs):
        return HpuQwen3_VLForConditionalGeneration._compute_deepstack_embeds(self, *args, **kwargs)

    def embed_input_ids(self, *args, **kwargs):
        return HpuQwen3_VLForConditionalGeneration.embed_input_ids(self, *args, **kwargs)

visual `instance-attribute` ¶

visual = HPUQwen3_VisionTransformer(
    vision_config,
    norm_eps=getattr(config, "rms_norm_eps", 1e-06),
    quant_config=quant_config,
    multimodal_config=multimodal_config,
    prefix=maybe_prefix(prefix, "visual"),
)

init ¶

__init__(*, vllm_config: VllmConfig, prefix: str = '')

Source code in vllm_gaudi/models/qwen3_vl_moe.py

def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
    super().__init__(vllm_config=vllm_config, prefix=prefix)

    quant_config = getattr(self, "quant_config", None)
    multimodal_config = getattr(vllm_config.model_config, "multimodal_config", None)

    if hasattr(self, "visual") and self.visual is not None:
        self.visual = HPUQwen3_VisionTransformer(
            self.config.vision_config,
            norm_eps=getattr(self.config, "rms_norm_eps", 1e-6),
            quant_config=quant_config,
            multimodal_config=multimodal_config,
            prefix=maybe_prefix(prefix, "visual"),
        )

    # qwen3 moe mlp blocks: make forward for 3d safe (b,s,h -> t,h)
    lm = getattr(self, "language_model", None)
    if lm is not None:
        _n = upgrade_qwen3_moe_blocks_inplace(lm)

_compute_deepstack_embeds ¶

_compute_deepstack_embeds(*args, **kwargs)

Source code in vllm_gaudi/models/qwen3_vl_moe.py

def _compute_deepstack_embeds(self, *args, **kwargs):
    return HpuQwen3_VLForConditionalGeneration._compute_deepstack_embeds(self, *args, **kwargs)

embed_input_ids ¶

embed_input_ids(*args, **kwargs)

Source code in vllm_gaudi/models/qwen3_vl_moe.py

def embed_input_ids(self, *args, **kwargs):
    return HpuQwen3_VLForConditionalGeneration.embed_input_ids(self, *args, **kwargs)