`vllm.entrypoints.serve.render.serving` ¶

Classes:

OpenAIServingRender –

`OpenAIServingRender` ¶

Methods:

derender_chat_response –

Postprocess a GenerateResponse into a ChatCompletionResponse.
derender_completion_response –

Postprocess a list of GenerateResponses into a CompletionResponse.
preprocess_chat –

Copied from OpenAIServing._preprocess_chat.
preprocess_cmpl –

Copied from OpenAIServing._preprocess_cmpl.
preprocess_completion –

Copied from OpenAIServing._preprocess_completion.
render_chat –

Core preprocessing logic for chat requests (no model/engine check).
render_chat_request –

Validate the model and preprocess a chat completion request.
render_completion –

Core preprocessing logic for completion requests (no model/engine check).
render_completion_request –

Validate the model and preprocess a completion request.
validate_chat_template –

Copied from OpenAIServing._validate_chat_template.

Source code in vllm/entrypoints/serve/render/serving.py

class OpenAIServingRender:
    def __init__(
        self,
        model_config: ModelConfig,
        renderer: BaseRenderer,
        model_registry: OpenAIModelRegistry,
        *,
        request_logger: RequestLogger | None,
        chat_template: str | None,
        chat_template_content_format: ChatTemplateContentFormatOption,
        trust_request_chat_template: bool = False,
        enable_auto_tools: bool = False,
        exclude_tools_when_tool_choice_none: bool = False,
        tool_parser: str | None = None,
        reasoning_parser: str | None = None,
        default_chat_template_kwargs: dict[str, Any] | None = None,
        log_error_stack: bool = False,
    ) -> None:
        self.model_config = model_config
        self.renderer = renderer
        self.model_registry = model_registry
        self.request_logger = request_logger
        self.chat_template = chat_template
        self.chat_template_content_format: ChatTemplateContentFormatOption = (
            chat_template_content_format
        )
        self.trust_request_chat_template = trust_request_chat_template
        self.enable_auto_tools = enable_auto_tools
        self.exclude_tools_when_tool_choice_none = exclude_tools_when_tool_choice_none
        self.parser: type[Parser] | None = ParserManager.get_parser(
            tool_parser_name=tool_parser,
            reasoning_parser_name=reasoning_parser,
            enable_auto_tools=enable_auto_tools,
            model_name=model_config.model,
        )
        self.default_chat_template_kwargs: dict[str, Any] = (
            default_chat_template_kwargs or {}
        )
        self.log_error_stack = log_error_stack
        self.use_harmony = model_config.hf_config.model_type == "gpt_oss"
        self.supports_browsing = False
        self.supports_code_interpreter = False

        self.default_sampling_params = model_config.get_diff_sampling_param()
        mc = model_config
        self.override_max_tokens = (
            self.default_sampling_params.get("max_tokens")
            if mc.generation_config not in ("auto", "vllm")
            else getattr(mc, "override_generation_config", {}).get("max_new_tokens")
        )

    async def render_chat_request(
        self,
        request: ChatCompletionRequest,
    ) -> GenerateRequest | ErrorResponse:
        """Validate the model and preprocess a chat completion request.

        This is the authoritative implementation used directly by the
        GPU-less render server and delegated to by OpenAIServingChat.
        """
        error_check_ret = await self._check_model(request)
        if error_check_ret is not None:
            logger.error("Error with model %s", error_check_ret)
            return error_check_ret

        if request.use_beam_search:
            return self.create_error_response(
                "Beam search is not supported by the render endpoint"
            )

        result = await self.render_chat(request, skip_mm_cache=True)
        if isinstance(result, ErrorResponse):
            return result

        _, engine_inputs = result

        if len(engine_inputs) != 1:
            return self.create_error_response(
                f"Expected exactly 1 engine prompt, got {len(engine_inputs)}"
            )

        engine_input = engine_inputs[0]

        prompt_components = extract_prompt_components(self.model_config, engine_input)
        token_ids = prompt_components.token_ids
        if not token_ids:
            return self.create_error_response("No token_ids rendered")
        token_ids = list(token_ids)

        input_length = extract_prompt_len(self.model_config, engine_input)
        max_tokens = get_max_tokens(
            self.model_config.max_model_len,
            request.max_completion_tokens
            if request.max_completion_tokens is not None
            else request.max_tokens,
            input_length,
            self.default_sampling_params,
            self.override_max_tokens,
            truncate_prompt_tokens=request.truncate_prompt_tokens,
        )
        params = request.to_sampling_params(max_tokens, self.default_sampling_params)

        request_id = f"chatcmpl-{random_uuid()}"

        return GenerateRequest(
            request_id=request_id,
            token_ids=token_ids,
            features=self._extract_mm_features(engine_input),
            sampling_params=params,
            model=request.model,
            stream=bool(request.stream),
            stream_options=(request.stream_options if request.stream else None),
            cache_salt=request.cache_salt,
            priority=request.priority,
        )

    async def render_chat(
        self,
        request: ChatCompletionRequest,
        *,
        skip_mm_cache: bool = False,
    ) -> tuple[list[ConversationMessage], list[EngineInput]] | ErrorResponse:
        """Core preprocessing logic for chat requests (no model/engine check).

        Called directly by render_chat_request and delegated to by
        OpenAIServingChat.render_chat_request after its engine-aware checks.
        """
        tokenizer = self.renderer.tokenizer

        tool_parser = self.parser.tool_parser_cls if self.parser is not None else None

        if is_mistral_tokenizer(tokenizer):
            # because of issues with pydantic we need to potentially
            # re-serialize the tool_calls field of the request
            _mt.maybe_serialize_tool_calls(request)  # type: ignore[arg-type]
            _mt.truncate_tool_call_ids(request)  # type: ignore[arg-type]
            _mt.validate_request_params(request)

        # Check if tool parsing is unavailable (common condition)
        tool_parsing_unavailable = (
            tool_parser is None
            and not is_mistral_tokenizer(tokenizer)
            and not self.use_harmony
        )

        # Validate tool_choice when tool parsing is required but unavailable
        if tool_parsing_unavailable and request.tool_choice not in (
            None,
            "none",
        ):
            if request.tool_choice == "auto" and not self.enable_auto_tools:
                # for hf tokenizers, "auto" tools requires
                # --enable-auto-tool-choice and --tool-call-parser
                return self.create_error_response(
                    '"auto" tool choice requires '
                    "--enable-auto-tool-choice and --tool-call-parser to be set"
                )
            elif request.tool_choice != "auto":
                # "required" or named tool requires tool parser
                return self.create_error_response(
                    f'tool_choice="{request.tool_choice}" requires '
                    "--tool-call-parser to be set"
                )

        if request.tools is None or (
            request.tool_choice == "none" and self.exclude_tools_when_tool_choice_none
        ):
            tool_dicts = None
        else:
            tool_dicts = [tool.model_dump() for tool in request.tools]

        if not self.use_harmony:
            # Common case.
            error_check_ret = self.validate_chat_template(
                request_chat_template=request.chat_template,
                chat_template_kwargs=request.chat_template_kwargs,
                trust_request_chat_template=self.trust_request_chat_template,
            )
            if error_check_ret is not None:
                return error_check_ret

            conversation, engine_inputs = await self.preprocess_chat(
                request,
                request.messages,
                default_template=self.chat_template,
                default_template_content_format=self.chat_template_content_format,
                default_template_kwargs=self.default_chat_template_kwargs,
                tool_dicts=tool_dicts,
                parser=self.parser,
                skip_mm_cache=skip_mm_cache,
            )
        else:
            # For GPT-OSS.
            should_include_tools = tool_dicts is not None
            conversation, engine_inputs = self._make_request_with_harmony(
                request, should_include_tools
            )

        return conversation, engine_inputs

    async def render_completion_request(
        self,
        request: CompletionRequest,
    ) -> list[GenerateRequest] | ErrorResponse:
        """Validate the model and preprocess a completion request.

        This is the authoritative implementation used directly by the
        GPU-less render server and delegated to by OpenAIServingCompletion.
        """
        error_check_ret = await self._check_model(request)
        if error_check_ret is not None:
            return error_check_ret
        result = await self.render_completion(request, skip_mm_cache=True)
        if isinstance(result, ErrorResponse):
            return result
        generate_requests: list[GenerateRequest] = []
        for engine_input in result:
            prompt_components = extract_prompt_components(
                self.model_config, engine_input
            )
            token_ids = prompt_components.token_ids
            if not token_ids:
                return self.create_error_response("No token_ids rendered")
            token_ids = list(token_ids)

            input_length = extract_prompt_len(self.model_config, engine_input)
            max_tokens = get_max_tokens(
                self.model_config.max_model_len,
                request.max_tokens,
                input_length,
                self.default_sampling_params,
                self.override_max_tokens,
                truncate_prompt_tokens=request.truncate_prompt_tokens,
            )
            params = request.to_sampling_params(
                max_tokens, self.default_sampling_params
            )

            request_id = f"cmpl-{random_uuid()}"

            generate_requests.append(
                GenerateRequest(
                    request_id=request_id,
                    token_ids=token_ids,
                    features=self._extract_mm_features(engine_input),
                    sampling_params=params,
                    model=request.model,
                    stream=bool(request.stream),
                    stream_options=(request.stream_options if request.stream else None),
                    cache_salt=request.cache_salt,
                    priority=request.priority,
                )
            )

        return generate_requests

    async def render_completion(
        self,
        request: CompletionRequest,
        *,
        skip_mm_cache: bool = False,
    ) -> list[EngineInput] | ErrorResponse:
        """Core preprocessing logic for completion requests (no model/engine check).

        Called directly by render_completion_request and delegated to by
        OpenAIServingCompletion.render_completion_request after its engine-aware checks.
        """
        # Return error for unsupported features.
        if request.suffix is not None:
            return self.create_error_response("suffix is not currently supported")

        if request.echo and request.prompt_embeds is not None:
            return self.create_error_response("Echo is unsupported with prompt embeds.")

        if request.prompt_logprobs is not None and request.prompt_embeds is not None:
            return self.create_error_response(
                "prompt_logprobs is not compatible with prompt embeds."
            )

        engine_inputs = await self.preprocess_completion(
            request,
            prompt_input=request.prompt,
            prompt_embeds=request.prompt_embeds,
            skip_mm_cache=skip_mm_cache,
        )

        return engine_inputs

    @staticmethod
    def _extract_mm_features(
        engine_input: EngineInput,
    ) -> MultiModalFeatures | None:
        """Extract multimodal metadata from a rendered engine prompt.

        Returns ``None`` for text-only prompts.
        """
        if engine_input.get("type") != "multimodal":
            return None

        # At this point engine_input is a MultiModalInput TypedDict.
        mm_engine_input = cast(MultiModalInput, engine_input)
        mm_hashes: MultiModalHashes = mm_engine_input["mm_hashes"]
        raw_placeholders: MultiModalPlaceholders = mm_engine_input["mm_placeholders"]

        mm_placeholders = {
            modality: [
                PlaceholderRangeInfo(offset=p.offset, length=p.length) for p in ranges
            ]
            for modality, ranges in raw_placeholders.items()
        }

        # Serialize tensor data per modality.
        kwargs_data: dict[str, list[str | None]] | None = None
        if raw_mm_kwargs := mm_engine_input.get("mm_kwargs"):
            kwargs_data = {}
            for modality, items in raw_mm_kwargs.items():
                kwargs_data[modality] = [
                    encode_mm_kwargs_item(item) if item is not None else None
                    for item in items
                ]

        return MultiModalFeatures(
            mm_hashes=mm_hashes,
            mm_placeholders=mm_placeholders,
            kwargs_data=kwargs_data,
        )

    def _make_request_with_harmony(
        self,
        request: ChatCompletionRequest,
        should_include_tools: bool = True,
    ):
        """Build Harmony (GPT-OSS) messages and engine prompt from a chat request."""
        messages: list[OpenAIMessage] = []

        # because of issues with pydantic we need to potentially
        # re-serialize the tool_calls field of the request
        # for more info: see comment in `maybe_serialize_tool_calls`
        _mt.maybe_serialize_tool_calls(request)  # type: ignore[arg-type]

        chat_messages = list(request.messages)
        instructions, chat_messages = extract_instructions_from_messages(chat_messages)

        # Add system message.
        # NOTE: In Chat Completion API, browsing is enabled by default
        # if the model supports it. TODO: Support browsing.
        assert not self.supports_browsing
        assert not self.supports_code_interpreter
        if (reasoning_effort := request.reasoning_effort) == "none":
            raise ValueError(f"Harmony does not support {reasoning_effort=}")
        tools = request.tools if should_include_tools else None
        messages.extend(
            build_harmony_preamble(
                instructions=instructions,
                tools=tools,  # type: ignore[arg-type]
                reasoning_effort=reasoning_effort,
                with_custom_tools=should_include_tools,
            )
        )

        # Add remaining conversation messages.
        messages.extend(parse_chat_inputs_to_harmony_messages(chat_messages))

        # Render prompt token ids.
        prompt_token_ids = render_for_completion(messages)
        engine_input = tokens_input(prompt_token_ids, cache_salt=request.cache_salt)

        return messages, [engine_input]

    async def derender_chat_response(
        self,
        request: DerenderChatRequest,
    ) -> ChatCompletionResponse | ErrorResponse:
        """Postprocess a GenerateResponse into a ChatCompletionResponse.

        This is the symmetric inverse of render_chat_request: it detokenizes
        output token IDs, resolves token_id:N logprob placeholders, and
        formats the result as an OpenAI-compatible chat completion response.
        """
        error_check_ret = await self._check_model(request)
        if error_check_ret is not None:
            return error_check_ret

        tokenizer = self.renderer.get_tokenizer()
        gen = request.generate_response
        choices: list[ChatCompletionResponseChoice] = []

        try:
            for choice in gen.choices:
                choices.append(_build_chat_choice(choice, tokenizer))
        except ValueError as exc:
            return self.create_error_response(str(exc))

        prompt_tokens = (
            request.prompt_tokens if request.prompt_tokens is not None else 0
        )
        completion_tokens = sum(len(ch.token_ids) for ch in gen.choices if ch.token_ids)
        usage = UsageInfo(
            prompt_tokens=prompt_tokens,
            completion_tokens=completion_tokens,
            total_tokens=prompt_tokens + completion_tokens,
        )

        logger.debug(
            "derender_chat request_id=%s model=%s choices=%d completion_tokens=%d",
            gen.request_id,
            request.model,
            len(choices),
            completion_tokens,
        )
        return ChatCompletionResponse(
            id=gen.request_id,
            model=request.model,
            created=int(time.time()),
            choices=choices,
            usage=usage,
            prompt_logprobs=gen.prompt_logprobs,
            kv_transfer_params=gen.kv_transfer_params,
        )

    async def derender_completion_response(
        self,
        request: DerenderCompletionRequest,
    ) -> CompletionResponse | ErrorResponse:
        """Postprocess a list of GenerateResponses into a CompletionResponse.

        Mirrors the multi-prompt completions case: one GenerateResponse per
        prompt, parallel to the list[GenerateRequest] from /v1/completions/render.
        """
        error_check_ret = await self._check_model(request)
        if error_check_ret is not None:
            return error_check_ret

        n = len(request.generate_responses)
        prompt_tokens_list: list[int] = (
            request.prompt_tokens if request.prompt_tokens is not None else [0] * n
        )

        tokenizer = self.renderer.get_tokenizer()
        choices: list[CompletionResponseChoice] = []
        total_prompt_tokens = 0
        total_completion_tokens = 0
        index = 0

        for gen, pt in zip(request.generate_responses, prompt_tokens_list):
            for choice in gen.choices:
                if not choice.token_ids:
                    return self.create_error_response(
                        f"choice {choice.index} in response {gen.request_id} "
                        "has empty or null token_ids"
                    )
                decoded_text = tokenizer.decode(
                    choice.token_ids, skip_special_tokens=True
                )
                completion_logprobs = None
                if choice.logprobs is not None:
                    resolved = _resolve_logprobs(choice.logprobs, tokenizer)
                    completion_logprobs = _convert_chat_logprobs_to_completion_logprobs(
                        resolved
                    )
                choices.append(
                    CompletionResponseChoice(
                        index=index,
                        text=decoded_text,
                        finish_reason=choice.finish_reason,
                        logprobs=completion_logprobs,
                    )
                )
                total_completion_tokens += len(choice.token_ids)
                index += 1
            total_prompt_tokens += pt

        if not request.generate_responses:
            return self.create_error_response("generate_responses must not be empty")

        first = request.generate_responses[0]
        kv_params = first.kv_transfer_params
        if any(
            r.kv_transfer_params != kv_params for r in request.generate_responses[1:]
        ):
            logger.warning(
                "derender_completion: kv_transfer_params differ across responses; "
                "setting to None on the aggregated response"
            )
            kv_params = None

        usage = UsageInfo(
            prompt_tokens=total_prompt_tokens,
            completion_tokens=total_completion_tokens,
            total_tokens=total_prompt_tokens + total_completion_tokens,
        )

        logger.debug(
            "derender_completion request_id=%s model=%s choices=%d"
            " completion_tokens=%d",
            first.request_id,
            request.model,
            len(choices),
            total_completion_tokens,
        )
        return CompletionResponse(
            id=first.request_id,
            model=request.model,
            created=int(time.time()),
            choices=choices,
            usage=usage,
            kv_transfer_params=kv_params,
        )

    def create_error_response(
        self,
        message: str | Exception,
        err_type: str = "BadRequestError",
        status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
        param: str | None = None,
    ) -> ErrorResponse:
        return create_error_response(message, err_type, status_code, param)

    async def _check_model(
        self,
        request: Any,
    ) -> ErrorResponse | None:
        return await self.model_registry.check_model(request.model)

    def validate_chat_template(
        self,
        request_chat_template: str | None,
        chat_template_kwargs: dict[str, Any] | None,
        trust_request_chat_template: bool,
    ) -> ErrorResponse | None:
        """Copied from OpenAIServing._validate_chat_template."""
        if not trust_request_chat_template and (
            request_chat_template is not None
            or (
                chat_template_kwargs
                and chat_template_kwargs.get("chat_template") is not None
            )
        ):
            return self.create_error_response(
                "Chat template is passed with request, but "
                "--trust-request-chat-template is not set. "
                "Refused request with untrusted chat template."
            )
        return None

    async def preprocess_completion(
        self,
        request: Any,
        prompt_input: str | list[str] | list[int] | list[list[int]] | None,
        prompt_embeds: bytes | list[bytes] | None,
        *,
        skip_mm_cache: bool = False,
    ) -> list[EngineInput]:
        """Copied from OpenAIServing._preprocess_completion."""
        prompts = list[SingletonPrompt | bytes]()
        if prompt_embeds is not None:  # embeds take higher priority
            prompts.extend(prompt_to_seq(prompt_embeds))
        if prompt_input is not None:
            prompts.extend(prompt_to_seq(prompt_input))
        return await self.preprocess_cmpl(request, prompts, skip_mm_cache=skip_mm_cache)

    async def preprocess_cmpl(
        self,
        request: Any,
        prompts: Sequence[PromptType | bytes],
        *,
        skip_mm_cache: bool = False,
    ) -> list[EngineInput]:
        """Copied from OpenAIServing._preprocess_cmpl."""
        renderer = self.renderer
        model_config = self.model_config

        parsed_prompts = [
            (
                prompt
                if isinstance(prompt, bytes)
                else parse_model_prompt(model_config, prompt)
            )
            for prompt in prompts
        ]
        tok_params = request.build_tok_params(model_config)

        return await renderer.render_cmpl_async(
            parsed_prompts,
            tok_params,
            prompt_extras={
                k: v
                for k in ("mm_processor_kwargs", "cache_salt")
                if (v := getattr(request, k, None)) is not None
            },
            skip_mm_cache=skip_mm_cache,
        )

    async def preprocess_chat(
        self,
        request: Any,
        messages: list[Any],
        default_template: str | None,
        default_template_content_format: ChatTemplateContentFormatOption,
        default_template_kwargs: dict[str, Any] | None,
        tool_dicts: list[dict[str, Any]] | None = None,
        parser: type[Parser] | None = None,
        *,
        skip_mm_cache: bool = False,
    ) -> tuple[list[ConversationMessage], list[EngineInput]]:
        """Copied from OpenAIServing._preprocess_chat."""
        renderer = self.renderer
        mm_config = self.model_config.multimodal_config

        default_template_kwargs = merge_kwargs(
            default_template_kwargs,
            dict(
                tools=tool_dicts,
                tokenize=(
                    is_mistral_tokenizer(renderer.tokenizer)
                    or self.model_config.enable_prompt_embeds
                ),
            ),
        )

        tok_params = request.build_tok_params(self.model_config)
        chat_params = request.build_chat_params(
            default_template, default_template_content_format
        ).with_defaults(
            default_template_kwargs,
            default_media_io_kwargs=(mm_config.media_io_kwargs if mm_config else None),
            default_mm_processor_kwargs=getattr(request, "mm_processor_kwargs", None),
        )

        (conversation,), (engine_input,) = await renderer.render_chat_async(
            [messages],
            chat_params,
            tok_params,
            prompt_extras={
                k: v
                for k in ("mm_processor_kwargs", "cache_salt")
                if (v := getattr(request, k, None)) is not None
            },
            skip_mm_cache=skip_mm_cache,
        )

        # tool parsing is done only if a tool_parser has been set and if
        # tool_choice is not "none" (if tool_choice is "none" but a tool_parser
        # is set, we want to prevent parsing a tool_call hallucinated by the LLM
        #
        # Exception: Mistral grammar-capable tokenizers always call
        # adjust_request — even for tool_choice="none" — so that the grammar
        # factory can prevent special-token leakage.
        if parser is not None:
            tokenizer = renderer.get_tokenizer()
            tool_parser = parser.tool_parser_cls
            tool_choice = getattr(request, "tool_choice", "none")
            is_mistral_grammar_eligible = (
                tool_parser is not None
                and is_mistral_tool_parser(tool_parser)
                and is_mistral_tokenizer(tokenizer)
                and tokenizer.supports_grammar
            )
            should_adjust_request = (
                parser.reasoning_parser_cls is not None
                or tool_choice != "none"
                or is_mistral_grammar_eligible
            )
            if should_adjust_request:
                if not isinstance(request, ChatCompletionRequest | ResponsesRequest):
                    msg = (
                        "Tool usage is only supported "
                        "for Chat Completions API or Responses API requests, "
                        f"but got {type(request).__name__}"
                    )
                    raise NotImplementedError(msg)
                request = parser(
                    tokenizer,
                    request.tools,
                    model_config=self.model_config,
                    chat_template_kwargs=chat_params.chat_template_kwargs,
                ).adjust_request(
                    request=request,
                )

        return conversation, [engine_input]

`_extract_mm_features(engine_input)` `staticmethod` ¶

Extract multimodal metadata from a rendered engine prompt.

Returns None for text-only prompts.

Source code in vllm/entrypoints/serve/render/serving.py

@staticmethod
def _extract_mm_features(
    engine_input: EngineInput,
) -> MultiModalFeatures | None:
    """Extract multimodal metadata from a rendered engine prompt.

    Returns ``None`` for text-only prompts.
    """
    if engine_input.get("type") != "multimodal":
        return None

    # At this point engine_input is a MultiModalInput TypedDict.
    mm_engine_input = cast(MultiModalInput, engine_input)
    mm_hashes: MultiModalHashes = mm_engine_input["mm_hashes"]
    raw_placeholders: MultiModalPlaceholders = mm_engine_input["mm_placeholders"]

    mm_placeholders = {
        modality: [
            PlaceholderRangeInfo(offset=p.offset, length=p.length) for p in ranges
        ]
        for modality, ranges in raw_placeholders.items()
    }

    # Serialize tensor data per modality.
    kwargs_data: dict[str, list[str | None]] | None = None
    if raw_mm_kwargs := mm_engine_input.get("mm_kwargs"):
        kwargs_data = {}
        for modality, items in raw_mm_kwargs.items():
            kwargs_data[modality] = [
                encode_mm_kwargs_item(item) if item is not None else None
                for item in items
            ]

    return MultiModalFeatures(
        mm_hashes=mm_hashes,
        mm_placeholders=mm_placeholders,
        kwargs_data=kwargs_data,
    )

`_make_request_with_harmony(request, should_include_tools=True)` ¶

Build Harmony (GPT-OSS) messages and engine prompt from a chat request.

Source code in vllm/entrypoints/serve/render/serving.py

def _make_request_with_harmony(
    self,
    request: ChatCompletionRequest,
    should_include_tools: bool = True,
):
    """Build Harmony (GPT-OSS) messages and engine prompt from a chat request."""
    messages: list[OpenAIMessage] = []

    # because of issues with pydantic we need to potentially
    # re-serialize the tool_calls field of the request
    # for more info: see comment in `maybe_serialize_tool_calls`
    _mt.maybe_serialize_tool_calls(request)  # type: ignore[arg-type]

    chat_messages = list(request.messages)
    instructions, chat_messages = extract_instructions_from_messages(chat_messages)

    # Add system message.
    # NOTE: In Chat Completion API, browsing is enabled by default
    # if the model supports it. TODO: Support browsing.
    assert not self.supports_browsing
    assert not self.supports_code_interpreter
    if (reasoning_effort := request.reasoning_effort) == "none":
        raise ValueError(f"Harmony does not support {reasoning_effort=}")
    tools = request.tools if should_include_tools else None
    messages.extend(
        build_harmony_preamble(
            instructions=instructions,
            tools=tools,  # type: ignore[arg-type]
            reasoning_effort=reasoning_effort,
            with_custom_tools=should_include_tools,
        )
    )

    # Add remaining conversation messages.
    messages.extend(parse_chat_inputs_to_harmony_messages(chat_messages))

    # Render prompt token ids.
    prompt_token_ids = render_for_completion(messages)
    engine_input = tokens_input(prompt_token_ids, cache_salt=request.cache_salt)

    return messages, [engine_input]

`derender_chat_response(request)` `async` ¶

Postprocess a GenerateResponse into a ChatCompletionResponse.

This is the symmetric inverse of render_chat_request: it detokenizes output token IDs, resolves token_id:N logprob placeholders, and formats the result as an OpenAI-compatible chat completion response.

Source code in vllm/entrypoints/serve/render/serving.py

async def derender_chat_response(
    self,
    request: DerenderChatRequest,
) -> ChatCompletionResponse | ErrorResponse:
    """Postprocess a GenerateResponse into a ChatCompletionResponse.

    This is the symmetric inverse of render_chat_request: it detokenizes
    output token IDs, resolves token_id:N logprob placeholders, and
    formats the result as an OpenAI-compatible chat completion response.
    """
    error_check_ret = await self._check_model(request)
    if error_check_ret is not None:
        return error_check_ret

    tokenizer = self.renderer.get_tokenizer()
    gen = request.generate_response
    choices: list[ChatCompletionResponseChoice] = []

    try:
        for choice in gen.choices:
            choices.append(_build_chat_choice(choice, tokenizer))
    except ValueError as exc:
        return self.create_error_response(str(exc))

    prompt_tokens = (
        request.prompt_tokens if request.prompt_tokens is not None else 0
    )
    completion_tokens = sum(len(ch.token_ids) for ch in gen.choices if ch.token_ids)
    usage = UsageInfo(
        prompt_tokens=prompt_tokens,
        completion_tokens=completion_tokens,
        total_tokens=prompt_tokens + completion_tokens,
    )

    logger.debug(
        "derender_chat request_id=%s model=%s choices=%d completion_tokens=%d",
        gen.request_id,
        request.model,
        len(choices),
        completion_tokens,
    )
    return ChatCompletionResponse(
        id=gen.request_id,
        model=request.model,
        created=int(time.time()),
        choices=choices,
        usage=usage,
        prompt_logprobs=gen.prompt_logprobs,
        kv_transfer_params=gen.kv_transfer_params,
    )

`derender_completion_response(request)` `async` ¶

Postprocess a list of GenerateResponses into a CompletionResponse.

Mirrors the multi-prompt completions case: one GenerateResponse per prompt, parallel to the list[GenerateRequest] from /v1/completions/render.

Source code in vllm/entrypoints/serve/render/serving.py

async def derender_completion_response(
    self,
    request: DerenderCompletionRequest,
) -> CompletionResponse | ErrorResponse:
    """Postprocess a list of GenerateResponses into a CompletionResponse.

    Mirrors the multi-prompt completions case: one GenerateResponse per
    prompt, parallel to the list[GenerateRequest] from /v1/completions/render.
    """
    error_check_ret = await self._check_model(request)
    if error_check_ret is not None:
        return error_check_ret

    n = len(request.generate_responses)
    prompt_tokens_list: list[int] = (
        request.prompt_tokens if request.prompt_tokens is not None else [0] * n
    )

    tokenizer = self.renderer.get_tokenizer()
    choices: list[CompletionResponseChoice] = []
    total_prompt_tokens = 0
    total_completion_tokens = 0
    index = 0

    for gen, pt in zip(request.generate_responses, prompt_tokens_list):
        for choice in gen.choices:
            if not choice.token_ids:
                return self.create_error_response(
                    f"choice {choice.index} in response {gen.request_id} "
                    "has empty or null token_ids"
                )
            decoded_text = tokenizer.decode(
                choice.token_ids, skip_special_tokens=True
            )
            completion_logprobs = None
            if choice.logprobs is not None:
                resolved = _resolve_logprobs(choice.logprobs, tokenizer)
                completion_logprobs = _convert_chat_logprobs_to_completion_logprobs(
                    resolved
                )
            choices.append(
                CompletionResponseChoice(
                    index=index,
                    text=decoded_text,
                    finish_reason=choice.finish_reason,
                    logprobs=completion_logprobs,
                )
            )
            total_completion_tokens += len(choice.token_ids)
            index += 1
        total_prompt_tokens += pt

    if not request.generate_responses:
        return self.create_error_response("generate_responses must not be empty")

    first = request.generate_responses[0]
    kv_params = first.kv_transfer_params
    if any(
        r.kv_transfer_params != kv_params for r in request.generate_responses[1:]
    ):
        logger.warning(
            "derender_completion: kv_transfer_params differ across responses; "
            "setting to None on the aggregated response"
        )
        kv_params = None

    usage = UsageInfo(
        prompt_tokens=total_prompt_tokens,
        completion_tokens=total_completion_tokens,
        total_tokens=total_prompt_tokens + total_completion_tokens,
    )

    logger.debug(
        "derender_completion request_id=%s model=%s choices=%d"
        " completion_tokens=%d",
        first.request_id,
        request.model,
        len(choices),
        total_completion_tokens,
    )
    return CompletionResponse(
        id=first.request_id,
        model=request.model,
        created=int(time.time()),
        choices=choices,
        usage=usage,
        kv_transfer_params=kv_params,
    )

`preprocess_chat(request, messages, default_template, default_template_content_format, default_template_kwargs, tool_dicts=None, parser=None, *, skip_mm_cache=False)` `async` ¶

Copied from OpenAIServing._preprocess_chat.

Source code in vllm/entrypoints/serve/render/serving.py

async def preprocess_chat(
    self,
    request: Any,
    messages: list[Any],
    default_template: str | None,
    default_template_content_format: ChatTemplateContentFormatOption,
    default_template_kwargs: dict[str, Any] | None,
    tool_dicts: list[dict[str, Any]] | None = None,
    parser: type[Parser] | None = None,
    *,
    skip_mm_cache: bool = False,
) -> tuple[list[ConversationMessage], list[EngineInput]]:
    """Copied from OpenAIServing._preprocess_chat."""
    renderer = self.renderer
    mm_config = self.model_config.multimodal_config

    default_template_kwargs = merge_kwargs(
        default_template_kwargs,
        dict(
            tools=tool_dicts,
            tokenize=(
                is_mistral_tokenizer(renderer.tokenizer)
                or self.model_config.enable_prompt_embeds
            ),
        ),
    )

    tok_params = request.build_tok_params(self.model_config)
    chat_params = request.build_chat_params(
        default_template, default_template_content_format
    ).with_defaults(
        default_template_kwargs,
        default_media_io_kwargs=(mm_config.media_io_kwargs if mm_config else None),
        default_mm_processor_kwargs=getattr(request, "mm_processor_kwargs", None),
    )

    (conversation,), (engine_input,) = await renderer.render_chat_async(
        [messages],
        chat_params,
        tok_params,
        prompt_extras={
            k: v
            for k in ("mm_processor_kwargs", "cache_salt")
            if (v := getattr(request, k, None)) is not None
        },
        skip_mm_cache=skip_mm_cache,
    )

    # tool parsing is done only if a tool_parser has been set and if
    # tool_choice is not "none" (if tool_choice is "none" but a tool_parser
    # is set, we want to prevent parsing a tool_call hallucinated by the LLM
    #
    # Exception: Mistral grammar-capable tokenizers always call
    # adjust_request — even for tool_choice="none" — so that the grammar
    # factory can prevent special-token leakage.
    if parser is not None:
        tokenizer = renderer.get_tokenizer()
        tool_parser = parser.tool_parser_cls
        tool_choice = getattr(request, "tool_choice", "none")
        is_mistral_grammar_eligible = (
            tool_parser is not None
            and is_mistral_tool_parser(tool_parser)
            and is_mistral_tokenizer(tokenizer)
            and tokenizer.supports_grammar
        )
        should_adjust_request = (
            parser.reasoning_parser_cls is not None
            or tool_choice != "none"
            or is_mistral_grammar_eligible
        )
        if should_adjust_request:
            if not isinstance(request, ChatCompletionRequest | ResponsesRequest):
                msg = (
                    "Tool usage is only supported "
                    "for Chat Completions API or Responses API requests, "
                    f"but got {type(request).__name__}"
                )
                raise NotImplementedError(msg)
            request = parser(
                tokenizer,
                request.tools,
                model_config=self.model_config,
                chat_template_kwargs=chat_params.chat_template_kwargs,
            ).adjust_request(
                request=request,
            )

    return conversation, [engine_input]

`preprocess_cmpl(request, prompts, *, skip_mm_cache=False)` `async` ¶

Copied from OpenAIServing._preprocess_cmpl.

Source code in vllm/entrypoints/serve/render/serving.py

async def preprocess_cmpl(
    self,
    request: Any,
    prompts: Sequence[PromptType | bytes],
    *,
    skip_mm_cache: bool = False,
) -> list[EngineInput]:
    """Copied from OpenAIServing._preprocess_cmpl."""
    renderer = self.renderer
    model_config = self.model_config

    parsed_prompts = [
        (
            prompt
            if isinstance(prompt, bytes)
            else parse_model_prompt(model_config, prompt)
        )
        for prompt in prompts
    ]
    tok_params = request.build_tok_params(model_config)

    return await renderer.render_cmpl_async(
        parsed_prompts,
        tok_params,
        prompt_extras={
            k: v
            for k in ("mm_processor_kwargs", "cache_salt")
            if (v := getattr(request, k, None)) is not None
        },
        skip_mm_cache=skip_mm_cache,
    )

`preprocess_completion(request, prompt_input, prompt_embeds, *, skip_mm_cache=False)` `async` ¶

Copied from OpenAIServing._preprocess_completion.

Source code in vllm/entrypoints/serve/render/serving.py

async def preprocess_completion(
    self,
    request: Any,
    prompt_input: str | list[str] | list[int] | list[list[int]] | None,
    prompt_embeds: bytes | list[bytes] | None,
    *,
    skip_mm_cache: bool = False,
) -> list[EngineInput]:
    """Copied from OpenAIServing._preprocess_completion."""
    prompts = list[SingletonPrompt | bytes]()
    if prompt_embeds is not None:  # embeds take higher priority
        prompts.extend(prompt_to_seq(prompt_embeds))
    if prompt_input is not None:
        prompts.extend(prompt_to_seq(prompt_input))
    return await self.preprocess_cmpl(request, prompts, skip_mm_cache=skip_mm_cache)

`render_chat(request, *, skip_mm_cache=False)` `async` ¶

Core preprocessing logic for chat requests (no model/engine check).

Called directly by render_chat_request and delegated to by OpenAIServingChat.render_chat_request after its engine-aware checks.

Source code in vllm/entrypoints/serve/render/serving.py

async def render_chat(
    self,
    request: ChatCompletionRequest,
    *,
    skip_mm_cache: bool = False,
) -> tuple[list[ConversationMessage], list[EngineInput]] | ErrorResponse:
    """Core preprocessing logic for chat requests (no model/engine check).

    Called directly by render_chat_request and delegated to by
    OpenAIServingChat.render_chat_request after its engine-aware checks.
    """
    tokenizer = self.renderer.tokenizer

    tool_parser = self.parser.tool_parser_cls if self.parser is not None else None

    if is_mistral_tokenizer(tokenizer):
        # because of issues with pydantic we need to potentially
        # re-serialize the tool_calls field of the request
        _mt.maybe_serialize_tool_calls(request)  # type: ignore[arg-type]
        _mt.truncate_tool_call_ids(request)  # type: ignore[arg-type]
        _mt.validate_request_params(request)

    # Check if tool parsing is unavailable (common condition)
    tool_parsing_unavailable = (
        tool_parser is None
        and not is_mistral_tokenizer(tokenizer)
        and not self.use_harmony
    )

    # Validate tool_choice when tool parsing is required but unavailable
    if tool_parsing_unavailable and request.tool_choice not in (
        None,
        "none",
    ):
        if request.tool_choice == "auto" and not self.enable_auto_tools:
            # for hf tokenizers, "auto" tools requires
            # --enable-auto-tool-choice and --tool-call-parser
            return self.create_error_response(
                '"auto" tool choice requires '
                "--enable-auto-tool-choice and --tool-call-parser to be set"
            )
        elif request.tool_choice != "auto":
            # "required" or named tool requires tool parser
            return self.create_error_response(
                f'tool_choice="{request.tool_choice}" requires '
                "--tool-call-parser to be set"
            )

    if request.tools is None or (
        request.tool_choice == "none" and self.exclude_tools_when_tool_choice_none
    ):
        tool_dicts = None
    else:
        tool_dicts = [tool.model_dump() for tool in request.tools]

    if not self.use_harmony:
        # Common case.
        error_check_ret = self.validate_chat_template(
            request_chat_template=request.chat_template,
            chat_template_kwargs=request.chat_template_kwargs,
            trust_request_chat_template=self.trust_request_chat_template,
        )
        if error_check_ret is not None:
            return error_check_ret

        conversation, engine_inputs = await self.preprocess_chat(
            request,
            request.messages,
            default_template=self.chat_template,
            default_template_content_format=self.chat_template_content_format,
            default_template_kwargs=self.default_chat_template_kwargs,
            tool_dicts=tool_dicts,
            parser=self.parser,
            skip_mm_cache=skip_mm_cache,
        )
    else:
        # For GPT-OSS.
        should_include_tools = tool_dicts is not None
        conversation, engine_inputs = self._make_request_with_harmony(
            request, should_include_tools
        )

    return conversation, engine_inputs

`render_chat_request(request)` `async` ¶

Validate the model and preprocess a chat completion request.

This is the authoritative implementation used directly by the GPU-less render server and delegated to by OpenAIServingChat.

Source code in vllm/entrypoints/serve/render/serving.py

async def render_chat_request(
    self,
    request: ChatCompletionRequest,
) -> GenerateRequest | ErrorResponse:
    """Validate the model and preprocess a chat completion request.

    This is the authoritative implementation used directly by the
    GPU-less render server and delegated to by OpenAIServingChat.
    """
    error_check_ret = await self._check_model(request)
    if error_check_ret is not None:
        logger.error("Error with model %s", error_check_ret)
        return error_check_ret

    if request.use_beam_search:
        return self.create_error_response(
            "Beam search is not supported by the render endpoint"
        )

    result = await self.render_chat(request, skip_mm_cache=True)
    if isinstance(result, ErrorResponse):
        return result

    _, engine_inputs = result

    if len(engine_inputs) != 1:
        return self.create_error_response(
            f"Expected exactly 1 engine prompt, got {len(engine_inputs)}"
        )

    engine_input = engine_inputs[0]

    prompt_components = extract_prompt_components(self.model_config, engine_input)
    token_ids = prompt_components.token_ids
    if not token_ids:
        return self.create_error_response("No token_ids rendered")
    token_ids = list(token_ids)

    input_length = extract_prompt_len(self.model_config, engine_input)
    max_tokens = get_max_tokens(
        self.model_config.max_model_len,
        request.max_completion_tokens
        if request.max_completion_tokens is not None
        else request.max_tokens,
        input_length,
        self.default_sampling_params,
        self.override_max_tokens,
        truncate_prompt_tokens=request.truncate_prompt_tokens,
    )
    params = request.to_sampling_params(max_tokens, self.default_sampling_params)

    request_id = f"chatcmpl-{random_uuid()}"

    return GenerateRequest(
        request_id=request_id,
        token_ids=token_ids,
        features=self._extract_mm_features(engine_input),
        sampling_params=params,
        model=request.model,
        stream=bool(request.stream),
        stream_options=(request.stream_options if request.stream else None),
        cache_salt=request.cache_salt,
        priority=request.priority,
    )

`render_completion(request, *, skip_mm_cache=False)` `async` ¶

Core preprocessing logic for completion requests (no model/engine check).

Called directly by render_completion_request and delegated to by OpenAIServingCompletion.render_completion_request after its engine-aware checks.

Source code in vllm/entrypoints/serve/render/serving.py

async def render_completion(
    self,
    request: CompletionRequest,
    *,
    skip_mm_cache: bool = False,
) -> list[EngineInput] | ErrorResponse:
    """Core preprocessing logic for completion requests (no model/engine check).

    Called directly by render_completion_request and delegated to by
    OpenAIServingCompletion.render_completion_request after its engine-aware checks.
    """
    # Return error for unsupported features.
    if request.suffix is not None:
        return self.create_error_response("suffix is not currently supported")

    if request.echo and request.prompt_embeds is not None:
        return self.create_error_response("Echo is unsupported with prompt embeds.")

    if request.prompt_logprobs is not None and request.prompt_embeds is not None:
        return self.create_error_response(
            "prompt_logprobs is not compatible with prompt embeds."
        )

    engine_inputs = await self.preprocess_completion(
        request,
        prompt_input=request.prompt,
        prompt_embeds=request.prompt_embeds,
        skip_mm_cache=skip_mm_cache,
    )

    return engine_inputs

`render_completion_request(request)` `async` ¶

Validate the model and preprocess a completion request.

This is the authoritative implementation used directly by the GPU-less render server and delegated to by OpenAIServingCompletion.

Source code in vllm/entrypoints/serve/render/serving.py

async def render_completion_request(
    self,
    request: CompletionRequest,
) -> list[GenerateRequest] | ErrorResponse:
    """Validate the model and preprocess a completion request.

    This is the authoritative implementation used directly by the
    GPU-less render server and delegated to by OpenAIServingCompletion.
    """
    error_check_ret = await self._check_model(request)
    if error_check_ret is not None:
        return error_check_ret
    result = await self.render_completion(request, skip_mm_cache=True)
    if isinstance(result, ErrorResponse):
        return result
    generate_requests: list[GenerateRequest] = []
    for engine_input in result:
        prompt_components = extract_prompt_components(
            self.model_config, engine_input
        )
        token_ids = prompt_components.token_ids
        if not token_ids:
            return self.create_error_response("No token_ids rendered")
        token_ids = list(token_ids)

        input_length = extract_prompt_len(self.model_config, engine_input)
        max_tokens = get_max_tokens(
            self.model_config.max_model_len,
            request.max_tokens,
            input_length,
            self.default_sampling_params,
            self.override_max_tokens,
            truncate_prompt_tokens=request.truncate_prompt_tokens,
        )
        params = request.to_sampling_params(
            max_tokens, self.default_sampling_params
        )

        request_id = f"cmpl-{random_uuid()}"

        generate_requests.append(
            GenerateRequest(
                request_id=request_id,
                token_ids=token_ids,
                features=self._extract_mm_features(engine_input),
                sampling_params=params,
                model=request.model,
                stream=bool(request.stream),
                stream_options=(request.stream_options if request.stream else None),
                cache_salt=request.cache_salt,
                priority=request.priority,
            )
        )

    return generate_requests

`validate_chat_template(request_chat_template, chat_template_kwargs, trust_request_chat_template)` ¶

Copied from OpenAIServing._validate_chat_template.

Source code in vllm/entrypoints/serve/render/serving.py

def validate_chat_template(
    self,
    request_chat_template: str | None,
    chat_template_kwargs: dict[str, Any] | None,
    trust_request_chat_template: bool,
) -> ErrorResponse | None:
    """Copied from OpenAIServing._validate_chat_template."""
    if not trust_request_chat_template and (
        request_chat_template is not None
        or (
            chat_template_kwargs
            and chat_template_kwargs.get("chat_template") is not None
        )
    ):
        return self.create_error_response(
            "Chat template is passed with request, but "
            "--trust-request-chat-template is not set. "
            "Refused request with untrusted chat template."
        )
    return None

`_build_chat_choice(choice, tokenizer)` ¶

Detokenize and resolve logprobs for a single GenerateResponseChoice.

Raises:

ValueError –

if choice.token_ids is empty or None.

Source code in vllm/entrypoints/serve/render/serving.py

def _build_chat_choice(
    choice: GenerateResponseChoice, tokenizer: TokenizerLike
) -> ChatCompletionResponseChoice:
    """Detokenize and resolve logprobs for a single GenerateResponseChoice.

    Raises:
        ValueError: if choice.token_ids is empty or None.
    """
    if not choice.token_ids:
        raise ValueError(f"choice {choice.index} has empty or null token_ids")
    decoded_text = tokenizer.decode(choice.token_ids, skip_special_tokens=True)
    resolved_logprobs = (
        _resolve_logprobs(choice.logprobs, tokenizer)
        if choice.logprobs is not None
        else None
    )
    return ChatCompletionResponseChoice(
        index=choice.index,
        message=ChatMessage(role="assistant", content=decoded_text),
        logprobs=resolved_logprobs,
        finish_reason=choice.finish_reason,
    )

`_convert_chat_logprobs_to_completion_logprobs(logprobs)` ¶

Convert ChatCompletionLogProbs (per-token objects) to CompletionLogProbs (parallel flat lists) as required by the /v1/completions response schema.

Source code in vllm/entrypoints/serve/render/serving.py

def _convert_chat_logprobs_to_completion_logprobs(
    logprobs: ChatCompletionLogProbs,
) -> CompletionLogProbs:
    """Convert ChatCompletionLogProbs (per-token objects) to CompletionLogProbs
    (parallel flat lists) as required by the /v1/completions response schema."""
    if logprobs.content is None:
        return CompletionLogProbs()

    tokens: list[str] = []
    token_logprobs: list[float | None] = []
    top_logprobs_list: list[dict[str, float] | None] = []
    text_offset: list[int] = []

    offset = 0
    for entry in logprobs.content:
        text_offset.append(offset)
        tokens.append(entry.token)
        token_logprobs.append(entry.logprob)
        top_logprobs_list.append(
            {t.token: t.logprob for t in entry.top_logprobs}
            if entry.top_logprobs
            else None
        )
        offset += len(entry.token)

    return CompletionLogProbs(
        text_offset=text_offset,
        token_logprobs=token_logprobs,
        tokens=tokens,
        top_logprobs=top_logprobs_list,
    )

`_resolve_logprobs(logprobs, tokenizer)` ¶

Resolve all token_id:N placeholders in a ChatCompletionLogProbs object.

Source code in vllm/entrypoints/serve/render/serving.py

def _resolve_logprobs(
    logprobs: ChatCompletionLogProbs, tokenizer: TokenizerLike
) -> ChatCompletionLogProbs:
    """Resolve all token_id:N placeholders in a ChatCompletionLogProbs object."""
    if logprobs.content is None:
        return logprobs
    resolved_content = []
    for entry in logprobs.content:
        token_str, token_bytes = resolve_token_id_placeholder(entry.token, tokenizer)
        resolved_top = []
        for top in entry.top_logprobs:
            top_str, top_bytes = resolve_token_id_placeholder(top.token, tokenizer)
            resolved_top.append(
                top.model_copy(update={"token": top_str, "bytes": top_bytes})
            )
        resolved_content.append(
            entry.model_copy(
                update={
                    "token": token_str,
                    "bytes": token_bytes,
                    "top_logprobs": resolved_top,
                }
            )
        )
    return ChatCompletionLogProbs(content=resolved_content)

vllm.entrypoints.serve.render.serving ¶

OpenAIServingRender ¶

_extract_mm_features(engine_input) staticmethod ¶

_make_request_with_harmony(request, should_include_tools=True) ¶

derender_chat_response(request) async ¶

derender_completion_response(request) async ¶

preprocess_chat(request, messages, default_template, default_template_content_format, default_template_kwargs, tool_dicts=None, parser=None, *, skip_mm_cache=False) async ¶

preprocess_cmpl(request, prompts, *, skip_mm_cache=False) async ¶

preprocess_completion(request, prompt_input, prompt_embeds, *, skip_mm_cache=False) async ¶

render_chat(request, *, skip_mm_cache=False) async ¶

render_chat_request(request) async ¶

render_completion(request, *, skip_mm_cache=False) async ¶

render_completion_request(request) async ¶

validate_chat_template(request_chat_template, chat_template_kwargs, trust_request_chat_template) ¶

_build_chat_choice(choice, tokenizer) ¶

_convert_chat_logprobs_to_completion_logprobs(logprobs) ¶

_resolve_logprobs(logprobs, tokenizer) ¶

`vllm.entrypoints.serve.render.serving` ¶

`OpenAIServingRender` ¶

`_extract_mm_features(engine_input)` `staticmethod` ¶

`_make_request_with_harmony(request, should_include_tools=True)` ¶

`derender_chat_response(request)` `async` ¶

`derender_completion_response(request)` `async` ¶

`preprocess_chat(request, messages, default_template, default_template_content_format, default_template_kwargs, tool_dicts=None, parser=None, *, skip_mm_cache=False)` `async` ¶

`preprocess_cmpl(request, prompts, *, skip_mm_cache=False)` `async` ¶

`preprocess_completion(request, prompt_input, prompt_embeds, *, skip_mm_cache=False)` `async` ¶

`render_chat(request, *, skip_mm_cache=False)` `async` ¶

`render_chat_request(request)` `async` ¶

`render_completion(request, *, skip_mm_cache=False)` `async` ¶

`render_completion_request(request)` `async` ¶

`validate_chat_template(request_chat_template, chat_template_kwargs, trust_request_chat_template)` ¶

`_build_chat_choice(choice, tokenizer)` ¶

`_convert_chat_logprobs_to_completion_logprobs(logprobs)` ¶

`_resolve_logprobs(logprobs, tokenizer)` ¶