vllm_omni.worker.payload_span ¶

Helpers for explicit thinker decode span metadata.

CACHED_THINKER_DECODE_EMBEDDINGS_KEY `module-attribute` ¶

CACHED_THINKER_DECODE_EMBEDDINGS_KEY = (
    "cached_thinker_decode_embeddings"
)

CACHED_THINKER_DECODE_TOKEN_END_KEY = (
    "cached_thinker_decode_embeddings_token_end"
)

CACHED_THINKER_DECODE_TOKEN_START_KEY = (
    "cached_thinker_decode_embeddings_token_start"
)

THINKER_DECODE_EMBEDDINGS_KEY = 'thinker_decode_embeddings'

THINKER_DECODE_TOKEN_END_KEY = (
    "thinker_decode_embeddings_token_end"
)

THINKER_DECODE_TOKEN_START_KEY = (
    "thinker_decode_embeddings_token_start"
)

THINKER_OUTPUT_TOKEN_IDS_KEY = 'thinker_output_token_ids'

TensorSpan = tuple[torch.Tensor, int, int]

get_tensor_span(
    payload: Mapping[str, Any],
    *,
    tensor_key: str,
    start_key: str,
    end_key: str,
) -> TensorSpan | None

get_tensor_span_row(
    span: TensorSpan | None, index: int
) -> Tensor | None

merge_tensor_spans(
    existing_span: TensorSpan | None,
    incoming_span: TensorSpan | None,
) -> TensorSpan | None