vllm_omni.transformers_utils.configs.glm_tts ¶

GLM-TTS config registration with transformers AutoConfig.

Registers GLMTTSConfig (model_type="glm_tts") so that AutoConfig.from_pretrained("path/to/glm-tts") returns the correct config class.

Note: GLM-TTS uses a Llama backbone, but we register a custom config to handle the special token IDs and flow model parameters.

GLMTTSConfig ¶

Bases: PretrainedConfig

Llama-based AR model for text-to-speech token generation.

Special token IDs are loaded dynamically from the tokenizer at init time.

audio_token_end `instance-attribute` ¶

audio_token_end = audio_token_end

audio_token_start `instance-attribute` ¶

audio_token_start = audio_token_start

boa_token_id `instance-attribute` ¶

boa_token_id = boa_token_id

eoa_token_id `instance-attribute` ¶

eoa_token_id = eoa_token_id

hidden_act `instance-attribute` ¶

hidden_act = hidden_act

hidden_size `instance-attribute` ¶

hidden_size = hidden_size

input_frame_rate `instance-attribute` ¶

input_frame_rate = input_frame_rate

intermediate_size `instance-attribute` ¶

intermediate_size = intermediate_size

max_position_embeddings `instance-attribute` ¶

max_position_embeddings = max_position_embeddings

max_token_text_ratio `instance-attribute` ¶

max_token_text_ratio = max_token_text_ratio

mel_dim `instance-attribute` ¶

mel_dim = mel_dim

mel_framerate `instance-attribute` ¶

mel_framerate = mel_framerate

min_token_text_ratio `instance-attribute` ¶

min_token_text_ratio = min_token_text_ratio

model_type `class-attribute` `instance-attribute` ¶

model_type: str = 'glm_tts'

num_attention_heads `instance-attribute` ¶

num_attention_heads = num_attention_heads

num_hidden_layers `instance-attribute` ¶

num_hidden_layers = num_hidden_layers

num_key_value_heads `instance-attribute` ¶

num_key_value_heads = num_key_value_heads

ras_tau_r `instance-attribute` ¶

ras_tau_r = ras_tau_r

ras_top_k `instance-attribute` ¶

ras_top_k = ras_top_k

ras_top_p `instance-attribute` ¶

ras_top_p = ras_top_p

ras_win_size `instance-attribute` ¶

ras_win_size = ras_win_size

rms_norm_eps `instance-attribute` ¶

rms_norm_eps = rms_norm_eps

rope_theta `instance-attribute` ¶

rope_theta = rope_theta

sample_method `instance-attribute` ¶

sample_method = sample_method

speech_token_dim `instance-attribute` ¶

speech_token_dim = speech_token_dim

speech_token_vocab_size `instance-attribute` ¶

speech_token_vocab_size = speech_token_vocab_size

spk_embed_dim `instance-attribute` ¶

spk_embed_dim = spk_embed_dim

vocab_size `instance-attribute` ¶

vocab_size = vocab_size

vllm_omni.transformers_utils.configs.glm_tts ¶

GLMTTSConfig ¶

audio_token_end instance-attribute ¶

audio_token_start instance-attribute ¶

boa_token_id instance-attribute ¶

eoa_token_id instance-attribute ¶

hidden_act instance-attribute ¶

hidden_size instance-attribute ¶

input_frame_rate instance-attribute ¶

intermediate_size instance-attribute ¶

max_position_embeddings instance-attribute ¶

max_token_text_ratio instance-attribute ¶

mel_dim instance-attribute ¶

mel_framerate instance-attribute ¶

min_token_text_ratio instance-attribute ¶

model_type class-attribute instance-attribute ¶

num_attention_heads instance-attribute ¶

num_hidden_layers instance-attribute ¶

num_key_value_heads instance-attribute ¶

ras_tau_r instance-attribute ¶

ras_top_k instance-attribute ¶

ras_top_p instance-attribute ¶

ras_win_size instance-attribute ¶

rms_norm_eps instance-attribute ¶

rope_theta instance-attribute ¶

sample_method instance-attribute ¶

speech_token_dim instance-attribute ¶

speech_token_vocab_size instance-attribute ¶

spk_embed_dim instance-attribute ¶

vocab_size instance-attribute ¶