vime 文档

vime 文档#

vime 是一个面向 RL Scaling 的 LLM 后训练框架,提供两大核心能力:

  • 高性能训练:通过连接 Megatron 与 vLLM,支持多种模式下的高效训练;

  • 灵活的数据生成:通过自定义数据生成接口与基于服务器的引擎,实现任意训练数据生成流程。

vime 构建于 slime 之上,slime 正是 GLM-4.7、GLM-4.6、GLM-4.5 背后的 RL 训练框架。vime 沿用了 slime 的训练栈与数据生成设计,并默认采用 vLLM 作为 rollout 后端,同时继承了 slime 广泛的模型支持,包括:

  • Qwen3 系列 (Qwen3Next, Qwen3MoE, Qwen3), Qwen2.5 系列;

  • DeepSeek V3 系列 (DeepSeek V3, V3.1, DeepSeek R1);

  • Llama 3。