vime 文档

目录

vime 文档#

vime 是一个面向 RL Scaling 的 LLM 后训练框架，提供两大核心能力：

高性能训练：通过连接 Megatron 与 vLLM，支持多种模式下的高效训练；
灵活的数据生成：通过自定义数据生成接口与基于服务器的引擎，实现任意训练数据生成流程。

vime 构建于 slime 之上，slime 正是 GLM-4.7、GLM-4.6、GLM-4.5 背后的 RL 训练框架。vime 沿用了 slime 的训练栈与数据生成设计，并默认采用 vLLM 作为 rollout 后端，同时继承了 slime 广泛的模型支持，包括：

Qwen3 系列 (Qwen3Next, Qwen3MoE, Qwen3), Qwen2.5 系列；
DeepSeek V3 系列 (DeepSeek V3, V3.1, DeepSeek R1)；
Llama 3。

按使用场景开始#

第一次使用 vime：快速使用
配置 training 和 rollout 参数：使用文档
添加 custom generation、reward 或 rollout function：自定义指南
构建 agentic RL workflow：Agentic RL 训练路线图
配置生产级 vLLM rollout topology：vLLM Config：高级引擎部署
接入 external rollout engines：External Rollout Engines 配置路线图
以字节级 delta 同步权重：Delta 权重同步
使用 PD disaggregation：PD 分离
使用 BF16 训练 + FP8 rollout 或 FP8 KV cache：低精度训练与 Rollout
了解 CI 和可靠性覆盖：CI（持续集成）
调试、trace 和 profiling 长时间任务：Debug 指南、Trace 可视化、性能分析（Profiling）

开始使用

Dense

MoE

高级特性

其他用法

开发指南

硬件平台

Ascend NPU 快速上手