

VeRL-Omni 是一个面向多模态生成模子的通用 RL 后推行框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。灭绝扩散 transformer(Qwen-Image)、搀杂 AR-DiT(Qwen-Omni)、和谐领会 + 生成(BAGEL、HunyuanImage-3.0)等架构。
多模态 rollout 走 vLLM-Omni 的异步高隐隐 serving,VLM-as-judge / OCR 奖励模子走 vLLM 推理,并与 rollout、推行 overlap。Qwen-Image OCR FlowGRPO 演示中,把奖励模子放到寥落 GPU 可将每步 wall-clock 时分裁减约 14%。

VeRL-Omni 架构
代码: github.com/verl-project/verl-omni
文档: verl-omni.readthedocs.io
vLLM 官方博客:vllm.ai/blog/verl-omni
为什么需要 VeRL-Omni
RL 还是成为把大型生成模子对王人到东说念主类偏好与卑劣任务奖励的有劲时刻。夙昔一年 LLM 的 RL 推行栈飞速演进,但多模态生成 RL—— 灭绝图像 / 视频 / 音频领会与生成的扩散和全模态模子 —— 还有几个要害缺口:
扩散与全模态扩张:把 verl 的活泼性和性能延迟到多模态、非自追想 RL 推行的寰宇,包括扩散 transformer 骨干(Qwen-Image)、搀杂 AR-DiT 架构(Qwen-Omni)、和谐领会 + 生成模子(BAGEL、HunyuanImage-3.0);
异构 rollout 活水线:Rollout 是运动 latent 空间里的去噪轨迹,而不是 token 序列;单次 rollout 还可能调用多个异构模子组件、走多阶段活水线(text encoder → DiT → VAE);
复杂的负载更始:多模态 RL 推行的奖励函数自己等于多模态模子(VLM judge、OCR scorer 等),多模态生成 rollout 的峰值显存又比文本生成高得多,把这些责任流编排好并不马虎。
要害特色
高效的多模态 rollout: 集成 vLLM-Omni 的异步高隐隐多模态生成 serving,精度与 diffusers 握平。VeRL-Omni 与 vLLM-Omni 协同,通过 step-wise continuous batching、embedding caching 等握续优化 rollout 效果。
活泼的奖励引擎: 同期守旧基于秩序的奖励与基于模子的奖励(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 奖励模子推理。奖励计较与 rollout、推行经过 overlap,裁减端到端延迟。
模块化推行后端: 提供多种 trainer(DiffusersFSDP / Megatron / VeOmni),针对扩散和全模态模子内置优化,便于接入不同并行政策(FSDP / USP / TP)。
庸俗的硬件兼容: 同期守旧 NVIDIA GPU 和昇腾 NPU,部署可在多种硬件后端之间活泼切换。
端到端推行 recipe 与基准: 提供参考性能舍弃;收获于上述特色,推行隐隐不错作念得很高。
算法与模子守旧

上手指南
装配
详见装配文档:
https://verl-omni.readthedocs.io/en/latest/start/install.html
推行扩散模子
examples 目次(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的启动剧本,灭绝图像 / 音频 / 视频领会与生成任务。推行性能与舍弃不错通过 wandb 追踪。
Demo:Qwen-Image FlowGRPO 后推行
在 flowgrpo 示例中,团队用 OCR 奖励任务推行 Qwen-Image。奖励模子接纳 Qwen3-VL-8B-Instruct,通过读取生成图像里的渲染笔墨、与数据集 ground truth 比对,对生成图像评分。
flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer
算法追想

FlowGRPO 算法走漏
波音(bbin)体育官方网站FlowGRPO 走漏
FlowGRPO 是面向 flow-matching 模子的在线政策枢纽。它通过 diffusion policy 模子作念多步 SDE 采样以远离高效 RL 探索,并接纳基于模子的奖励评估生成质料。
推行经过主要分四步:
Rollout 生成: 扩散 policy 模子生成样本 rollout,爱游戏·体育世界杯(中国)官方网站集结 log probability 和生成图像的轨迹。
奖励模子打分:奖励模子给每个生成样本打分,用于计较 trajectory advantage。
政策优化:用 FlowGRPO CLIP-style loss 更新政策,基于 advantage 优化奖励。
权重同步:如期把 trainer 最新的政策权重同步到 rollout worker,确保生成样本响应最新政策。
LoRA 微调
NVIDIA H800 GPU 上的推行隐隐如下:

把奖励模子放到寥落 GPU 上,与政策推行 overlap,每步 wall-clock 时分裁减约 14%。
全模子微调
团队还考证了 non-CFG 全模子 Qwen-Image OCR 推行,在 4×NVIDIA H200 上达到 0.510 images/GPU/s,每步约 250 s。
底下不错看到,仅 120 步推行后,生成图像的笔墨渲染质料已有显耀提高。

底下是参考推行弧线,critic reward 与 validation reward 都料理清醒。

完好意思推行方向说卓见 Training Metrics 文档。
文档地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html
后续阶梯图
VeRL-Omni 仍处于活跃迭代的预发布阶段,扩散 RL 中枢栈还是清醒。阶梯图聚焦在扩张模子 / 算法守旧,并接续股东高效多模态 RL 推行的范畴。
模子守旧扩张: 跟进开源的扩散和全模态模子,灭绝图像 / 视频 / 音频生成任务以及和谐领会 + 生成任务;
算法守旧扩张: 握续集成清醒、先进的 RL 算法(如 DiffusionNFT);
全异步 RL: 在 actor、rollout、reward 之间走端到端异步活水线,超出刻下的异步奖励范畴,进一步提高推行隐隐和 GPU/NPU 垄断率;
与 vLLM-Omni 协同优化: 生成 rollout 在推行时分中占比很大,将通过更细巧的 vLLM-Omni 集成(并行、量化、batching、更始优化等)接续加快多模态 rollout;
高效全模态 trainer: 在 DiffusersFSDPTrainer 除外,蓄意放出更多针对全模态与扩散模子的高度优化 trainer 引擎,基于 Megatron-core 与 VeOmni;
更广的硬件守旧: 接续打磨昇腾 NPU 旅途,并通过 hardware plugin 系统接待更多硬件后端。
扩散和全模态 RL 后推行仅仅个开动。VeRL-Omni 团队正在握续守旧更多架构与算法爱游戏·体育世界杯(中国)官方网站,接待沿途塑造将来。
