VeRL-Omni

Getting Started

Installation
Supported Models
Quickstart: FlowGRPO training on OCR dataset
Multi-Node Training
Training Metrics

Advanced Features

Async Reward for Diffusion Training
Rollout Correction for Diffusion Training (Experimental)
Using an External HTTP Scorer Service

Algorithms

Flow-GRPO
Flow-DPPO
Diffusion-DPO
DiffusionNFT
GRPO-Guard
Mix-GRPO
Performance Reference

Performance Tuning Guide

Diffusion FLOPs / MFU
Profiling FlowGRPO / diffusion training in VeRL-Omni

Hardware Support

Quickstart: FlowGRPO training on Qwen-Image OCR dataset with Ascend NPU

API Reference

Trainer Interface
Workers Interface
Rollout & Agent Loop
Reward Interface
Pipelines Interface
Utilities

Developer Guide

Editing Agent Instructions
CI/CD Layers
Testing Guide
How to Integrate a New Diffusion Model for FlowGRPO Training
How to Integrate an Image-to-Image Diffusion Model
How to Integrate a Non-Diffusers Model for FlowGRPO Training
How to Add Continuous Batching (Stepwise) Support for a Diffusion Model
How to Integrate a New Policy-Gradient Algorithm for Diffusion Model
How to Integrate a New Direct-Preference Algorithm for Diffusion Model
Common Pitfalls

VeRL-Omni

Overview: module code

All modules for which code is available

verl_omni.agent_loop.diffusion_agent_loop
verl_omni.agent_loop.single_turn_agent_loop
verl_omni.pipelines.model_base
verl_omni.pipelines.qwen_image_flow_grpo.diffusers_training_adapter
verl_omni.pipelines.qwen_image_flow_grpo.vllm_omni_rollout_adapter
verl_omni.pipelines.qwen_image_mix_grpo.diffusers_training_adapter
verl_omni.pipelines.qwen_image_mix_grpo.vllm_omni_rollout_adapter
verl_omni.pipelines.schedulers.flow_match_sde
verl_omni.pipelines.sd3_dpo.diffusers_training_adapter
verl_omni.pipelines.utils
verl_omni.reward_loop.reward_loop
verl_omni.reward_loop.reward_manager.visual
verl_omni.trainer.config.algorithm
verl_omni.trainer.diffusion.diffusion_algos
verl_omni.trainer.diffusion.diffusion_metric_utils
verl_omni.trainer.diffusion.ray_diffusion_trainer
verl_omni.trainer.main_diffusion
verl_omni.utils.dataset.rl_dataset
verl_omni.utils.fs
verl_omni.utils.fsdp_utils
verl_omni.utils.reward_score

verl_omni.utils.reward_score.genrm_ocr
verl_omni.utils.reward_score.http_scorer_client
verl_omni.utils.reward_score.jpeg_compressibility
verl_omni.utils.reward_score.reward_utils
verl_omni.utils.reward_score.unified_reward

verl_omni.utils.vllm_omni.utils
verl_omni.workers.config.diffusion.actor
verl_omni.workers.config.diffusion.model
verl_omni.workers.config.diffusion.rollout
verl_omni.workers.engine.fsdp.diffusers_impl
verl_omni.workers.engine.lora_adapter_mixin
verl_omni.workers.engine_workers
verl_omni.workers.rollout.replica
verl_omni.workers.rollout.vllm_rollout.utils
verl_omni.workers.utils.losses
verl_omni.workers.utils.padding

© Copyright 2026 Bytedance Ltd. and/or its affiliates.

Built with Sphinx using a theme provided by Read the Docs.