How SPG’s Sandwich Gradient Boosts Diffusion Language Models Across Four Benchmarks

The SPG algorithm introduces a sandwiched policy gradient that uses computable lower and upper evidence bounds to align reinforcement learning for discrete diffusion language models, achieving faster convergence, higher peaks, and lower variance on four major reasoning benchmarks.

Diffusion Language ModelEUBOReinforcement Learning

0 likes · 9 min read

How SPG’s Sandwich Gradient Boosts Diffusion Language Models Across Four Benchmarks