Feb 20, 2025 · Artificial Intelligence

Offline Multi-Agent Reinforcement Learning via In‑Sample Sequential Policy Optimization (InSPO)

The paper introduces InSPO, an offline multi‑agent reinforcement‑learning algorithm that integrates behavior‑regularized Markov games with in‑sample sequential policy updates, using inverse KL divergence and maximum‑entropy regularization to avoid out‑of‑distribution joint actions, improve coordination, and achieve monotonic improvement toward Quantized Response Equilibrium, validated on XOR, bridge, and StarCraft II benchmarks.

StarCraft IIbehavior regularizationbridge game

0 likes · 19 min read

Offline Multi-Agent Reinforcement Learning via In‑Sample Sequential Policy Optimization (InSPO)