Hierarchical Masked 3D Diffusion Model for Video Outpainting

This paper introduces a hierarchical masked 3D diffusion model (M3DDM) that leverages mask modeling and global-frame cross‑attention to achieve temporally consistent video outpainting, proposes a hybrid coarse‑to‑fine inference pipeline to mitigate error accumulation in long videos, and demonstrates state‑of‑the‑art results on benchmark datasets.

3D U-NetAItemporal consistency

0 likes · 13 min read

Hierarchical Masked 3D Diffusion Model for Video Outpainting

Alimama Tech

Jan 24, 2024 · Artificial Intelligence

Hierarchical Masked 3D Diffusion Model for Video Outpainting

The Hierarchical Masked 3D Diffusion Model (M3DDM) introduces a masking‑based training strategy and cross‑attention with global video clips to achieve temporally consistent video outpainting, while a hybrid coarse‑to‑fine inference pipeline mitigates error accumulation, delivering state‑of‑the‑art results and deployment in Alibaba’s creative center.

3D diffusionACM MM2023AI video processing

0 likes · 12 min read