Tagged articles

visual generation

12 articles · Page 1 of 1

May 30, 2026 · Artificial Intelligence

Fei‑Fei Li’s Team Unveils GPIC: A 100‑Million‑Pair Image‑Text Corpus to Supersede ImageNet

The article explains why ImageNet has become obsolete for visual generation, introduces the newly released GPIC dataset of 100 million image‑text pairs with 28 trillion pixels, describes its four‑stage construction pipeline, new FD‑DINOv2 evaluation metric, and a reference baseline model, positioning GPIC as the next common benchmark for the field.

AI evaluationFD-DINOv2Fei-Fei Li

0 likes · 10 min read

Fei‑Fei Li’s Team Unveils GPIC: A 100‑Million‑Pair Image‑Text Corpus to Supersede ImageNet

Machine Learning Algorithms & Natural Language Processing

May 21, 2026 · Artificial Intelligence

Visual Generation Meets Slow Thinking: Decoding New Multimodal Reasoning Paradigms from CVPR 2026

This article curates ten standout CVPR 2026 papers that introduce novel multimodal interaction frameworks, active video avatars, unified image customization, artistic poster generation, information‑theoretic video compression, all‑purpose visual reasoning models, 3D‑grounded spatial reasoning, interleaved text‑visual generation, and unified fine‑grained video understanding, each achieving state‑of‑the‑art performance.

AI researchCVPRMultimodal

0 likes · 13 min read

Visual Generation Meets Slow Thinking: Decoding New Multimodal Reasoning Paradigms from CVPR 2026

AIWalker

Apr 20, 2026 · Artificial Intelligence

How VA‑π Bridges Tokenizers and Autoregressive Generators for Pixel‑Perfect Images

VA‑π introduces a lightweight post‑training framework that uses variational inference and reinforcement learning to align tokenizers with visual autoregressive generators, achieving dramatic quality gains, extreme training efficiency, and robust pixel‑level reconstruction across diverse image generation tasks.

Autoregressive ModelsPixel Alignmentpost-training

0 likes · 14 min read

How VA‑π Bridges Tokenizers and Autoregressive Generators for Pixel‑Perfect Images

Design Hub

Dec 12, 2025 · Artificial Intelligence

GPT-5.2 Unveiled: A Cutting-Edge AI Super-Assistant Built for Real-World Work

OpenAI's newly released GPT-5.2 claims to outperform human experts on about 70% of real tasks, achieve a perfect score on the AIME 2025 competition, and deliver dramatic efficiency gains—up to 390× cost reduction—while showcasing impressive examples such as one‑shot ocean shader generation, a full 3D engine built in a single file, and visual‑perception scores rivaling top models.

AI benchmarksAgent AIDesign Automation

0 likes · 8 min read

GPT-5.2 Unveiled: A Cutting-Edge AI Super-Assistant Built for Real-World Work

JD Retail Technology

Nov 4, 2025 · Artificial Intelligence

How AIGC Is Transforming E‑commerce with Personalized Visual Content

This article explains how large‑model AIGC technology reshapes e‑commerce by enabling mass‑produced, user‑profile‑driven visual assets, detailing the evolution from early online trade to the 2.0 era, the technical pipeline of multimodal models, and the practical impact on merchants.

AIGCLarge Language ModelsMultimodal AI

0 likes · 17 min read

How AIGC Is Transforming E‑commerce with Personalized Visual Content

Data Party THU

Oct 13, 2025 · Artificial Intelligence

How BranchGRPO Accelerates and Stabilizes Diffusion Model Alignment

BranchGRPO introduces a tree‑structured branching, reward‑fusion, and lightweight pruning framework that dramatically speeds up diffusion and flow model training while delivering denser, more stable reward signals, achieving up to five‑fold faster convergence and higher alignment scores on image and video generation benchmarks.

BranchGRPODiffusion ModelsEfficiency

0 likes · 10 min read

How BranchGRPO Accelerates and Stabilizes Diffusion Model Alignment

Data Party THU

Oct 6, 2025 · Artificial Intelligence

How OneCAT Redefines Multimodal AI with a Decoder‑Only Architecture

OneCAT introduces a unified decoder‑only transformer that eliminates separate visual encoders, employs a modality‑specific MoE, integrates multi‑scale visual generation, and achieves state‑of‑the‑art performance and efficiency across multimodal understanding, text‑to‑image synthesis, and image editing tasks.

AI ModelEfficiencyMultimodal

0 likes · 14 min read

How OneCAT Redefines Multimodal AI with a Decoder‑Only Architecture

AIWalker

May 6, 2025 · Artificial Intelligence

SimpleAR: High‑Quality 1024×1024 Images with Just 0.5B Parameters via Pretraining, SFT, and RL

SimpleAR demonstrates that a vanilla autoregressive model with only 0.5 B parameters can generate high‑fidelity 1024×1024 images, covering pretraining, supervised fine‑tuning, and reinforcement learning, achieving competitive GenEval (0.59) and DPG‑Bench (79.66) scores while reducing inference time to about 14 seconds with vLLM and KV‑cache optimizations.

BenchmarkSupervised Fine‑Tuningautoregressive

0 likes · 14 min read

SimpleAR: High‑Quality 1024×1024 Images with Just 0.5B Parameters via Pretraining, SFT, and RL

58UXD

Apr 10, 2025 · Artificial Intelligence

How AI Transforms Financial UI Design: From Persona Copy to Visual Branding

This article explains how AI tools were used to redesign financial product feedback and empty states, linking personalized copy and brand visuals to improve clarity, brand penetration, and emotional comfort, ultimately turning every user interaction into an empathetic connection.

.aibrand personafinancial UX

0 likes · 6 min read

How AI Transforms Financial UI Design: From Persona Copy to Visual Branding

DataFunTalk

Feb 26, 2025 · Artificial Intelligence

Alibaba Cloud's Wanxiang 2.1: Open‑Source Dual‑Version Visual Generation Model with Full‑Scale Capabilities

Wanxiang 2.1, an open‑source visual generation model released by Alibaba Cloud, offers a 140‑billion‑parameter professional version and a 13‑billion‑parameter consumer‑grade version, delivering SOTA performance across multiple benchmarks, supporting diverse video generation tasks, and employing advanced DiT‑based architecture, 3D VAE, and efficient distributed training strategies.

AI ModelDeep Learningvisual generation

0 likes · 11 min read

Alibaba Cloud's Wanxiang 2.1: Open‑Source Dual‑Version Visual Generation Model with Full‑Scale Capabilities

Kuaishou Tech

Jul 31, 2024 · Artificial Intelligence

Kuaishou’s Kolors Text‑to‑Image Model: Architecture, Evaluation, and Real‑World Applications

The article presents a comprehensive overview of Kuaishou’s Kolors (formerly 可图) multimodal generative model, detailing its data collection strategy, diffusion‑based architecture, evaluation metrics, derived capabilities such as prompt refinement and interactive generation, and a range of practical applications from AI‑powered live‑stream gifts to virtual try‑on, while also offering strategic advice for the domestic visual‑generation community.

AI ApplicationsDiffusion ModelsKolors

0 likes · 27 min read

Kuaishou’s Kolors Text‑to‑Image Model: Architecture, Evaluation, and Real‑World Applications

Alibaba Cloud Developer

May 9, 2018 · Artificial Intelligence

How AI Is Revolutionizing Visual Design: Inside Alibaba’s “Lu Ban” Engine

This article explores the rise of AI‑driven visual generation, detailing the definition, goals, industry challenges, technical framework, key algorithms, real‑world applications, and future prospects of Alibaba’s “Lu Ban” intelligent design system.

Design Automationvisual generation

0 likes · 10 min read

How AI Is Revolutionizing Visual Design: Inside Alibaba’s “Lu Ban” Engine