Tagged articles

evaluation benchmark

5 articles · Page 1 of 1

Jun 11, 2026 · Artificial Intelligence

Do Large Language Models Truly Grasp Phrase Semantics? Findings from ACL 2026 Oral

The SemanticQA benchmark breaks phrase‑level semantic understanding into extraction, categorization and interpretation tasks, evaluates over ten models—including GPT‑5, Claude Sonnet and Gemini 2.5 Pro—and reveals systematic gaps, performance drops with finer categories, and error propagation in multi‑step pipelines.

Large Language ModelsSemanticQAevaluation benchmark

0 likes · 18 min read

Do Large Language Models Truly Grasp Phrase Semantics? Findings from ACL 2026 Oral

SuanNi

Feb 23, 2026 · Artificial Intelligence

How FireRed-Image-Edit Sets New Standards for AI-Powered Image Editing

FireRed-Image-Edit, an open‑source instruction‑driven diffusion model, combines massive high‑quality data, a dual‑stream multimodal architecture, progressive training, and a comprehensive multi‑dimensional benchmark to achieve unprecedented pixel‑level control and human‑like editing performance across diverse visual tasks.

AIData EngineeringDiffusion Models

0 likes · 12 min read

How FireRed-Image-Edit Sets New Standards for AI-Powered Image Editing

AI Frontier Lectures

Oct 29, 2025 · Artificial Intelligence

Why Early DI Attacks Outperform Modern Methods: A Systematic Study of Transferable Adversarial Images

This paper systematically evaluates 23 transferable adversarial attacks and 11 defenses on ImageNet, revealing that early DI attacks surpass newer methods when hyper‑parameters are fairly set, diffusion defenses offer false security, and higher transferability often reduces stealthiness, urging fair benchmarking and comprehensive metrics.

ImageNetadversarial attacksdeep learning robustness

0 likes · 7 min read

Why Early DI Attacks Outperform Modern Methods: A Systematic Study of Transferable Adversarial Images

Bilibili Tech

Nov 5, 2024 · Artificial Intelligence

Bilibili's In-House Role-Playing Large Language Model: Architecture, Training Stages, Evaluation, and Demonstrations

Bilibili’s in‑house role‑playing large language model, built on the Index architecture and refined through pre‑training, supervised fine‑tuning, and preference optimization (PPO and DPO), achieved top scores on the Chinese CharacterEval benchmark, surpassing rivals while incorporating safety alignment and showcasing consistent, personality‑driven dialogue examples.

Content SafetyPreference OptimizationSupervised Fine‑Tuning

0 likes · 13 min read

Bilibili's In-House Role-Playing Large Language Model: Architecture, Training Stages, Evaluation, and Demonstrations

DataFunTalk

Jan 12, 2023 · Artificial Intelligence

Tencent AI Lab's Advances in High‑Fidelity 3D Face Digitization and Evaluation

This article presents Tencent AI Lab's recent research on efficient 3D face digitization—including single‑photo, multi‑photo, and RGB‑D selfie pipelines—describes a detailed production workflow, introduces a new evaluation benchmark (REALY), and shares insights from a technical Q&A session.

3D face reconstructionAI LabDifferentiable Rendering

0 likes · 11 min read

Tencent AI Lab's Advances in High‑Fidelity 3D Face Digitization and Evaluation