Jun 20, 2026 · Artificial Intelligence

Claw-Anything: Cross‑Device, Cross‑Time, Cross‑Service Benchmark for Scaling AI Agents (GPT‑5.5 Pass@1 = 34.5%)

Claw-Anything introduces a large‑scale, multi‑service benchmark that evaluates AI agents across long‑term histories, dozens of applications, and both GUI and CLI interfaces, revealing that even top‑tier closed‑source models like GPT‑5.5 achieve only a 34.5% pass rate while open‑source fine‑tuning gains a 23.7% improvement.

AI agentsClaw-AnythingGPT-5.5

0 likes · 12 min read

Claw-Anything: Cross‑Device, Cross‑Time, Cross‑Service Benchmark for Scaling AI Agents (GPT‑5.5 Pass@1 = 34.5%)

Claw-Anything: Cross‑Device, Cross‑Time, Cross‑Service Benchmark for Scaling AI Agents (GPT‑5.5 Pass@1 = 34.5%)

Claw-Anything: Cross‑Device, Cross‑Time, Cross‑Service Benchmark for Scaling AI Agents (GPT‑5.5 Pass@1 = 34.5%)