Cursor’s Own Large‑Model Benchmark Shakes Up SWE‑bench Rankings

Although SWE‑bench scores for top coding models now differ by only a tenth of a point, Cursor’s newly released CursorBench reveals dramatic ranking changes, highlights three fundamental flaws in public benchmarks, and introduces token‑efficiency as a crucial evaluation dimension.

AI codingCursorBenchLarge Language Model

0 likes · 8 min read

Cursor’s Own Large‑Model Benchmark Shakes Up SWE‑bench Rankings