Are Small Models the Core Component of Agent Systems?
The article analyzes how advancing small‑model capabilities are shifting agent system design from merely checking if a model can run under resource limits to evaluating its suitability for specific tasks, thereby redefining model selection logic and workflow partitioning.
从「能否运行」到「是否适合」的评判转变
2020‑2024 期间,大语言模型规模持续扩大,计算、内存和部署成本同步上升,导致移动设备和边缘硬件难以承载。多篇综述[1‑1][1‑2][1‑3]将小模型的研究动因明确为资源受限场景的部署需求。
2024 年 8 月,Meta 等在综述中指出端侧部署的核心矛盾是大模型的高计算开销与移动/边缘硬件的严格资源限制[1‑4][1‑5]。同年 10 月,俄勒冈大学等进一步强调小模型能够在端侧以低资源开销完成本地推理,从而降低部署门槛[1‑6]。
在资源受限的初始阶段,系统仅判断小模型是否能够稳定运行。进入 2025 年后,随着小模型能力提升,系统开始评估其在具体任务上的适配性。北京邮电大学等在 ACL 2025 的论文中报告,Phi 系列在多数通用任务上优于 7B 级模型,Qwen2‑1.5B 在特定任务上表现更佳,证明小模型已具备可替代更大模型的任务可用性[1‑7]。
小模型在 Agent 系统中的「定岗」
当小模型的任务可用性得到确认后,模型分配进入系统设计层面。小模型从「资源约束下的可运行组件」转变为「按任务能力配置的执行单元」,模型选择依据从「是否可用」转向「任务分配」[1‑8][1‑9][1‑10]。
GPT‑5.4 使用指南和 Codex 文档将模型划分为不同层级:nano 负责高频结构化任务(分类、抽取、排序),mini 负责子任务、工具使用和轻量编程,更高规格模型保留给复杂推理和主线程决策。该层级划分体现了模型在工作流中按环节分配的原则。
模型选择逻辑的整体编排
任务链路被拆解后,模型选择不再是单一步骤的取舍,而是整体管线的组合优化。小模型因体积轻、响应快,适合承担规划、检索、执行、校验、汇总等细粒度环节,使得系统能够在每个子任务上匹配最合适的模型规模。
这种从「能否跑」到「是否适合」的评判转变,重新定义了模型边界,推动了 Agent 系统向更细粒度的工作流划分和整体编排方向演进。
Code example
1、2020 年至 2024 年前后,大语言模型沿着做大规模的路线持续提升能力,计算、内存和部署成本也同步上升。随着通用能力越来越集中到大语言模型上,移动设备与边缘硬件承接模型的压力随之增加,小模型也更早在端侧和边缘场景中获得持续采用。到 2024 年前后,相关综述将这一矛盾系统化,并将小模型的研究动因更明确地指向资源受限条件下的部署需求。[1-1][1-2][1-3]
① 2024 年 8 月,Meta 等机构研究者在综述中指出,端侧部署的核心矛盾在于大语言模型计算开销高,而移动设备和边缘硬件的资源约束较强。[1-4][1-5]
② 2024 年 10 月,俄勒冈大学等机构研究者在综述中指出,小模型的重要性与其能够在端侧、移动端和边缘设备上以较低资源开销完成本地推理直接相关。[1-6]
2、在资源受限背景下,小模型最初进入系统时,系统优先判断的是它能否在受限环境中稳定运行。到 2025 年以后,随着模型能力继续提升,小模型在部分通用任务上开始具备更明确的任务可用性,系统对小模型的判断标准也由部署可行性,进一步转向任务适配性和环节分工。[1-7]
① 北京邮电大学等在 ACL 2025 的论文中指出,先进小模型在部分通用任务上的结果已超过部分 7B 级模型,其中 Phi 系列在多数任务中保持较优表现,Qwen2-1.5B 在特定任务上优势更为明显。[1-7]
3、在小模型具备任务可用性的前提下,模型分配开始进入系统设计。小模型在系统中的角色从「资源约束下的可运行组件」,转向「按任务能力配置的执行单元」,模型选择也随之由是否可用转向任务分配,小模型进入系统的依据因此进一步从资源约束下的可运行性,转向任务链路中的适配性。[1-8][1-9][1-10]How this landed with the community
Was this worth your time?
0 Comments
Thoughtful readers leave field notes, pushback, and hard-won operational detail here.
