如何提高智能体系统准确率智能体系统准确率提升框架在生产级智能体系统里,大语言模型

量子位看科技 2025-08-04 13:26:19

如何提高智能体系统准确率智能体系统准确率提升框架

在生产级智能体系统里,大语言模型(LLM)执行多步任务,准确率始终是个难题。

而Digital China提出的Routine框架,能用结构化脚本来规范LLM的执行路径,从而显著提高执行准确率。

1. 提升准确率靠拆步骤

【图2】展示了一个典型任务:用户想查Project_X参与人数。Routine让模型明确写好下列步骤:

- 第一步:调用`get_project_id`工具查ID;

- 第二步:用ID去调用`get_participants`查人;

每一步都写清楚目标、工具名和参数格式,让执行模型只管按流程跑。

2. 模块拆分让执行更稳定

【图3】展示了整体结构:Routine把智能体系统拆成“计划-执行-工具调用-记忆”四大模块。

- Planning Model生成执行脚本;

- Execution Model负责照做;

- MCP Server中转工具指令;

- 两种Memory(Procedure+Variable)负责复用旧流程、压缩输入长度。

这种模块化设计降低了模型的自由发挥空间,执行自然更准。

3. 效果提升如何?从实验数据看:

- GPT-4o执行准确率从41.1%飙升到96.3%;

- Qwen3-14B从32.6%提升到83.3%;

- 用Routine蒸馏再精调后,Qwen模型准确率最高达到**95.5%**,几乎追上GPT-4o。

这再次印证,只要流程定得好,小模型也能精准完成复杂任务。

4. AI自己也能写Routine

【图4】展示了一个完整交互过程:专家先写出任务逻辑草稿,GPT-4o优化成标准Routine,执行模型根据任务调用多个工具完成操作。整个过程可以自动化、可复用,甚至支持知识蒸馏给小模型。

Routine的作用不是让LLM更“聪明”,而是让它不犯错。通过结构化流程引导、合理拆模、精准参数传递和记忆模块支撑,即使是轻量模型,也能在智能体场景里跑出高准确率。

原文链接:arxiv.org/abs/2507.14447

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注