高效搜索Agent框架来了搜索Agent提速三倍延迟降五倍
搜索型AI越来越能干,但查得慢、算得慢,效率却上不去。南开大学和UIUC提了套新方案:SearchAgent-X,专治这类“聪明但卡顿”的问题。
它盯上两大痛点:
- 查太准不一定快:检索精度高,反而拖累整体速度;适度模糊查,支持推理反而更高效。
- 慢一点影响成倍放大:信息查回来晚,模型缓存被挤掉,要重算,延迟最多放大83倍。
为此,SearchAgent-X用上两招:
- 优先级调度:让“缓存价值高”的任务优先处理;
- 无停顿检索:信息够用就收手,不让生成端干等。
实测结果:
- 吞吐量提升1.3~3.4倍,延迟降到原来的1/5;
- 回答准确率不降,部分还小幅上升。
适合所有需要“边想边查”的AI系统,比如搜索引擎、问答平台等。