凯发k8娱乐官网搜索智能体RAG落地不佳_UIUC开源s3仅需24k样本训练|白

2025-06-26

  凯发ღ★ღ!凯发首页官网登录ღ★ღ!凯发vipღ★ღ!链条导轨ღ★ღ,当前ღ★ღ,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径ღ★ღ。但在真实实践中ღ★ღ,搜索智能体的强化学习训练并未展现出预期的稳定优势ღ★ღ。一方面ღ★ღ,部分方法优化的目标与真实下游需求存在偏离ღ★ღ,另一方面ღ★ღ,搜索器与生成器间的耦合也影响了泛化与部署效率ღ★ღ。

  我们(UIUC & Amazon)提出的s3(Search-Select-Serve)是一种训练效率极高ღ★ღ、结构松耦合ღ★ღ、生成效果导向的 RL 范式ღ★ღ。该方法使用名为Gain Beyond RAG (GBR)的奖励函数ღ★ღ,衡量搜索器是否真的为生成带来了有效提升ღ★ღ。实验表明ღ★ღ,s3 在使用仅2.4k 训练样本的情况下ღ★ღ,便在多个领域问答任务中超越了数据规模大百倍的强基线(如 Search-R1ღ★ღ、DeepRetrieval)ღ★ღ。

  DeepRetrievalღ★ღ:以 Recallღ★ღ、NDCG 等搜索指标为优化目标ღ★ღ,专注于检索器本身的能力ღ★ღ;Search-R1ღ★ღ:将检索与生成联合建模ღ★ღ,以最终答案是否 Exact Match 作为强化信号ღ★ღ,优化整合式的搜索 - 生成策略ღ★ღ。

  Search-R1 等方法采用Exact Match (EM)作为主要奖励指标白石瞳ღ★ღ,即答案是否与参考答案字面一致ღ★ღ。这一指标过于苛刻ღ★ღ、对语义变体不敏感ღ★ღ,在训练初期信号稀疏白石瞳ღ★ღ,容易导致模型优化「答案 token 对齐」而非搜索行为本身

  无法判断性能提升究竟来自「更好的搜索」ღ★ღ,还是「更强的语言生成对齐能力」ღ★ღ;对 LLM 参数依赖强白石瞳ღ★ღ,不利于模型迁移或集成ღ★ღ;微调大模型成本高白石瞳ღ★ღ,限制了训练效率和模块替换的灵活性ღ★ღ。

  EMღ★ღ、span match 等传统 QA 指标主要关注输出结果白石瞳ღ★ღ,与搜索质量关联有限ღ★ღ。而 search-oriented 指标(如 Recall@K)虽可度量 retriever 性能ღ★ღ,却无法体现这些信息是否真的被模型「用好」ღ★ღ。这些偏差直接导致现有 RL Agentic RAG 方法在评估凯发k8娱乐官网ღ★ღ、训练和泛化上均存在瓶颈ღ★ღ。

  如果我们真正关心的是「搜索提升了生成效果」凯发k8娱乐官网ღ★ღ,那就应该只训练搜索器凯发k8娱乐官网ღ★ღ、冻结生成器ღ★ღ,并以生成结果提升为奖励

  即ღ★ღ:用 s3 搜索到的上下文喂给 Frozen Generator 之后的生成效果ღ★ღ,相比初始的 top-k 检索结果是否更好ღ★ღ。值得注意的是ღ★ღ,s3 训练时始终初始化于相同的原始 queryღ★ღ,从而能清晰对比 s3 检索对结果带来的真实「增益」ღ★ღ。

  两者只要任意一个通过ღ★ღ,则视为正确ღ★ღ。这一指标在人工对比中与人类判断一致率高达96.4%ღ★ღ,相比之下ღ★ღ,EM 仅为15.8%

  我们预筛除掉了「naive RAG 就能答对」的样本ღ★ღ;将训练样本集中在需要真正检索的新信息的任务上ღ★ღ;Generator 完全冻结白石瞳ღ★ღ,训练代价完全集中在 Searcherღ★ღ。

  我们随后在五个医学领域的 QA 数据集上进一步评估了模型性能ღ★ღ,测试使用了两个语料库ღ★ღ:Wikipedia2018(与通用测试一致)和 MedCorp(ACL 2024)ღ★ღ。结果显示ღ★ღ,Search-R1 在其训练语料上表现良好白石瞳ღ★ღ,但在语料变更后显现出过拟合趋势ღ★ღ;相比之下ღ★ღ,s3 能稳定迁移至不同的数据集与语料库ღ★ღ,凸显出其基于 searcher-only 优化策略的强泛化能力ღ★ღ。

  reward 优化曲线 展示了我们的 reward 曲线 个训练步骤(batch size 为 120)内便迅速「收敛」ღ★ღ。这一现象支持两个推断ღ★ღ:(1)预训练语言模型本身已具备一定的搜索能力ღ★ღ,我们只需通过合理的方式「激活」这种能力ღ★ღ;(2)在一定范围内ღ★ღ,适当增加每轮搜索的文档数量和最大轮次数ღ★ღ,有助于提升最终性能ღ★ღ。

  在不同配置下ღ★ღ,移除组件对性能的影响(平均准确率)ღ★ღ。我们使用了三组设定进行对比ღ★ღ,结果表明 s3 的设计在准确性与效率之间达到了最优平衡ღ★ღ。

  「从原始问题开始检索」是方向正确的保障ღ★ღ:我们发现ღ★ღ,以用户原始问题作为第一轮检索的起点ღ★ღ,有助于模型明确搜索目标ღ★ღ、建立有效的检索路径ღ★ღ。若不设置这一初始点ღ★ღ,搜索策略往往偏离主题ღ★ღ,导致性能显著下降ღ★ღ。「文档选择」机制显著降低 token 消耗ღ★ღ:该机制允许模型在每轮检索后主动筛选信息ღ★ღ,从而避免将所有检索结果一股脑送入生成器ღ★ღ。通过这一设计ღ★ღ,s3 的输入 token 平均减少了 2.6 至 4.2 倍ღ★ღ,不仅提升了效率ღ★ღ,也减少了噪声干扰ღ★ღ,对生成效果有正面作用ღ★ღ。

  总体来看凯发k8娱乐官网ღ★ღ,s3 设计中的「起点初始化 + 动态选择」是支撑其高效ღ★ღ、强泛化性能的关键ღ★ღ。即使在某些数据集上通过增加输入内容能获得短期增益ღ★ღ,s3 原始结构在训练效率ღ★ღ、推理速度与生成准确率上依然展现出更稳定的优势ღ★ღ。

  A1ღ★ღ:Search-R1 原文使用 Exact Match(EM)作为 reward 和评估指标ღ★ღ,并对模型进行了针对性微调ღ★ღ。将这种针对 EM 优化的模型ღ★ღ,与其他 zero-shot 方法比较ღ★ღ,略显不公平ღ★ღ,也难以衡量搜索本身的效果ღ★ღ。因此我们采用更语义友好的 Generation Accuracy(GenAcc)ღ★ღ,结合 span 匹配和 LLM 判断ღ★ღ,与人类评估一致率达 96.4%ღ★ღ。相比之下白石瞳ღ★ღ,EM 只能捕捉字面一致ღ★ღ,反而容易误导模型优化方向ღ★ღ。

  A2ღ★ღ:我们设计 s3 的核心理念是ღ★ღ:如果我们想真正优化搜索效果ღ★ღ,不应让生成器被训练ღ★ღ,否则会混淆「搜索变好」与「语言模型变强」带来的增益ღ★ღ。冻结生成器不仅提升了训练效率(节省大模型微调成本)ღ★ღ,也便于模型迁移到不同任务与生成器ღ★ღ,真正做到「搜索能力即插即用」凯发k8娱乐官网ღ★ღ。