0.6B 模型干翻 1.7B:小模型不是 shrunk 大模型,是另一种物种
大模型竞赛有一条默认规则:参数越大,能力越强。但最近一篇论文扔进来一个反例——0.6B 参数的 OCC-RAG,在忠实性问答任务上超过了 2.8 倍大的 Qwen3-1.7B,多跳推理上比专用基线 Pleias-RAG-1.7B 高了 21.6 分。
这不是"小模型也能用"的安慰剂。这是"小模型在特定任务上可以碾压大模型"的实证。
一、核心问题:上下文 vs 参数知识
RAG(检索增强生成)的核心矛盾是:模型到底该信自己背下来的知识,还是信你刚给的文档?
当上下文和模型内部知识冲突时——比如文档说"戴高乐是美国第一任总统"(反事实),问"谁是美国第一任总统?"——大多数模型会回答"华盛顿"(参数知识优先),而不是"戴高乐"(上下文优先)。
OCC-RAG 的论文作者做了这个测试:
| 模型 | 回答 | 行为 |
|---|---|---|
| Llama-3.3-70B | 戴高乐 | 忠实(跟随上下文) |
| OCC-RAG-1.7B | 戴高乐 | 忠实 |
| Meta-Llama-3-8B | 华盛顿 | truthful(参数知识优先) |
| Meta-Llama-3-1B | 特朗普 | 幻觉 |
注意:1.7B 的 OCC-RAG 和 70B 的 Llama 表现一致,8B 的 Llama 反而翻了车。这说明忠实性不是规模问题,是训练问题。
二、三大能力的结构设计
OCC-RAG 不是通用模型,是任务专用模型。它只优化三个能力:
1. 多跳推理(Multi-hop Reasoning)
问题需要跨多个文档段落才能回答。比如:"A 和 B 合作写了什么书?"→ 先找 A 和 B 的合作关系,再找具体作品。
训练数据用知识图采样推理路径生成,确保多跳结构可控。300 万数据里,多跳样本被过采样(每个多跳样本出现 3 次,单跳只出现 1 次)。
2. 上下文锚定(Context Grounding)
模型必须学会"忽略自己知道的,只信你给的"。这是反事实测试通过的原因。
训练数据里加入了大量与模型参数知识冲突的上下文——故意在文档里放反事实陈述,让模型在训练中反复练习"上下文优先"。
memorization ratio(记忆率)从 Qwen3-1.7B 的 12.7% 降到 OCC-RAG-1.7B 的 5.0%。这意味着模型更不容易被自己的知识带偏。
3. 校准拒答(Calibrated Abstention)
当信息不足时,模型应该说"我不知道",而不是瞎编。
训练数据里有大量"不可答"样本——上下文被替换或删减,确保正确答案不存在。模型学会判断什么时候该输出 "Not enough information"。
拒答准确率(R-Acc):OCC-RAG-1.7B 达到 87.2%,和 8B 参数模型持平。
三、300万合成数据的生成策略
这是论文最工程化的部分,也是最难复制的部分。
OCC-RAG 的训练数据不是从网上抓的,是全合成生成。生成流程分三层:
| 层级 | 内容 | 作用 |
|---|---|---|
| 单跳(Single-hop) | 单个文档直接回答 | 建立基础 QA 能力 |
| 多跳单上下文 | 多个问题在同一段文档 | 练习局部信息整合 |
| 多跳多上下文 | 问题跨多个文档 | 练习全局信息整合 |
关键技术细节:
- 知识图采样:从知识图谱中采样推理路径,确保多跳逻辑可控
- 相似干扰段落:在上下文中加入与问题相关但不含答案的段落,训练模型区分"相关"和"有用"
- 不可答样本:系统性地删除或替换关键信息,制造"无法回答"的场景
300万数据,9B token,8张 H100 训练 17-28 小时。
四、结构化输出:不只是格式,是训练信号
OCC-RAG 的输出不是直接给答案,而是带推理轨迹和引用的结构化输出:
Query Analysis: [问题分析]
Source Analysis: [源1] 引用原文...
[源2] 引用原文...
Reasoning: [推理步骤]
Final Answer: [答案]
Answerable: YES/NO
这种格式不是后处理加的,是训练时就要求的。损失函数只计算 response token 的 loss,而 response 必须包含这个结构。
好处:
- 可解释性:你能看到模型为什么给出这个答案
- 可验证性:引用是原文逐字引用,可以人工核对
- 训练信号:结构化推理强制模型按步骤思考,而不是跳步
五、基准测试结果
多跳推理(MuSiQue)
- OCC-RAG-0.6B: 79.9
- Pleias-RAG-1.2B: 37.3(差距 21.6 分)
- Qwen3-1.7B: 64.8
- Qwen3-4B: 69.7
忠实性(ConFiQA)
- OCC-RAG-0.6B: 36.6
- Qwen3-1.7B: 20.1(差距 9.5 分)
- Qwen3-4B: 33.1
拒答(MuSiQue-Un)
- OCC-RAG-1.7B: 87.2
- Qwen3-8B: 90.7(只有 8B 以上模型略超)
- Qwen3-1.7B: 54.7
关键观察:
- 忠实性和拒答是 OCC-RAG 最强的维度——这两项恰恰是"上下文优先"的直接体现
- 多跳推理上,0.6B 超过 4B 通用模型,1.7B 接近 4B 思考模式
- 通用模型(Qwen3、Gemma3)在 8B 以上才有明显优势,但 OCC-RAG 用 1/6 的参数达到了 80% 的性能
六、为什么小模型能赢?
论文的结论很直白:
"Faithfulness does not require scale alone: it can be learned through the right training curriculum and supervision format."
翻译:忠实性不需要大模型,只需要对的训练课程和监督格式。
这背后的逻辑是:
- 通用模型训练目标是"知识覆盖"——参数里塞满世界知识,回答时优先调用这些知识
- OCC-RAG 训练目标是"上下文推理"——参数里只保留推理结构,所有事实必须从上下文提取
两者的差别不是大小,是设计哲学。通用模型像百科全书,OCC-RAG 像侦探——百科全书知道很多,但侦探更擅长从眼前证据推导结论。
七、落地价值:可以直接用
论文已经放出两个 checkpoint:
- OCC-RAG-0.6B(基于 Qwen3-0.6B-Base)
- OCC-RAG-1.7B(基于 Qwen3-1.7B-Base)
可以直接接进 RAG pipeline:
- 检索器召回文档
- 把文档 + 问题丢给 OCC-RAG
- 拿到带引用的结构化答案
不需要自己训练。如果要求更高,可以用他们的数据生成 pipeline 在自己的领域数据上继续 mid-training。
一句话总结
OCC-RAG 证明了一件事:小模型不是大模型的缩水版,而是另一种物种。当任务足够明确(忠实性问答)、训练数据足够精准(300万合成样本)、输出结构足够约束(带引用的推理轨迹),0.6B 参数可以干翻 1.7B 通用模型。规模竞赛的终点不是更大的模型,是更对的模型。
论文地址:https://arxiv.org/abs/2606.00683
模型下载:https://huggingface.co/occ-team(假设)
#RAG #小模型 #上下文问答 #忠实性 #多跳推理 #OCC-RAG
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。