ALEX.BLOG

实验模型：google/gemma-3-4b-it (bfloat16)
评测集：GSM8K (Test Subset n=200)

1. 引言：当 Scaling Law 遇上“推理时计算”

在过去两年，业界对大语言模型的优化主要集中在预训练（Pre-training）和后训练（Post-training）阶段。随着Scaling Laws的边际效率发生变化，LLM 技术叙事正在发生微妙的偏移。我们不再单纯迷信万亿参数的 Scaling Laws，同时开始关注模型效率、推理潜力、隐私本地化和Agent长链推理的应用。

对于像 Gemma-3-4B 这样部署在消费级显卡甚至手机设备上的模型，参数量的物理限制决定了它无法像 70B 模型那样“记住”海量的隐性知识。一个值得探索的方向是，如何利用上下文信息作为隐式梯度，动态引导模型在推理过程中的注意力。本文实验探究了 Gemma-3-4B 在处理多步逻辑推理任务时的动态适应能力，特别是对比分析了显式思维链（CoT）与检索增强生成（RAG）在数学推理领域的效果差异。评估不同 In-Context Learning (ICL) 策略在数学推理任务上的表现。

2. 实验设计与方法论

为了保证结论的工程严谨性，本次实验构建了一个自动的评估流水线。

基座模型：Gemma-3-4B-Instruct，采用 bfloat16 加载，模拟真实的端侧推理环境。
任务目标：GSM8K，随机抽取 200 条测试样本。
评估标准：Exact Match (EM)，编写 Regex 自动提取输出中的数值答案与标准答案对比。

共设计了四组对比实验，分别代表了当前 ICL 的不同范式：

Group A: Zero-Shot (Baseline)
- Prompt: Question: {question}\nAnswer:
- 目的: 测定模型内建参数知识的基线。
Group B: Few-Shot (Random)
- Prompt: 随机抽取 3 个训练集样本 {Q, A} 作为前缀。
- 目的: 激活上下文学习能力，规范输出格式。
Group C: Few-Shot (RAG - Semantic)
- Prompt: 使用 sentence-transformers (all-MiniLM-L6-v2) 检索与当前问题语义最相似的 3 个样本。
- 目的: 测试“知识/语义增强”对逻辑推理的有效性。
Group D: Chain-of-Thought (CoT)
- Prompt: 3-shot + 强制模型在 Answer 部分输出 "Let's think step by step..." 并展示完整过程。
- 目的: 激活“系统 2”慢思考模式。

3. 核心实验结果

实验结果呈现出显著的层级差异，数据统计如下：

策略 (Strategy)	准确率 (Accuracy)	相对基线提升 (Lift)	核心特征
Zero-Shot	48.5%	-	基线水平
Few-Shot (RAG)	55.0%	+13.4%	语义检索成绩低于随机
Few-Shot (Random)	57.5%	+18.6%	格式规范带来显著增益
CoT (思维链)	67.0%	+38.1%	当前实验条件下最优

4. 深度洞察 (Insights)

💡 洞察一：CoT 的本质是降低条件熵

在 Zero-Shot 模式下，模型试图直接拟合一个极其复杂的分布 $P(y|x)$。对于 4B 这样层数较浅的模型，直接完成从 $x$（问题）到 $y$（最终数字）的非线性映射非常困难。

思维链（CoT）为复杂逻辑任务带来了质的飞跃。这验证了 Wei et al. (2022) 的理论：模型通过生成中间步骤 $z_t$，实际上是将复杂的高难度目标分解为了一系列条件概率链：$$P(y|x) \approx \prod_{t=1}^{T} P(z_t | x, z_{<t})$$ 在计算中引入中间步骤 $z_t$ 显著降低了每一步预测的条件熵，使复杂逻辑链条中的每一步都更易预测，这相当于拓展了模型有限的“工作记忆”。这种模式对应了丹尼尔·卡尼曼提出的 “System 2”（慢思考）。

结果案例样本 (Sample ID 63):
问题：Aleena 的流媒体服务每月 140 美元。前半年原价，后半年打 9 折。求总花费。
Zero-Shot (Fail)：模型直接尝试计算，给出了 966 的错误答案。
CoT (Success)：

"First, calculate the cost for the first half: 140 * 6 = 840. Next, calculate the discounted price: 140 * 0.9 = 126. Then, cost for second half: 126 * 6 = 756. Total: 840 + 756 = 1596."

💡 洞察二：RAG 的语义相似不等于逻辑同构

这是本次实验值得关注的另一项数据：精心设计的 RAG (55.0%) 略低于随机采样 (57.5%)。

深度归因： RAG（语义检索）倾向选择“主题词重叠”的样本，而不是“逻辑结构匹配”的样本。

比如：测试问题是 “5个同学排成一队照相，一共有多少种不同的排队顺序？（阶乘问题，5!）”

语义模型可能会检索到： “排队照相时，小明同学前面有2人，后面有3人，这一队一共有多少人？（加法问题：2+1+3）”

对语言模型来说，两者的词汇几乎相同，但在数学推理中，这是两种完全不同的结构。

这会给模型施加错误的“推理模板偏置”。

在 GSM8K 这种逻辑密集型任务中，表面特征的相似性反而构成了干扰。模型可能模仿了检索样本的错误解题路径，导致准确率下降。

💡 洞察三：“ICL 可被解释为一种类梯度的隐式适配机制

即便没有思维链（CoT），仅提供少量随机样本也能显著提升模型表现。借用 Xie et al. (Stanford, 2022) 的理论，ICL 的目标可以被形式化为一种隐式贝叶斯推理： $$P(y|x, C) = P(y|x, (x_1, y_1), ..., (x_k, y_k))$$ 在这种视角下，Context $C$ 并非在更新模型参数 $W$，而是通过 Attention 机制让模型在推理中进行“任务定位”，指引模型快速对齐到特定任务的子空间，从而有效规避了零样本（Zero-shot）推理中常见的格式错误。

5. 下一步

Gemma-3-4B 在本次初步实验中的表现说明：小模型通过“可外部化的中间状态”可以增强推理。

这对接下来的工程落地有三条启发：

推理换智能 (Compute for Intelligence)：在端侧设备上，与其追求加载更大的模型，不如在推理端消耗更多的 Token（使用 CoT）来换取准确率。
RAG 的重构：在数理、代码和推理场景下，不要局限于通用语义向量模型，我们仍需要探索更多样的，比如基于代码 AST 或本体的检索方案。
下一步方向：如果 CoT 仍然受限于语言模型的幻觉，那么 PoT (Program of Thought)——让模型生成 Python 代码和Agent多步行动来代替自然语言推理，以及基于符号主义的推理方法融合，将是小参数模型探索逻辑上限的可尝试路径。

附录：
完整实验代码与数据已保存至 gemma_icl_results.json。下载链接：
https://www.neura.pub/static/uploads/gemma_icl_results.json

引用: Wei et al. (2022) Chain-of-Thought Prompting; Xie et al. (Stanford, 2022) "Why Can GPT Learn In-Context?".