DeepSeek-V4: 突破百万 token 上下文效率瓶颈的开源大模型

Posted May 13, 2026

By li.yaozong

32 min read

论文: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
链接: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
机构: DeepSeek
时间: 2026年5月

1. 问题背景

推理模型（Reasoning Model）开创了测试时计算扩展（Test-Time Scaling）的新范式，但这一范式被注意力机制的二次计算复杂度严重制约——在超长上下文场景下，注意力成为计算瓶颈，限制了进一步的推理扩展。同时，长序列任务（复杂 Agent 工作流、海量跨文档分析）对高效处理超长上下文的需求日益迫切。

DeepSeek-V4 系列的核心目标就是打破超长上下文的效率壁垒。系列包含两个模型：

模型	总参数	激活参数	上下文长度
DeepSeek-V4-Pro	1.6T	49B	100万 token
DeepSeek-V4-Flash	284B	13B	100万 token

在 100 万 token 上下文场景下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV Cache 仅为 10%。DeepSeek-V4-Flash 更极致：FLOPs 仅为 V3.2 的 10%，KV Cache 仅为 7%。

2. 核心架构创新

2.1 流形约束超连接（Manifold-Constrained Hyper-Connections, mHC）

DeepSeek-V4 用 mHC 替代了传统残差连接，这是对 Hyper-Connections（HC）的稳定化升级。

标准 HC 的问题：HC 通过将残差流的宽度扩展 $n_{\text{hc}}$ 倍，引入三个线性映射 $A_l$（输入映射）、$B_l$（残差变换）、$C_l$（输出映射）来增强信号传播。但在深层网络中，$B_l$ 的连乘会导致数值不稳定，训练频繁崩溃。

mHC 的核心：双随机矩阵约束。mHC 将残差映射矩阵 $B_l$ 约束在双随机矩阵流形（Birkhoff 多胞体）上：

\[B_l \in \mathcal{M} = \{M \in \mathbb{R}^{n \times n} \mid M \mathbf{1}_n = \mathbf{1}_n, \mathbf{1}_n^T M = \mathbf{1}_n^T, M \geq 0 \}\]

这保证了 $|B_l|_2 \leq 1$（非扩张映射），且 $\mathcal{M}$ 在矩阵乘法下封闭，确保深层堆叠时信号传播稳定。具体实现上，通过 Sinkhorn-Knopp 算法（20 次迭代）将原始参数投影到双随机矩阵流形上。输入和输出映射 $A_l$、$C_l$ 通过 Sigmoid 约束保证非负有界。

动态参数化：三组映射参数由输入依赖的动态分量和静态偏置组合生成，通过可学习的门控因子 $\alpha$（初始化为小值）控制动态分量的贡献，实现从静态到动态的平滑过渡。

在 DeepSeek-V4 中，扩展因子 $n_{\text{hc}} = 4$，实际 wall-time 开销仅为流水线阶段的 6.7%。

2.2 混合注意力：CSA + HCA

DeepSeek-V4 的注意力架构是其效率提升的核心——采用压缩稀疏注意力（CSA）和重度压缩注意力（HCA）的交替混合配置。

2.2.1 压缩稀疏注意力（CSA）

CSA 结合了两个策略：先压缩再稀疏选择。

KV 压缩。CSA 为每 $m$ 个 token 的 KV 条目计算两组 KV 值 $C^a, C^b$ 及其压缩权重 $Z^a, Z^b$，然后通过跨块加权聚合将 $2m$ 个条目压缩为 1 个。相邻压缩块之间有重叠：$C_i^{\text{Comp}}$ 同时聚合当前块的 $C^a$ 和前一块的 $C^b$，序列长度被压缩到 $\frac{1}{m}$。

闪电索引器（Lightning Indexer）。压缩后的 KV 条目仍然可能很多（百万 token 压缩 4 倍后仍有 25 万个），因此 CSA 引入了轻量级索引器做 top-k 稀疏选择。索引器用低秩方式生成查询，计算与压缩 KV 键的匹配分数，选出最相关的 $k$ 个条目。关键设计：索引分数用 ReLU 激活 + 多头加权求和，保证非负稀疏性：

\[I_{t,s} = \sum_{h=1}^{n_h^I} w_{t,h}^I \cdot \text{ReLU}(q_{t,h}^I \cdot K_s^{I\text{Comp}})\]

共享 KV 多查询注意力（Shared KV MQA）。选出的 KV 条目同时作为 Key 和 Value（合二为一），以 MQA 方式计算核心注意力——多个查询头共享同一组 KV 条目。这大幅降低了存储需求。为降低输出投影的计算开销，采用分组输出投影：将 $n_h$ 个头的输出分为 $g$ 组，每组先投影到低维中间表示，再拼接投影到最终输出。

DeepSeek-V4-Pro 的 CSA 参数：压缩率 $m=4$，索引头数 64，索引头维度 128，注意力 top-k 为 1024，查询头数 128，头维度 512。

2.2.2 重度压缩注意力（HCA）

HCA 采用更激进的压缩策略：将每 $m’$（$m’ \gg m$）个 token 压缩为 1 个条目，但不做稀疏选择——全量 Dense Attention。

HCA 的压缩方式与 CSA 类似，但不做跨块重叠，直接对每 $m’$ 个 token 用 softmax 加权聚合。在 DeepSeek-V4 中，$m’ = 128$，即 128 个 token 压缩为 1 个。100 万 token 经 HCA 压缩后仅剩约 7800 个 KV 条目，可以做全量注意力。

2.2.3 关键辅助技术

Partial RoPE：对查询和 KV 条目的最后 64 维应用旋转位置编码，由于 KV 条目同时作为 Key 和 Value，还需对核心注意力输出应用反向 RoPE 以注入相对位置信息。

滑动窗口注意力分支：CSA 和 HCA 的压缩会导致当前压缩块内的 token 无法互相注意。为此引入额外的非压缩滑动窗口注意力（窗口大小 $n_{\text{win}} = 128$），保留局部细粒度依赖。

注意力水槽（Attention Sink）：引入可学习的 sink logit $z’_h$，使每个注意力头的分数总和可以不等于 1（甚至接近 0），让模型灵活决定”不需要关注任何内容”的情况。

混合精度存储：RoPE 维度用 BF16，其余维度用 FP8，KV Cache 减半。索引器的 QK 计算用 FP4 精度加速。

2.2.4 效率对比

在 100 万 token 场景下，以 BF16 GQA-8（头维度 128）作为基准，DeepSeek-V4 的 KV Cache 大小仅为该基准的约 2%。

2.3 Muon 优化器

DeepSeek-V4 在大部分模块上弃用 AdamW，改用 Muon 优化器。Muon 通过 Newton-Schulz 迭代对梯度动量做近似正交化（$M \to UV^T$），然后缩放更新矩阵的 RMS：

混合 Newton-Schulz 迭代：前 8 步用 $(a,b,c) = (3.4445, -4.7750, 2.0315)$ 加速收敛，后 2 步用 $(2, -1.5, 0.5)$ 精确稳定到 1——共 10 次迭代。

AdamW 仅保留给 embedding、预测头、RMSNorm 权重和 mHC 的静态偏置/门控因子。由于 DeepSeek-V4 的注意力架构天然支持对查询和 KV 条目做 RMSNorm，不需要 QK-Clip 技术来防止注意力 logit 爆炸。

3. 基础设施优化

3.1 细粒度专家并行通信-计算重叠

MoE 层可分解为四个阶段：Dispatch（通信密集）→ Linear-1（计算密集）→ 激活函数 → Linear-2（计算密集）→ Combine（通信密集）。关键洞察：通信总时间 < 计算总时间，因此通信可以完全被计算隐藏。

DeepSeek-V4 将专家按波次（Wave）调度：每个波次包含少量专家，当前波次的计算、下一波次的通信、已完成波次的结果发送并行执行。相比非融合基线，推理工作负载加速 1.50~1.73×，RL rollout 等延迟敏感场景加速最高 1.96×。

论文还提出了一个重要的硬件设计建议：通信能否被完全隐藏取决于计算-通信比 $C/B$，而非单纯的带宽 $B$。对于 DeepSeek-V4-Pro，只要 $C/B \leq 2d = 6144$ FLOPs/Byte，通信即可完全隐藏——每 1 GBps 的互连带宽可支撑 6.1 TFLOP/s 的计算。

3.2 TileLang：高效内核开发

精细化模型架构导致数百个细粒度 Torch ATen 算子，DeepSeek-V4 使用 TileLang（DSL）开发融合内核替代它们。关键技术包括：

Host Codegen：将 Python 端的运行时检查下沉到生成的宿主代码中，每次调用开销从数十/数百微秒降到 <1 微秒；
Z3 SMT 求解器：集成到 TileLang 的代数系统中，对整数表达式做形式化分析，解锁向量化、屏障插入等高级优化；
数值精度：默认禁用 fast-math，精度敏感的操作提供 IEEE-754 合规的内建函数。

3.3 批次不变性与确定性训练

这是一个极其重要的工程贡献。DeepSeek-V4 实现了端到端的批次不变（Batch-Invariant）和确定性（Deterministic）训练——任何 token 的输出与它在 batch 中的位置无关，整个训练过程 bitwise 可复现。

注意力的批次不变性：不使用 split-KV（将单序列注意力分散到多个 SM），因为它会引入 batch 依赖的累加顺序。替代方案是双内核策略——满波用单 SM 处理整个序列保证吞吐，尾波用多 SM 但精心设计累加顺序保证 bitwise 一致，利用分布式共享内存实现跨 SM 数据交换。

矩阵乘法的批次不变性：端到端用 DeepGEMM 替代 cuBLAS。大部分场景放弃 split-k（因为它不保证批次不变性），通过一系列优化使性能持平甚至超过标准 split-k。

确定性训练：消除反向传播中 atomicAdd 引入的非确定性——注意力反向用独立累加缓冲区 + 全局确定性求和；MoE 反向用 token 顺序预处理 + 多 rank 缓冲隔离。

3.4 训练框架

Muon 的混合 ZeRO 策略：Muon 需要完整梯度矩阵来计算更新，与传统 ZeRO 的逐元素分片冲突。解决方案：密集参数限制 ZeRO 并行度上限，用背包算法分配参数矩阵；MoE 参数按专家独立优化，展平所有层所有专家的投影矩阵后均匀分片。相同形状的连续参数自动合并做批量 Newton-Schulz。MoE 梯度在数据并行 rank 间同步时随机舍入到 BF16，将通信量减半，但用 FP32 做本地累加避免精度损失。

mHC 的高效实现：融合内核 + 选择性重计算（重计算大部分中间隐藏状态，但避免重计算计算密集型操作）+ 调整 DualPipe 1F1B 方案。整体 wall-time 开销仅 6.7%。

两阶段上下文并行：压缩注意力下的序列分片面临两个问题——跨 rank 的压缩块边界不对齐、压缩后各 rank 的 KV 长度不等。第一阶段：每个 rank 将末尾 $m$ 个未压缩 KV 发送给下一个 rank 做联合压缩；第二阶段：all-gather 收集所有 rank 的压缩 KV，用融合的 select-and-pad 算子重组。

张量级激活检查点：不在模块粒度做全有或全无的检查点，而是允许开发者标注单个张量——框架通过 TorchFX 追踪计算图，为每个标注张量反向遍历找到最小重计算子图，直接释放 GPU 内存并复用重计算张量的存储指针，零拷贝开销。

3.5 推理框架：异构 KV Cache 管理

混合注意力打破了 PagedAttention 的基本假设（各层 KV Cache 大小和策略一致）。DeepSeek-V4 的方案：

状态缓存（State Cache）：将滑动窗口 KV 和未满足压缩条件的尾部 token 视为状态空间模型的状态，预分配固定大小的状态缓存池动态分配。

KV Cache 块：每个块覆盖 $\text{lcm}(m, m’)$ 个原始 token，产生 $\frac{\text{lcm}(m,m’)}{m}$ 个 CSA 压缩 token 和 $\frac{\text{lcm}(m,m’)}{m’}$ 个 HCA 压缩 token。

磁盘 KV Cache：三种 SWA KV 存储策略——Full Caching（计算零冗余但写密集）、Periodic Checkpointing（每 $p$ 个 token 存一次快照，可调节 $p$ 平衡存储和计算）、Zero Caching（不存 SWA KV，利用缓存的 CSA/HCA KV 重计算最后 $n_{\text{win}} \cdot L$ 个 token）。

4. 预训练

4.1 数据

在 DeepSeek-V3 基础上持续迭代，重点改进：过滤批量自动生成和模板化内容防止模型坍塌；增加 Agent 数据到中期训练；扩大多语言语料覆盖长尾知识；强化长文档数据（科学论文、技术报告）。总规模超过 32T token，词表大小保持 128K。使用样本级注意力掩码（不同于 V3）。

4.2 模型配置

配置	V4-Flash	V4-Pro
Transformer 层数	43	61
隐藏维度	4096	7168
CSA 压缩率 $m$	4	4
HCA 压缩率 $m’$	128	128
注意力 top-k	512	1024
查询头数	64	128
头维度	512	512
路由专家数	256	384
共享专家数	1	1
每 token 激活专家	6	6
专家中间隐藏维度	2048	3072
MTP 深度	1	1
mHC 扩展因子	4	4
总参数	284B	1.6T
激活参数	13B	49B

前两层用纯滑动窗口注意力（Flash）或纯 HCA（Pro），之后 CSA 和 HCA 交替使用。前 3 个 MoE 层使用 Hash 路由（根据输入 token ID 确定目标专家），后续层使用标准路由。

4.3 训练设置

优化器：Muon（大部分参数）+ AdamW（embedding/预测头/RMSNorm），Muon 动量 0.95，更新 RMS 缩放到 0.18
训练量：V4-Flash 32T token，V4-Pro 33T token
序列长度调度：4K → 16K → 64K → 1M 渐进扩展
稀疏注意力引入：先用 Dense Attention 预热 1T token，在 64K 序列长度阶段引入稀疏注意力，分两阶段——先预热 Lightning Indexer，再正式训练

4.4 训练稳定性：两个关键技巧

预见式路由（Anticipatory Routing）：将 MoE 骨干网络和路由网络的更新解耦。在第 $t$ 步，用当前参数 $\theta_t$ 做特征计算，但路由索引用历史参数 $\theta_{t-\Delta t}$ 计算。实践中，在 $t-\Delta t$ 步提前获取第 $t$ 步的数据，预计算并缓存路由索引。额外 wall-time 开销约 20%，且通过自动检测机制仅在 loss spike 发生时激活，正常训练无开销。

SwiGLU 钳制：将 SwiGLU 的线性分量钳制到 $[-10, 10]$，门控分量上限钳制到 10。有效消除异常值，稳定训练。

4.5 预训练评估

基准	V3.2-Base (37B/671B)	V4-Flash-Base (13B/284B)	V4-Pro-Base (49B/1.6T)
MMLU	87.8	88.7	90.1
MMLU-Pro	65.5	68.3	73.5
Simple-QA verified	28.3	30.1	55.2
FACTS Parametric	27.1	33.9	62.6
HumanEval	62.8	69.5	76.8
MATH	60.5	57.4	64.5
LongBench-V2	40.2	44.7	51.5

V4-Flash-Base 在激活参数仅 13B（V3.2 的 35%）的情况下，多数基准超越 V3.2-Base（37B 激活），印证了架构效率优势。V4-Pro-Base 在几乎所有维度上全面领先。

5. 后训练

5.1 后训练流程：Specialist + OPD

DeepSeek-V4 的后训练采用两阶段范式，与 V3.2 的关键区别是完全用 On-Policy Distillation（OPD）替代了混合 RL 阶段：

阶段一：领域专家训练。分别针对数学、编程、Agent、指令跟随等目标领域，独立训练专家模型——先 SFT 建立基础能力，再用 GRPO 做 RL 优化。

阶段二：多教师 OPD 合并。训练一个统一学生模型，通过 reverse KL 散度损失从 10+ 个领域教师模型蒸馏知识：

\[\mathcal{L}_{\text{OPD}}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{\text{KL}}(\pi_\theta \| \pi_{E_i})\]

关键：学生模型在自己的 on-policy 轨迹上学习，且使用全词表 logit 蒸馏（而非简化的 token 级 KL 估计），梯度估计更稳定。

5.2 推理努力控制（Reasoning Effort）

DeepSeek-V4 支持三种推理模式：

模式	特点	上下文窗口
Non-think	快速直觉响应	8K
Think High	有意识的逻辑分析	128K
Think Max	推理能力极限	384K

Think Max 模式在系统提示前注入特殊指令：”推理努力：绝对最大化，不允许捷径。必须全面分解问题…”

5.3 生成式奖励模型（GRM）

DeepSeek-V4 弃用传统标量奖励模型。对难以验证的任务，使用基于 Rubric 的 RL 数据，让生成式奖励模型（GRM）评估策略轨迹。关键创新：Actor 网络本身就是 GRM——模型的评判能力和生成能力联合优化，内在推理能力自然融入评估过程。

5.4 交错思考（Interleaved Thinking）

利用 100 万 token 上下文窗口，V4 进一步优化了跨轮次的推理管理：

工具调用场景：完整保留所有推理内容，包括跨用户消息边界。不再像 V3.2 那样在新用户消息时丢弃思维链，模型可以维护跨长 Agent 任务的连贯累积推理；
一般对话场景：保持 V3.2 策略——新用户消息时丢弃前轮推理，保持上下文简洁。

5.5 Quick Instruction：复用 KV Cache 的辅助任务

5.6 后训练基础设施

FP4 量化感知训练（QAT）：对 MoE 专家权重和 CSA 索引器的 QK 路径应用 FP4 (MXFP4) 量化。关键设计：FP4 → FP8 的反量化是无损的，因为 FP8 (E4M3) 的指数位比 FP4 (E2M1) 多 2 位，细粒度 scale 信息可被 FP8 的更大动态范围完全吸收。索引分数从 FP32 量化到 BF16，top-k 选择器加速 2 倍，KV 条目召回率 99.7%。

高效教师调度：10+ 个万亿参数教师模型的全词表 OPD 面临内存挑战。解决方案：教师权重按需从分布式存储加载；仅缓存教师最后一层 hidden states，训练时重计算完整 logits（额外开销可忽略）；训练样本按教师 ID 排序，确保每个 mini-batch 最多加载一个教师预测头。

可抢占容错 Rollout 服务：实现 token 粒度的 WAL（Write-Ahead Log），每生成一个 token 立即追加到 WAL。抢占时保存未完成请求的 KV Cache，恢复时从 WAL + KV Cache 继续解码。重要：不能从头重新生成未完成请求——这会引入长度偏差（短响应更容易幸存）。

6. 评估结果

6.1 标准基准（Think Max 模式）

基准	Opus-4.6	GPT-5.4	Gemini-3.1-Pro	DS-V4-Pro
SimpleQA-Verified	46.2	45.3	75.6	57.9
Chinese-SimpleQA	76.4	76.8	85.9	84.4
GPQA Diamond	91.3	93.0	94.3	90.1
HLE	40.0	39.8	44.4	37.7
LiveCodeBench	88.8	-	91.7	93.5
Codeforces	-	3168	3052	3206
HMMT 2026 Feb	96.2	97.7	94.7	95.2
IMOAnswerBench	75.3	91.4	81.0	89.8
SWE Verified	80.8	-	80.6	80.6
BrowseComp	83.7	82.7	85.9	83.4

关键发现：

知识：SimpleQA-Verified 上超越所有开源模型 20 个百分点，但仍落后于 Gemini-3.1-Pro；
编程竞赛：Codeforces Rating 3206，Codeforces 排名第 23，首次开源模型匹配闭源模型；
数学推理：在形式化数学任务上，PutnamBench-2025 达到 120/120 满分，追平最强系统 Axiom；
100 万 token 上下文：MRCR 1M 上超越 Gemini-3.1-Pro（83.5 vs 76.3），但落后于 Opus-4.6（92.9）。

6.2 推理努力与 Token 效率

V4-Pro 在 HLE 上展现出比 V3.2 更高的 token 效率——相同 token 消耗下，V4-Pro 的准确率显著更高。从 Non-think → High → Max，每一级推理努力都带来一致的性能提升。

6.3 真实世界任务

中文写作：对比 Gemini-3.1-Pro，功能写作胜率 62.7%，创意写作质量胜率 77.5%。但在最复杂的多轮写作场景中，仍落后于 Claude Opus 4.5（胜率 45.9% vs 52.0%）。

搜索增强：Agent 式搜索对比 RAG，总体胜率 61.7%，且成本仅略高于 RAG。

白领任务：对比 Opus-4.6-Max，30 个高级中文专业任务上总体胜率 53%（非败率 63%），任务完成度评分 98.32 vs 96.68，内容质量 83.32 vs 78.00。

内部代码 Agent：R&D 编码基准上，通过率 67%，显著超越 Sonnet 4.5（47%），接近 Opus 4.5（70%）。内部调研 85 名使用 V4-Pro 做日常编码的开发者，52% 认为可以作为默认编码模型，39% 倾向于是。

7. 总结与思考

DeepSeek-V4 最核心的贡献是证明了百万 token 上下文可以在不牺牲性能的前提下大幅降低计算和存储开销——V4-Pro 用仅 27% 的 FLOPs 和 10% 的 KV Cache 实现了 V3.2 的性能水平甚至更优。

CSA + HCA 的混合注意力设计非常精妙。CSA 用”压缩 + 稀疏选择”两级策略处理中等压缩率场景（4 倍），HCA 用”极致压缩 + 全量注意力”处理高压缩率场景（128 倍），两者交替使用覆盖了不同范围的依赖关系——CSA 保留局部精细结构，HCA 捕获全局长程依赖。Shared KV MQA（KV 合一）更是一个巧妙的存储优化——在压缩后的语义空间中，Key 和 Value 的分离确实不再必要。

mHC 的双随机矩阵约束是一个数学上优雅的解决方案。传统残差连接相当于 $B_l = I$（恒等矩阵，本身就是双随机矩阵），mHC 将搜索空间扩展到整个 Birkhoff 多胞体，同时保留了恒等矩阵的稳定性属性。这提供了一个比简单的残差缩放更有原则性的信号传播控制方式。

OPD 完全替代混合 RL 是一个值得关注的趋势。相比让一个模型同时学习所有领域，先独立训练领域专家再蒸馏合并的范式在工程上更灵活——可以并行迭代不同领域，每次只需重新蒸馏而不是重新训练。全词表 logit 蒸馏（而非 token 级 KL 估计）虽然计算成本更高，但梯度估计更稳定。DeepSeek 通过缓存教师 hidden states + 按需重计算 logits + 按教师 ID 排序样本的工程优化，使这一方案在 10+ 个万亿参数教师上可行。

工程细节上有几个值得深入学习的点：（1）批次不变性和确定性训练的端到端实现——这在大规模训练中对 debug 和复现至关重要，但工程成本很高；（2）Anticipatory Routing 的训练稳定性技巧——解耦骨干和路由网络更新这个想法简单但有效，自动检测 + 按需激活的策略避免了常态化开销；（3）可抢占 Rollout 服务的 token 级 WAL——长度偏差问题是一个很容易被忽视但会实质影响 RL 训练质量的陷阱。

论文坦诚地指出了局限性。架构为追求极致效率而变得复杂（保留了大量初步验证的组件和 tricks），未来需要更系统地精简到核心设计。Anticipatory Routing 和 SwiGLU Clamping 有效但原理不清。此外，多模态能力、低延迟部署、长期多轮 Agent 任务等方向仍在探索中。这种诚实的自我评估为后续工作明确了方向——更优雅的架构设计、更深入的训练稳定性理论、以及更广泛的能力覆盖。

机器学习

大模型 MoE 注意力机制长上下文工程优化

This post is licensed under CC BY 4.0 by the author.