DeepSeek-V4: 突破百万 token 上下文效率瓶颈的开源大模型
论文: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
链接: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
机构: DeepSeek
时间: 2026年5月
1. 问题背景
推理模型(Reasoning Model)开创了测试时计算扩展(Test-Time Scaling)的新范式,但这一范式被注意力机制的二次计算复杂度严重制约——在超长上下文场景下,注意力成为计算瓶颈,限制了进一步的推理扩展。同时,长序列任务(复杂 Agent 工作流、海量跨文档分析)对高效处理超长上下文的需求日益迫切。
DeepSeek-V4 系列的核心目标就是打破超长上下文的效率壁垒。系列包含两个模型:
| 模型 | 总参数 | 激活参数 | 上下文长度 |
|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 100万 token |
| DeepSeek-V4-Flash | 284B | 13B | 100万 token |
在 100 万 token 上下文场景下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV Cache 仅为 10%。DeepSeek-V4-Flash 更极致:FLOPs 仅为 V3.2 的 10%,KV Cache 仅为 7%。
2. 核心架构创新
2.1 流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)
DeepSeek-V4 用 mHC 替代了传统残差连接,这是对 Hyper-Connections(HC)的稳定化升级。
标准 HC 的问题:HC 通过将残差流的宽度扩展 $n_{\text{hc}}$ 倍,引入三个线性映射 $A_l$(输入映射)、$B_l$(残差变换)、$C_l$(输出映射)来增强信号传播。但在深层网络中,$B_l$ 的连乘会导致数值不稳定,训练频繁崩溃。
mHC 的核心:双随机矩阵约束。mHC 将残差映射矩阵 $B_l$ 约束在双随机矩阵流形(Birkhoff 多胞体)上:
\[B_l \in \mathcal{M} = \{M \in \mathbb{R}^{n \times n} \mid M \mathbf{1}_n = \mathbf{1}_n, \mathbf{1}_n^T M = \mathbf{1}_n^T, M \geq 0 \}\]这保证了 $|B_l|_2 \leq 1$(非扩张映射),且 $\mathcal{M}$ 在矩阵乘法下封闭,确保深层堆叠时信号传播稳定。具体实现上,通过 Sinkhorn-Knopp 算法(20 次迭代)将原始参数投影到双随机矩阵流形上。输入和输出映射 $A_l$、$C_l$ 通过 Sigmoid 约束保证非负有界。
动态参数化:三组映射参数由输入依赖的动态分量和静态偏置组合生成,通过可学习的门控因子 $\alpha$(初始化为小值)控制动态分量的贡献,实现从静态到动态的平滑过渡。
在 DeepSeek-V4 中,扩展因子 $n_{\text{hc}} = 4$,实际 wall-time 开销仅为流水线阶段的 6.7%。
2.2 混合注意力:CSA + HCA
DeepSeek-V4 的注意力架构是其效率提升的核心——采用压缩稀疏注意力(CSA)和重度压缩注意力(HCA)的交替混合配置。
2.2.1 压缩稀疏注意力(CSA)
CSA 结合了两个策略:先压缩再稀疏选择。
KV 压缩。CSA 为每 $m$ 个 token 的 KV 条目计算两组 KV 值 $C^a, C^b$ 及其压缩权重 $Z^a, Z^b$,然后通过跨块加权聚合将 $2m$ 个条目压缩为 1 个。相邻压缩块之间有重叠:$C_i^{\text{Comp}}$ 同时聚合当前块的 $C^a$ 和前一块的 $C^b$,序列长度被压缩到 $\frac{1}{m}$。
闪电索引器(Lightning Indexer)。压缩后的 KV 条目仍然可能很多(百万 token 压缩 4 倍后仍有 25 万个),因此 CSA 引入了轻量级索引器做 top-k 稀疏选择。索引器用低秩方式生成查询,计算与压缩 KV 键的匹配分数,选出最相关的 $k$ 个条目。关键设计:索引分数用 ReLU 激活 + 多头加权求和,保证非负稀疏性:
\[I_{t,s} = \sum_{h=1}^{n_h^I} w_{t,h}^I \cdot \text{ReLU}(q_{t,h}^I \cdot K_s^{I\text{Comp}})\]共享 KV 多查询注意力(Shared KV MQA)。选出的 KV 条目同时作为 Key 和 Value(合二为一),以 MQA 方式计算核心注意力——多个查询头共享同一组 KV 条目。这大幅降低了存储需求。为降低输出投影的计算开销,采用分组输出投影:将 $n_h$ 个头的输出分为 $g$ 组,每组先投影到低维中间表示,再拼接投影到最终输出。
DeepSeek-V4-Pro 的 CSA 参数:压缩率 $m=4$,索引头数 64,索引头维度 128,注意力 top-k 为 1024,查询头数 128,头维度 512。
2.2.2 重度压缩注意力(HCA)
HCA 采用更激进的压缩策略:将每 $m’$($m’ \gg m$)个 token 压缩为 1 个条目,但不做稀疏选择——全量 Dense Attention。
HCA 的压缩方式与 CSA 类似,但不做跨块重叠,直接对每 $m’$ 个 token 用 softmax 加权聚合。在 DeepSeek-V4 中,$m’ = 128$,即 128 个 token 压缩为 1 个。100 万 token 经 HCA 压缩后仅剩约 7800 个 KV 条目,可以做全量注意力。
2.2.3 关键辅助技术
Partial RoPE:对查询和 KV 条目的最后 64 维应用旋转位置编码,由于 KV 条目同时作为 Key 和 Value,还需对核心注意力输出应用反向 RoPE 以注入相对位置信息。
滑动窗口注意力分支:CSA 和 HCA 的压缩会导致当前压缩块内的 token 无法互相注意。为此引入额外的非压缩滑动窗口注意力(窗口大小 $n_{\text{win}} = 128$),保留局部细粒度依赖。
注意力水槽(Attention Sink):引入可学习的 sink logit $z’_h$,使每个注意力头的分数总和可以不等于 1(甚至接近 0),让模型灵活决定”不需要关注任何内容”的情况。
混合精度存储:RoPE 维度用 BF16,其余维度用 FP8,KV Cache 减半。索引器的 QK 计算用 FP4 精度加速。
2.2.4 效率对比
在 100 万 token 场景下,以 BF16 GQA-8(头维度 128)作为基准,DeepSeek-V4 的 KV Cache 大小仅为该基准的约 2%。
2.3 Muon 优化器
DeepSeek-V4 在大部分模块上弃用 AdamW,改用 Muon 优化器。Muon 通过 Newton-Schulz 迭代对梯度动量做近似正交化($M \to UV^T$),然后缩放更新矩阵的 RMS:
混合 Newton-Schulz 迭代:前 8 步用 $(a,b,c) = (3.4445, -4.7750, 2.0315)$ 加速收敛,后 2 步用 $(2, -1.5, 0.5)$ 精确稳定到 1——共 10 次迭代。
AdamW 仅保留给 embedding、预测头、RMSNorm 权重和 mHC 的静态偏置/门控因子。由于 DeepSeek-V4 的注意力架构天然支持对查询和 KV 条目做 RMSNorm,不需要 QK-Clip 技术来防止注意力 logit 爆炸。
3. 基础设施优化
3.1 细粒度专家并行通信-计算重叠
MoE 层可分解为四个阶段:Dispatch(通信密集)→ Linear-1(计算密集)→ 激活函数 → Linear-2(计算密集)→ Combine(通信密集)。关键洞察:通信总时间 < 计算总时间,因此通信可以完全被计算隐藏。
DeepSeek-V4 将专家按波次(Wave)调度:每个波次包含少量专家,当前波次的计算、下一波次的通信、已完成波次的结果发送并行执行。相比非融合基线,推理工作负载加速 1.50~1.73×,RL rollout 等延迟敏感场景加速最高 1.96×。
论文还提出了一个重要的硬件设计建议:通信能否被完全隐藏取决于计算-通信比 $C/B$,而非单纯的带宽 $B$。对于 DeepSeek-V4-Pro,只要 $C/B \leq 2d = 6144$ FLOPs/Byte,通信即可完全隐藏——每 1 GBps 的互连带宽可支撑 6.1 TFLOP/s 的计算。
3.2 TileLang:高效内核开发
精细化模型架构导致数百个细粒度 Torch ATen 算子,DeepSeek-V4 使用 TileLang(DSL)开发融合内核替代它们。关键技术包括:
- Host Codegen:将 Python 端的运行时检查下沉到生成的宿主代码中,每次调用开销从数十/数百微秒降到 <1 微秒;
- Z3 SMT 求解器:集成到 TileLang 的代数系统中,对整数表达式做形式化分析,解锁向量化、屏障插入等高级优化;
- 数值精度:默认禁用 fast-math,精度敏感的操作提供 IEEE-754 合规的内建函数。
3.3 批次不变性与确定性训练
这是一个极其重要的工程贡献。DeepSeek-V4 实现了端到端的批次不变(Batch-Invariant)和确定性(Deterministic)训练——任何 token 的输出与它在 batch 中的位置无关,整个训练过程 bitwise 可复现。
注意力的批次不变性:不使用 split-KV(将单序列注意力分散到多个 SM),因为它会引入 batch 依赖的累加顺序。替代方案是双内核策略——满波用单 SM 处理整个序列保证吞吐,尾波用多 SM 但精心设计累加顺序保证 bitwise 一致,利用分布式共享内存实现跨 SM 数据交换。
矩阵乘法的批次不变性:端到端用 DeepGEMM 替代 cuBLAS。大部分场景放弃 split-k(因为它不保证批次不变性),通过一系列优化使性能持平甚至超过标准 split-k。
确定性训练:消除反向传播中 atomicAdd 引入的非确定性——注意力反向用独立累加缓冲区 + 全局确定性求和;MoE 反向用 token 顺序预处理 + 多 rank 缓冲隔离。
3.4 训练框架
Muon 的混合 ZeRO 策略:Muon 需要完整梯度矩阵来计算更新,与传统 ZeRO 的逐元素分片冲突。解决方案:密集参数限制 ZeRO 并行度上限,用背包算法分配参数矩阵;MoE 参数按专家独立优化,展平所有层所有专家的投影矩阵后均匀分片。相同形状的连续参数自动合并做批量 Newton-Schulz。MoE 梯度在数据并行 rank 间同步时随机舍入到 BF16,将通信量减半,但用 FP32 做本地累加避免精度损失。
mHC 的高效实现:融合内核 + 选择性重计算(重计算大部分中间隐藏状态,但避免重计算计算密集型操作)+ 调整 DualPipe 1F1B 方案。整体 wall-time 开销仅 6.7%。
两阶段上下文并行:压缩注意力下的序列分片面临两个问题——跨 rank 的压缩块边界不对齐、压缩后各 rank 的 KV 长度不等。第一阶段:每个 rank 将末尾 $m$ 个未压缩 KV 发送给下一个 rank 做联合压缩;第二阶段:all-gather 收集所有 rank 的压缩 KV,用融合的 select-and-pad 算子重组。
张量级激活检查点:不在模块粒度做全有或全无的检查点,而是允许开发者标注单个张量——框架通过 TorchFX 追踪计算图,为每个标注张量反向遍历找到最小重计算子图,直接释放 GPU 内存并复用重计算张量的存储指针,零拷贝开销。
3.5 推理框架:异构 KV Cache 管理
混合注意力打破了 PagedAttention 的基本假设(各层 KV Cache 大小和策略一致)。DeepSeek-V4 的方案:
状态缓存(State Cache):将滑动窗口 KV 和未满足压缩条件的尾部 token 视为状态空间模型的状态,预分配固定大小的状态缓存池动态分配。
KV Cache 块:每个块覆盖 $\text{lcm}(m, m’)$ 个原始 token,产生 $\frac{\text{lcm}(m,m’)}{m}$ 个 CSA 压缩 token 和 $\frac{\text{lcm}(m,m’)}{m’}$ 个 HCA 压缩 token。
磁盘 KV Cache:三种 SWA KV 存储策略——Full Caching(计算零冗余但写密集)、Periodic Checkpointing(每 $p$ 个 token 存一次快照,可调节 $p$ 平衡存储和计算)、Zero Caching(不存 SWA KV,利用缓存的 CSA/HCA KV 重计算最后 $n_{\text{win}} \cdot L$ 个 token)。
4. 预训练
4.1 数据
在 DeepSeek-V3 基础上持续迭代,重点改进:过滤批量自动生成和模板化内容防止模型坍塌;增加 Agent 数据到中期训练;扩大多语言语料覆盖长尾知识;强化长文档数据(科学论文、技术报告)。总规模超过 32T token,词表大小保持 128K。使用样本级注意力掩码(不同于 V3)。
4.2 模型配置
| 配置 | V4-Flash | V4-Pro |
|---|---|---|
| Transformer 层数 | 43 | 61 |
| 隐藏维度 | 4096 | 7168 |
| CSA 压缩率 $m$ | 4 | 4 |
| HCA 压缩率 $m’$ | 128 | 128 |
| 注意力 top-k | 512 | 1024 |
| 查询头数 | 64 | 128 |
| 头维度 | 512 | 512 |
| 路由专家数 | 256 | 384 |
| 共享专家数 | 1 | 1 |
| 每 token 激活专家 | 6 | 6 |
| 专家中间隐藏维度 | 2048 | 3072 |
| MTP 深度 | 1 | 1 |
| mHC 扩展因子 | 4 | 4 |
| 总参数 | 284B | 1.6T |
| 激活参数 | 13B | 49B |
前两层用纯滑动窗口注意力(Flash)或纯 HCA(Pro),之后 CSA 和 HCA 交替使用。前 3 个 MoE 层使用 Hash 路由(根据输入 token ID 确定目标专家),后续层使用标准路由。
4.3 训练设置
- 优化器:Muon(大部分参数)+ AdamW(embedding/预测头/RMSNorm),Muon 动量 0.95,更新 RMS 缩放到 0.18
- 训练量:V4-Flash 32T token,V4-Pro 33T token
- 序列长度调度:4K → 16K → 64K → 1M 渐进扩展
- 稀疏注意力引入:先用 Dense Attention 预热 1T token,在 64K 序列长度阶段引入稀疏注意力,分两阶段——先预热 Lightning Indexer,再正式训练
4.4 训练稳定性:两个关键技巧
预见式路由(Anticipatory Routing):将 MoE 骨干网络和路由网络的更新解耦。在第 $t$ 步,用当前参数 $\theta_t$ 做特征计算,但路由索引用历史参数 $\theta_{t-\Delta t}$ 计算。实践中,在 $t-\Delta t$ 步提前获取第 $t$ 步的数据,预计算并缓存路由索引。额外 wall-time 开销约 20%,且通过自动检测机制仅在 loss spike 发生时激活,正常训练无开销。
SwiGLU 钳制:将 SwiGLU 的线性分量钳制到 $[-10, 10]$,门控分量上限钳制到 10。有效消除异常值,稳定训练。
4.5 预训练评估
| 基准 | V3.2-Base (37B/671B) | V4-Flash-Base (13B/284B) | V4-Pro-Base (49B/1.6T) |
|---|---|---|---|
| MMLU | 87.8 | 88.7 | 90.1 |
| MMLU-Pro | 65.5 | 68.3 | 73.5 |
| Simple-QA verified | 28.3 | 30.1 | 55.2 |
| FACTS Parametric | 27.1 | 33.9 | 62.6 |
| HumanEval | 62.8 | 69.5 | 76.8 |
| MATH | 60.5 | 57.4 | 64.5 |
| LongBench-V2 | 40.2 | 44.7 | 51.5 |
V4-Flash-Base 在激活参数仅 13B(V3.2 的 35%)的情况下,多数基准超越 V3.2-Base(37B 激活),印证了架构效率优势。V4-Pro-Base 在几乎所有维度上全面领先。
5. 后训练
5.1 后训练流程:Specialist + OPD
DeepSeek-V4 的后训练采用两阶段范式,与 V3.2 的关键区别是完全用 On-Policy Distillation(OPD)替代了混合 RL 阶段:
阶段一:领域专家训练。分别针对数学、编程、Agent、指令跟随等目标领域,独立训练专家模型——先 SFT 建立基础能力,再用 GRPO 做 RL 优化。
阶段二:多教师 OPD 合并。训练一个统一学生模型,通过 reverse KL 散度损失从 10+ 个领域教师模型蒸馏知识:
\[\mathcal{L}_{\text{OPD}}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{\text{KL}}(\pi_\theta \| \pi_{E_i})\]关键:学生模型在自己的 on-policy 轨迹上学习,且使用全词表 logit 蒸馏(而非简化的 token 级 KL 估计),梯度估计更稳定。
5.2 推理努力控制(Reasoning Effort)
DeepSeek-V4 支持三种推理模式:
| 模式 | 特点 | 上下文窗口 |
|---|---|---|
| Non-think | 快速直觉响应 | 8K |
| Think High | 有意识的逻辑分析 | 128K |
| Think Max | 推理能力极限 | 384K |
Think Max 模式在系统提示前注入特殊指令:”推理努力:绝对最大化,不允许捷径。必须全面分解问题…”
5.3 生成式奖励模型(GRM)
DeepSeek-V4 弃用传统标量奖励模型。对难以验证的任务,使用基于 Rubric 的 RL 数据,让生成式奖励模型(GRM)评估策略轨迹。关键创新:Actor 网络本身就是 GRM——模型的评判能力和生成能力联合优化,内在推理能力自然融入评估过程。
5.4 交错思考(Interleaved Thinking)
利用 100 万 token 上下文窗口,V4 进一步优化了跨轮次的推理管理:
- 工具调用场景:完整保留所有推理内容,包括跨用户消息边界。不再像 V3.2 那样在新用户消息时丢弃思维链,模型可以维护跨长 Agent 任务的连贯累积推理;
- 一般对话场景:保持 V3.2 策略——新用户消息时丢弃前轮推理,保持上下文简洁。
5.5 Quick Instruction:复用 KV Cache 的辅助任务
传统 Chatbot 中,是否触发搜索、意图识别等辅助任务由独立小模型处理,需要重复预填充。DeepSeek-V4 引入 Quick Instruction——直接在输入序列末尾追加特殊 token(如 <|action|>、<|query|>、<|authority|>),复用已有 KV Cache,多个任务可并行执行,显著降低首 token 延迟(TTFT),消除维护额外小模型的工程开销。
5.6 后训练基础设施
FP4 量化感知训练(QAT):对 MoE 专家权重和 CSA 索引器的 QK 路径应用 FP4 (MXFP4) 量化。关键设计:FP4 → FP8 的反量化是无损的,因为 FP8 (E4M3) 的指数位比 FP4 (E2M1) 多 2 位,细粒度 scale 信息可被 FP8 的更大动态范围完全吸收。索引分数从 FP32 量化到 BF16,top-k 选择器加速 2 倍,KV 条目召回率 99.7%。
高效教师调度:10+ 个万亿参数教师模型的全词表 OPD 面临内存挑战。解决方案:教师权重按需从分布式存储加载;仅缓存教师最后一层 hidden states,训练时重计算完整 logits(额外开销可忽略);训练样本按教师 ID 排序,确保每个 mini-batch 最多加载一个教师预测头。
可抢占容错 Rollout 服务:实现 token 粒度的 WAL(Write-Ahead Log),每生成一个 token 立即追加到 WAL。抢占时保存未完成请求的 KV Cache,恢复时从 WAL + KV Cache 继续解码。重要:不能从头重新生成未完成请求——这会引入长度偏差(短响应更容易幸存)。
6. 评估结果
6.1 标准基准(Think Max 模式)
| 基准 | Opus-4.6 | GPT-5.4 | Gemini-3.1-Pro | DS-V4-Pro |
|---|---|---|---|---|
| SimpleQA-Verified | 46.2 | 45.3 | 75.6 | 57.9 |
| Chinese-SimpleQA | 76.4 | 76.8 | 85.9 | 84.4 |
| GPQA Diamond | 91.3 | 93.0 | 94.3 | 90.1 |
| HLE | 40.0 | 39.8 | 44.4 | 37.7 |
| LiveCodeBench | 88.8 | - | 91.7 | 93.5 |
| Codeforces | - | 3168 | 3052 | 3206 |
| HMMT 2026 Feb | 96.2 | 97.7 | 94.7 | 95.2 |
| IMOAnswerBench | 75.3 | 91.4 | 81.0 | 89.8 |
| SWE Verified | 80.8 | - | 80.6 | 80.6 |
| BrowseComp | 83.7 | 82.7 | 85.9 | 83.4 |
关键发现:
- 知识:SimpleQA-Verified 上超越所有开源模型 20 个百分点,但仍落后于 Gemini-3.1-Pro;
- 编程竞赛:Codeforces Rating 3206,Codeforces 排名第 23,首次开源模型匹配闭源模型;
- 数学推理:在形式化数学任务上,PutnamBench-2025 达到 120/120 满分,追平最强系统 Axiom;
- 100 万 token 上下文:MRCR 1M 上超越 Gemini-3.1-Pro(83.5 vs 76.3),但落后于 Opus-4.6(92.9)。
6.2 推理努力与 Token 效率
V4-Pro 在 HLE 上展现出比 V3.2 更高的 token 效率——相同 token 消耗下,V4-Pro 的准确率显著更高。从 Non-think → High → Max,每一级推理努力都带来一致的性能提升。
6.3 真实世界任务
中文写作:对比 Gemini-3.1-Pro,功能写作胜率 62.7%,创意写作质量胜率 77.5%。但在最复杂的多轮写作场景中,仍落后于 Claude Opus 4.5(胜率 45.9% vs 52.0%)。
搜索增强:Agent 式搜索对比 RAG,总体胜率 61.7%,且成本仅略高于 RAG。
白领任务:对比 Opus-4.6-Max,30 个高级中文专业任务上总体胜率 53%(非败率 63%),任务完成度评分 98.32 vs 96.68,内容质量 83.32 vs 78.00。
内部代码 Agent:R&D 编码基准上,通过率 67%,显著超越 Sonnet 4.5(47%),接近 Opus 4.5(70%)。内部调研 85 名使用 V4-Pro 做日常编码的开发者,52% 认为可以作为默认编码模型,39% 倾向于是。
7. 总结与思考
DeepSeek-V4 最核心的贡献是证明了百万 token 上下文可以在不牺牲性能的前提下大幅降低计算和存储开销——V4-Pro 用仅 27% 的 FLOPs 和 10% 的 KV Cache 实现了 V3.2 的性能水平甚至更优。
CSA + HCA 的混合注意力设计非常精妙。CSA 用”压缩 + 稀疏选择”两级策略处理中等压缩率场景(4 倍),HCA 用”极致压缩 + 全量注意力”处理高压缩率场景(128 倍),两者交替使用覆盖了不同范围的依赖关系——CSA 保留局部精细结构,HCA 捕获全局长程依赖。Shared KV MQA(KV 合一)更是一个巧妙的存储优化——在压缩后的语义空间中,Key 和 Value 的分离确实不再必要。
mHC 的双随机矩阵约束是一个数学上优雅的解决方案。传统残差连接相当于 $B_l = I$(恒等矩阵,本身就是双随机矩阵),mHC 将搜索空间扩展到整个 Birkhoff 多胞体,同时保留了恒等矩阵的稳定性属性。这提供了一个比简单的残差缩放更有原则性的信号传播控制方式。
OPD 完全替代混合 RL 是一个值得关注的趋势。相比让一个模型同时学习所有领域,先独立训练领域专家再蒸馏合并的范式在工程上更灵活——可以并行迭代不同领域,每次只需重新蒸馏而不是重新训练。全词表 logit 蒸馏(而非 token 级 KL 估计)虽然计算成本更高,但梯度估计更稳定。DeepSeek 通过缓存教师 hidden states + 按需重计算 logits + 按教师 ID 排序样本的工程优化,使这一方案在 10+ 个万亿参数教师上可行。
工程细节上有几个值得深入学习的点:(1)批次不变性和确定性训练的端到端实现——这在大规模训练中对 debug 和复现至关重要,但工程成本很高;(2)Anticipatory Routing 的训练稳定性技巧——解耦骨干和路由网络更新这个想法简单但有效,自动检测 + 按需激活的策略避免了常态化开销;(3)可抢占 Rollout 服务的 token 级 WAL——长度偏差问题是一个很容易被忽视但会实质影响 RL 训练质量的陷阱。
论文坦诚地指出了局限性。架构为追求极致效率而变得复杂(保留了大量初步验证的组件和 tricks),未来需要更系统地精简到核心设计。Anticipatory Routing 和 SwiGLU Clamping 有效但原理不清。此外,多模态能力、低延迟部署、长期多轮 Agent 任务等方向仍在探索中。这种诚实的自我评估为后续工作明确了方向——更优雅的架构设计、更深入的训练稳定性理论、以及更广泛的能力覆盖。