SSR: 显式稀疏性突破推荐系统 Scaling 瓶颈

Posted May 14, 2026 Updated May 21, 2026

By li.yaozong

56 min read

论文: Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation
链接: https://arxiv.org/abs/2604.08011
机构: 阿里巴巴国际数字商业集团（AliExpress）
会议: SIGIR 2026
时间: 2026年4月

1. 问题背景

推荐系统的 Scaling 研究受到 LLM Scaling Laws 的启发——通过增加模型深度和容量来提升排序模型性能。然而，主流工业 CTR backbone（Wide&Deep、DLRM 等）通常只有 3-4 层，尝试简单堆叠更多层/更大 MLP 往往出现收益递减甚至性能退化的问题（Rendle et al., 2020; Liu et al., 2020）。

SSR 的核心洞察来自对线上 CTR 模型的实证分析。论文对一个未施加任何稀疏约束（如 L2 正则化）的生产环境 Dense MLP 模型进行权重分析，发现了一个关键现象——隐式连接稀疏性（Implicit Connection Sparsity）：

92% 的连接权重被抑制到接近零（< $10^{-3}$）；
80% 的权重能量集中在仅 4% 的维度上。

这说明在推荐数据上，Dense MLP 的绝大多数连接是无效的——模型把大量优化能力浪费在”学习如何抑制噪声”而非”学习有效模式”上。密集连接架构本身成为了有效 Scaling 的主要瓶颈。

为什么推荐数据与 CV/NLP 数据有根本性差异？论文指出三个关键区别：

无自然局部性。图像有空间局部性（CNN），文本有序列局部性（Transformer），但推荐输入是数百个异构特征域（用户画像、商品属性、上下文信号、行为序列）的平坦拼接，维度之间没有固有的邻接关系或排列顺序。
样本级稀疏性。对于一个具体的展示/购买事件，只有少数上下文信号和历史偏好是真正相关的，绝大多数特征维度对该样本的预测贡献微乎其微。
全连接层的归纳偏置失配。全连接层假设所有维度对的交互概率相等，而数据的有效交互高度集中在小子集上。这迫使优化器花费大量容量去抑制低信噪比的连接，而非学习复杂的高阶特征模式。

基于以上分析，SSR 提出了一个范式转换：从被动的隐式权重抑制（Implicit Weight Suppression）转向主动的显式信号过滤（Explicit Signal Filtering）。

2. 理论基础：稀疏性作为归纳偏置对齐

2.1 MLP-Mixer 的等价稀疏性

SSR 的理论基础建立在 Hayase & Karakida (2024) 对 MLP-Mixer 的分析之上。该工作证明了 MLP-Mixer 的 Token-Mixing 和 Channel-Mixing 层可以通过 Kronecker 积表示为一个等效的 Wide & Sparse MLP：

Token-Mixing（$W \in \mathbb{R}^{S \times S}$ 作用于 token 维度）：

\[\text{vec}(WX) = (I_C \otimes W) \text{vec}(X)\]

Channel-Mixing（$V \in \mathbb{R}^{C \times C}$ 作用于通道维度）：

\[\text{vec}(XV) = (V^\top \otimes I_S) \text{vec}(X)\]

这里 $S$ 是 token 数量，$C$ 是通道维度。Kronecker 积结构带来了两个关键属性：

等效宽度极大：有效宽度 $m = S \times C$（可达 $10^4$–$10^6$），但非零权重比例仅为 $1/C$ 或 $1/S$——即架构本身就是高度稀疏的。
隐式 $L_1$ 正则化：Kronecker 积参数化自带 $L_1$ 正则化效果。

结合 Golubeva 假说——在参数量固定的前提下，增加宽度（因此增加稀疏度）能持续改善泛化性能——这些理论发现为结构化稀疏作为有益归纳偏置提供了理论支撑。

MLP-Mixer 直觉理解

MLP-Mixer 最初由 Google 提出，是一个纯 MLP 的视觉架构——不用卷积、不用注意力，只用全连接层完成特征交互。以图像分类为例：一张 224×224 的图片按 16×16 切分得到 196 个 patch，每个 patch 通过线性投影压缩为一个 embedding 向量（如 512 维），最终得到输入矩阵 $X \in \mathbb{R}^{196 \times 512}$（196 个 token，每个 512 维）。注意 RGB 通道信息在投影这一步就已被编码进向量中，进入 Mixer 后每个 patch 已是抽象的 embedding 而非原始图片。

MLP-Mixer 交替使用两种 MLP 实现特征交互：

Token-Mixing：将矩阵转置为 $X^T \in \mathbb{R}^{512 \times 196}$，对每一行（即同一维度位置上所有 196 个 token 的值）做共享 MLP：$\mathbb{R}^{196} \to \mathbb{R}^{196}$。直觉上，这是让不同空间位置的 patch “互相看到对方”——图片左上角和右下角的 patch 通过这个 MLP 交换信息，功能类似 Attention（跨位置通信），但用全连接层而非 Q/K 相似度实现。
Channel-Mixing：对每个 token 的 512 维向量独立做 MLP：$\mathbb{R}^{512} \to \mathbb{R}^{512}$，所有 token 共享同一个 MLP。这与 Transformer 中的 FFN 层完全对应——每个位置独立地做特征变换。

	Token-Mixing	Channel-Mixing
操作维度	跨 token（跨 patch）	每个 token 内部（跨维度）
直觉	不同位置之间通信	同一位置内部特征变换
类比 Transformer	类似 Attention	类似 FFN
参数共享	所有维度共享同一个 MLP	所有 token 共享同一个 MLP

上述 Kronecker 积公式正是这种结构的数学表达：Token-Mixing 中 $I_C \otimes W$ 意味着通道维度保持不变（$I_C$），只在 token 维度做线性变换（$W$）；Channel-Mixing 中 $V^\top \otimes I_S$ 意味着 token 位置保持不变（$I_S$），只在通道维度做线性变换（$V^\top$）。这种 Kronecker 积结构天然带来了高度稀疏性——等效的大矩阵中大部分元素为零。

对本节理论论证的审视

需要指出的是，本节从 MLP-Mixer 到 Golubeva 假说再到”结构化稀疏是有益归纳偏置”的论证链并不严密，存在逻辑跳跃：

MLP-Mixer 本身是小且稠密的，不是稀疏的。 Token-Mixing 实际运行的是一个 $S \times S$ 的小稠密矩阵 $W$，Channel-Mixing 运行的是一个 $C \times C$ 的小稠密矩阵 $V$——里面没有任何零值参数。Kronecker 积等价变换只是将同一个计算换了一种数学写法（把输入展平后，小矩阵操作等价于一个大稀疏矩阵乘法），但实际计算中并不存在”稀疏”。这类似于 $2 \times 3 = 6$ 可以重写为一个 $6 \times 6$ 的稀疏矩阵运算——数学上成立，但不能说 $2 \times 3$ 的”本质”是稀疏的。

MLP-Mixer 效果好不能归因于”等效稀疏性”。 MLP-Mixer 在视觉任务上的成功更可能源于：(1) 分离式建模的归纳偏置——强制将”跨位置通信”和”位置内变换”解耦为两步，这个约束本身匹配图像数据的结构（空间交互和通道交互确实是不同的事）；(2) 参数共享的正则化效果——所有通道共享同一个 Token-Mixing 矩阵，所有 token 共享同一个 Channel-Mixing 矩阵。这些优势与”等效稀疏性”没有因果关系。

Golubeva 假说的验证需要”同参数量下，真的宽稀疏 vs 窄稠密”的对比实验。 而 MLP-Mixer 的情况只是一个小稠密网络恰好可以用 Kronecker 积重写为大稀疏矩阵，并不构成对 Golubeva 假说的验证——不存在一个等参数量的”窄稠密对照组”。

SSR 论文真正站得住脚的论据来自自身的经验发现和实验：第 1 节中 92% 权重近零的生产环境观察、SSR-S（57M 参数）超越 Dense MLP（60M 参数）的实验结果、以及 Dropout 替代 SSR 导致大幅退化（证明增益不是简单的正则化效果）。本节的 MLP-Mixer 理论更多是一个启发性的类比和修辞性的动机铺垫，提供直觉上的合理性，但不构成严格的因果论证。

2.2 从 MLP-Mixer 到 SSR 的跨越

MLP-Mixer 的成功依赖于图像 patch 的空间规则性——Kronecker 积的固定数学结构恰好匹配图像的网格拓扑。但推荐数据缺乏这种规则性：哪些特征交互有信息量是高度数据依赖且样本依赖的。

这一观察直接驱动了 SSR 的设计：需要两种互补的显式稀疏机制——

静态结构稀疏：高效的固定维度子集选择，实现零 FLOP 的噪声屏蔽；
动态自适应稀疏：基于样本上下文的维度选择，捕获输入依赖的复杂交互。

3. SSR 框架

SSR 的核心设计遵循一个简洁原则：先过滤，再融合（Filter-then-Fuse）。每个 SSR 层包含两个级联阶段：(1) 多视图稀疏过滤；(2) 视图内稠密融合。

3.1 整体架构

原始特征（用户画像、候选商品属性、交叉统计特征、行为序列）经过 Embedding 后拼接为 $d_{\text{in}}$ 维的初始输入向量 $\mathbf{x} \in \mathbb{R}^{d_{\text{in}}}$。

与标准 Dense Layer 学习全局映射 $\mathbf{x} \to \mathbb{R}^{d_{\text{out}}}$ 不同，SSR 将建模任务解耦为 $b$ 个独立的净化视图（Purification View）。每个视图 $i \in {1, \dots, b}$ 定义一个视图特定映射 $\phi_i$，将输入映射到低维子空间表示 $\mathbf{z}_i \in \mathbb{R}^{d_v}$。每个映射严格分为两个阶段：

\[\mathbf{x} \xrightarrow{\text{Sparse Filtering } \mathcal{F}_i} \mathbf{h}_i \xrightarrow{\text{Dense Fusion } \mathcal{M}_i} \mathbf{z}_i\]

3.2 多视图稀疏过滤

过滤阶段实现严格的维度级信号过滤。定义一组稀疏过滤算子 ${\mathcal{F}_1, \dots, \mathcal{F}_b}$，第 $i$ 个视图的过滤结果为：

\[\mathbf{h}_i = \mathcal{F}_i(\mathbf{x})\]

SSR 提出两种过滤策略：

3.2.1 SSR-S：静态随机过滤器

SSR-S 将 $\mathcal{F}_i$ 实现为一个与样本无关的二值选择矩阵 $M_i \in {0, 1}^{d_{\text{in}} \times d_v}$，其中每列严格是一个 one-hot 向量，且初始化后永远固定不变。

构建 $M_i$ 的过程：从 $d_{\text{in}}$ 个输入维度中采样 $d_v$ 个特征索引，构成视图 $\mathcal{F}_i$ 的维度子集。采样策略有两个关键设计：

单视图内无放回采样：确保同一子空间内特征不重复，保证维度覆盖效率；
跨视图独立采样：允许不同视图之间的特征重叠。这种独立性产生了 Feature Bagging 效应（类似随机森林的特征子集采样），促进了结构多样性和鲁棒性。

过滤计算：

\[\mathbf{h}_i = \mathbf{x} M_i\]

由于 $M_i$ 的每列是 one-hot 向量，矩阵乘法 $\mathbf{x} M_i$ 实际上是一个零 FLOP 的并行索引切片操作（Parallel Gather）——直接从输入向量中按索引取值，完全不涉及乘法或加法运算。未被选中的维度在计算图中被物理移除，而非仅仅乘以零。

这是 SSR-S 与现有方法（如 Statistical Top-k、软注意力、甚至 SSR 自己的动态 ICS）的根本区别：后者的非信息性特征虽然逻辑上被抑制为零，但物理计算图仍然是宽的（$O(d^2)$）。SSR-S 通过硬维度裁剪（Hard Dimension Reduction），将维度选择成本与推理成本彻底解耦。

对 SSR-S 静态随机过滤的讨论

维度覆盖率问题。跨视图独立采样意味着部分维度可能未被任何视图选中。以 $d_{\text{in}} = 1000$、$b = 4$、$d_v = 250$ 为例，某个维度完全未被采样的概率为 $(750/1000)^4 \approx 31.6\%$——约三分之一的维度被完全丢弃。这个设计的隐含假设是：论文第 1 节观察到 80% 的能量集中在 4% 的维度，因此大部分维度本身就是噪声，丢弃无碍；而少数重要维度被所有视图同时遗漏的概率极低。但论文没有从”维度覆盖率”角度分析视图数增加带来的性能提升——不清楚增加视图数的收益到底来自”更多视角的多样性”还是”减少维度丢失”。

过滤后稠密融合的合理性。视图内融合使用的是标准全连接层（$V_i \in \mathbb{R}^{d_v \times d_v}$，完全稠密）。论文的隐含假设是：经过过滤后剩余维度都是”相关信号”，在净化子空间内做稠密交互是合理的。但 SSR-S 的过滤是随机的而非按重要性选择，过滤后的 $d_v$ 维中可能仍包含大量噪声维度，后续权重矩阵中照样会出现近零权重。这也许解释了为什么消融实验中 SSR-D 显著优于 SSR-S（差 0.12-0.23pt）——SSR-D 的 ICS 动态过滤更精准，过滤后的子空间更干净，后续稠密融合的效率更高。一个自然的改进方向是在视图内也引入稀疏性（如将 $V_i$ 做成稀疏矩阵或嵌套 ICS），论文未探索此方向，可能是因为 $d_v$ 已足够小，稀疏化边际收益有限。

3.2.2 SSR-D：迭代竞争稀疏（动态过滤）

为捕获上下文依赖的交互，SSR-D 使用 ICS（Iterative Competitive Sparse，详见第 4 节）作为动态过滤机制：

\[\mathbf{h}_i = \text{ICS}_i(\mathbf{x} W^{\text{proj}}_i)\]

其中 $W^{\text{proj}}_i \in \mathbb{R}^{d_{\text{in}} \times d_v^{\ast}}$ 是视图 $\mathcal{F}_i$ 的可学习投影矩阵，$d_v^{\ast}$ 为视图维度。注意 $d_v^{\ast}$ 通常被扩展（即 $d_v^{\ast} > d_v$），因为动态稀疏过滤会主动将部分维度截断为零，需要更大的初始维度来保持有效容量。输出 $\mathbf{h}_i$ 是 $d_v^{\ast}$ 维空间中的稀疏表示——大部分非关键元素被严格截断为零。

3.3 视图内稠密融合

过滤后，输入被提纯为 $b$ 个净化向量 $[\mathbf{h}_1, \dots, \mathbf{h}_b]$。稠密融合阶段在这些精炼子空间内执行高阶非线性建模。

从矩阵结构来看，这等价于对拼接输入施加一个块对角权重矩阵 $W_{\text{block}} = \text{diag}(V_1, \dots, V_b)$。块对角结构强制视图间的严格语义隔离——第 $i$ 个视图的特征只由参数 $V_i$ 变换，不同视图的特征互不干扰。实践中以 $b$ 个并行投影高效实现，避免存储零值的非对角块。

第 $i$ 个视图的输出：

\[\mathbf{z}_i = \sigma(\mathbf{h}_i V_i + \text{bias}_i)\]

其中 $\sigma$ 为 GELU 激活函数。中间层的聚合方式为带 LayerNorm 的拼接：

\[\mathbf{y} = \text{concat}(\text{LayerNorm}(\mathbf{z}_1), \dots, \text{LayerNorm}(\mathbf{z}_b)) \in \mathbb{R}^{b \cdot d_v}\]

参数复杂度分析。块对角结构的参数量为 $O(b \cdot d_v^2)$，而等宽的标准全连接层为 $O((b \cdot d_v)^2)$——SSR 的参数量减少了 $1/b$ 倍。这意味着在相同计算预算下，SSR 可以显著扩展参数规模。

3.4 末层聚合：从拼接到平均

中间层使用拼接聚合（保留视图间差异，传递给下一层），但最后一层的聚合策略切换为平均：

\[\bar{\mathbf{z}} = \frac{1}{b} \sum_{i=1}^{b} \text{LayerNorm}(\mathbf{z}_i)\]

平均聚合有两个关键优势：

推动共享语义空间。平均操作鼓励所有视图收敛到一致的语义表示，而拼接保留了视图间的差异。对于最终的预测任务，一致性比多样性更重要。
固定预测头维度。平均后的维度固定为 $d_v$（与视图数 $b$ 无关），而拼接会使维度增长到 $b \cdot d_v$——这使得预测头的规模不随视图数线性增长，更利于扩展。

最终通过任务特定的全连接层输出预测：

\[y_{\text{ctr}} = \sigma(W_{\text{ctr}} \bar{\mathbf{z}} + b_{\text{ctr}})\]

4. 迭代竞争稀疏（ICS）

ICS 是 SSR-D 动态过滤的核心机制。它将传统的离散 Top-k 稀疏化重新定义为一个连续的非线性动态系统，从而实现端到端可微的自适应稀疏过滤。

4.1 生物启发的设计思路

ICS 的核心隐喻是生态系统中的种群竞争。将 $d_v$ 维输入向量 $\mathbf{p} \in \mathbb{R}^{d_v}$ 视为一个”生态系统”中的种群，每个维度的特征强度代表该”物种”的生命力。稀疏化过程不是简单的排序截断，而是一个多轮竞争淘汰的动态演化过程。

4.2 前向传播

ICS 的完整流程分为三个阶段：

阶段一：初始化。动态竞争要求特征强度具有非负物理意义，因此首先对输入做 ReLU 整流：

\[\mathbf{x}^{(0)} = \text{ReLU}(\mathbf{z})\]

阶段二：迭代竞争。系统执行 $T$ 轮（$t = 0, \dots, T-1$）竞争。每轮中，一个均场全局抑制力驱动特征走向”灭绝”：

全局抑制场（即当前所有特征的均值）：

\[\mu^{(t)} = \frac{1}{d_v} \sum_{j=1}^{d_v} x_j^{(t)}\]

状态更新遵循”适者生存”规则——只有显著强于抑制场的特征才能存活，其余收敛到真正的零（硬稀疏）：

\[\mathbf{x}^{(t+1)} = \text{ReLU}(\mathbf{x}^{(t)} - \alpha_t \cdot \mu^{(t)})\]

其中 $\alpha = {\alpha_0, \dots, \alpha_{T-1}}$ 是 $T$ 个可学习的灭绝率，不同迭代使用不同的 $\alpha_t$。这是一个精妙的设计选择：不同迭代中特征分布是变化的（噪声被逐步清除后，均值 $\mu^{(t)}$ 的统计含义也在变化），使用不同的 $\alpha_t$ 允许模型在不同阶段采用不同的过滤强度。

为什么需要多轮迭代（$T > 1$）？ 单步阈值化（$T = 1$）依赖对噪声基底的一次性静态估计。通过 $T$ 轮迭代，噪声被逐步清除，均值 $\mu^{(t)}$ 不断被精炼以反映真实信号基线，实现了渐进式过滤——先去粗糙噪声，再做精细调整——逼近一个复杂的非线性稀疏化函数，这是单次线性过滤无法实现的。

计算复杂度。每轮只需均值计算（$O(N)$）和逐元素减法+ReLU（$O(N)$），$T$ 轮总复杂度 $O(T \cdot N)$——严格线性。

单调性保证。由于 $\alpha_t > 0$ 且 $\mu^{(t)} \geq 0$，更新规则确保 $p_i$ 单调递减，没有特征强度会增加：

\[|\mathbf{x}^{(t+1)}|_1 \leq |\mathbf{x}^{(t)}|_1\]

系统形成一个单调非递增序列——总能量随迭代不可避免地衰减。这有效过滤了噪声，但也导致有用信号的强度显著衰减。

阶段三：信号恢复。为对抗能量衰减引入的信号衰减，引入 $d_v$ 维可学习的缩放参数 $\gamma \in \mathbb{R}^{d_v}$：

\[\mathbf{y} = \gamma \odot \mathbf{x}^{(T)}\]

$\gamma$ 被实现为向量（而非标量），为每个维度分配独立的恢复权重。虽然理论上后续线性层可以吸收标量乘法，但论文特意引入 $\gamma$ 来解耦恢复与变换——$\gamma$ 充当方差稳定器，确保数值稳定性和优化过程的最佳动态范围。

4.3 与其他 Top-k 机制的对比

ICS 相对于现有可微选择策略有两个核心优势：

对比 STE（Straight-Through Estimator）Top-k：STE 在前向传播中执行离散截断，但在反向传播中用恒等函数绕过不可微操作。这导致梯度失配（Gradient Mismatch）——反向传播的梯度方向与前向传播的实际操作不一致。ICS 通过将稀疏化建模为连续动态系统彻底消除了这个问题，梯度流在整个过程中保持一致。

对比 Soft Top-k / NeuralSort：这些方法通常涉及排序操作，复杂度为 $O(N \log N)$。ICS 通过并行竞争抑制实现稀疏，严格线性复杂度 $O(T \cdot N)$，避免了高维推荐特征的排序计算瓶颈。更重要的是，ICS 将噪声维度驱动到真正的零（ReLU 截断），而非仅赋予低概率。

5. 实验

5.1 实验设置

数据集。论文在三个公开数据集和一个十亿级工业数据集上进行评估：

数据集	样本数	正样本率	类别特征	数值特征	特征值数
Avazu	40.4M	16.98%	23	0	1.54M
Criteo	45.8M	25.62%	26	13	1.00M
Alibaba	42.3M	3.89%	23	4	1.34M
Industrial	1.0B	3.45%/0.08%	183	129	–

工业数据集来自 AliExpress（速卖通）推荐系统的生产日志，包含超过 300 个特征域。使用基于时间的划分（最近一天做验证和测试），公开数据集使用标准随机划分（8:1:1）。

评估指标。预测效果：AUC、LogLoss；工业数据集额外引入 GAUC（消除用户活跃度偏差，聚焦用户内排序性能）。效率与可扩展性：Params（仅 backbone，不含 Embedding 表）、FLOPs。

基线。分四组：(1) 经典深度模型（DeepFM、DCN v2）；(2) 注意力/动态模型（AutoInt、MMoE）；(3) 特征选择/AutoML（AutoFIS、AFN）；(4) SOTA 可扩展架构（Wukong、RankMixer）。

训练配置。所有模型 Embedding 维度 16，Adam 优化器，batch size 1024，早停。ICS 迭代次数 $T = 5$，灭绝率 $\alpha_t$ 初始化为 0.1，缩放因子 $\gamma_j$ 初始化为全 1 向量。

5.2 工业数据集上的效果与效率（RQ1）

模型	Click AUC	Click GAUC	Pay AUC	Pay GAUC	Params	FLOPs
Dense MLP	0.6593	0.6281	0.8083	0.6770	60M	3.4G
DeepFM	0.6563	0.6251	0.8053	0.6730	13M	0.6G
DCN v2	0.6571	0.6262	0.8065	0.6742	15M	0.9G
MMoE	0.6578	0.6267	0.8063	0.6757	21M	1.2G
AutoInt	0.6594	0.6279	0.8078	0.6769	26.2M	1.7G
AutoFIS	0.6592	0.6285	0.8085	0.6777	10.8M	0.5G
Wukong	0.6615	0.6298	0.8115	0.6805	93M	2.9G
RankMixer	0.6621	0.6305	0.8122	0.6815	101M	3.2G
SSR-S	0.6644	0.6326	0.8162	0.6841	57M	1.4G
SSR-D	0.6667*	0.6351*	0.8194*	0.6862*	100M	3.3G

几个关键观察：

1. SSR-S 以 56% 的参数和 44% 的 FLOPs 超越 RankMixer。SSR-S 使用 57M 参数和 1.4G FLOPs，Click AUC 达到 0.6644，超过 101M 参数、3.2G FLOPs 的 RankMixer（0.6621）。这直接验证了结构化稀疏带来的效率增益——通过在计算开始前就物理移除无关维度，SSR-S 将有限的计算预算集中在高信噪比的信号子空间上。

2. SSR-D 在所有指标上取得统计显著的最佳性能。Click AUC 0.6667，Pay AUC 0.8194，相比 RankMixer 分别提升 +0.46pt 和 +0.72pt，且 $p < 0.05$。SSR-D 与 RankMixer 的计算预算基本持平（100M/3.3G vs 101M/3.2G），性能增益完全来自架构设计而非计算堆叠。

3. SSR-S 超越同参数量的 Dense MLP。SSR-S（57M）的 Click AUC（0.6644）显著高于 Dense MLP（60M，AUC 0.6593），说明性能增益来自稀疏架构本身而非参数容量。

4. 自注意力方法的局限性。AutoInt 消耗 1.7G FLOPs（高于 SSR-S 的 1.4G），但 AUC 仅 0.6594。论文指出其根本原因：自注意力使用 Softmax 产生严格正的注意力权重（$\alpha_{ij} > 0, \ \forall_{i,j}$），本质上保持了全连接图——与标准 Dense Layer 面临同样的信号稀释问题。

5.3 公开基准上的泛化性（RQ1）

模型	Avazu AUC	Avazu Params	Alibaba AUC	Alibaba Params	Criteo AUC	Criteo Params
DeepFM	0.7752	0.23M	0.6594	0.21M	0.7986	0.29M
DCN v2	0.7729	0.36M	0.6526	0.35M	0.8064	0.69M
AFN	0.7755	0.15M	0.6757	0.15M	0.8080	0.90M
AutoInt	0.7722	0.07M	0.6784	0.29M	0.8053	0.01M
AutoFIS	0.7802	0.23M	0.6637	0.21M	0.8089	0.23M
Wukong	0.7756	0.17M	0.6782	0.17M	0.8073	0.18M
RankMixer	0.7772	0.64M	0.6801	0.63M	0.8092	1.15M
SSR-S	0.7827*	0.33M	0.6827*	0.34M	0.8098*	0.48M
SSR-D	0.7835*	0.97M	0.6844*	0.89M	0.8096*	1.23M

SSR 在三个公开数据集上均取得一致的改进。SSR-D 相对最强基线 RankMixer：Avazu +0.63%、Alibaba +0.43%、Criteo +0.04%。

Criteo 上的表现值得特别讨论。Criteo 是一个高度竞争且性能饱和的基准（各方法 AUC 集中在 0.808-0.810 之间），但 SSR 仍然取得了最优结果。这说明即使在性能饱和的场景下，SSR 仍能识别出传统模型忽略的精细高阶依赖。

效率方面的一致性同样值得关注。以 Avazu 为例，SSR-S 以 0.33M 参数（RankMixer 的 51%）和 688.7M FLOPs（RankMixer 的 52%）实现了更高的 AUC（0.7827 vs 0.7772）——参数和 FLOPs 均减半，AUC 反而提升。

5.4 可扩展性分析（RQ2）

5.4.1 内部 Scaling 维度分析

论文在工业数据集和 Avazu 上分析了三个 Scaling 维度的效果：

增加视图数 $b$ 是最可靠的 Scaling 维度。在十亿级工业数据集上，性能曲线在 $b$ 增加到 64 时仍保持稳定上升趋势，没有出现 Avazu 上的饱和现象——说明大规模数据上的主要瓶颈是欠拟合而非冗余。

增加子空间宽度 $d_v$ 是有效的二级 Scaling 维度。在低-中资源区间（$d_v$ 较小时）表现良好，但在高复杂度水平时出现收益递减（曲线趋平），最终不如视图数 Scaling 的持续增长。

增加深度 $L$ 的收益最低。每单位 FLOP 的性能增益在深度维度上最小，且早期就出现饱和。

但在较小的 Avazu 数据集上，所有维度的 Scaling 都呈现普遍饱和。$b$ 从 8 增加到 16 时增益显著减少，$d_v$ 超过 128 甚至出现性能退化——这表明在有限数据上，$b$ 和 $d_v$ 都很容易触及容量天花板。

基于这些分析，论文将视图数作为 SSR backbone 的首要 Scaling 机制。

5.4.2 跨架构 Scaling 对比

论文将 SSR 与三类基线在参数量 5M 至 ~900M 的范围内进行 Scaling 对比（每个参数级别都为所有基线独立做了超参数网格搜索）。

SSR vs Dense MLP。即使精心调优了正则化（Dropout、权重衰减），Dense MLP 仍然呈现过早饱和——参数量翻倍带来的收益快速递减。这种”高原效应”说明：没有显式选择机制，Dense Backbone 无法利用额外容量来捕获更精细的交互模式。

SSR vs SOTA（RankMixer、Wukong）。SSR 不仅绝对精度更高，而且 Scaling 轨迹更陡峭。随着参数量增加，SSR 与 SOTA 的性能差距在扩大——在接近 900M 参数时，SSR 将额外容量转化为性能增益的效率远高于基线。这是 SSR 最核心的实验结论：多视图稀疏架构比现有方法更有效地利用大规模参数预算。

5.5 消融实验与机制分析（RQ3）

5.5.1 组件消融

设置	$\Delta$AUC (Avazu)	$\Delta$AUC (Industrial)
去掉稀疏过滤	-0.50	-0.37
去掉多视图策略	-0.22	-0.15
静态（SSR-S）替代动态	-0.12	-0.23
Top-k（STE）替代 ICS	-0.18	-0.29
Dropout 替代 SSR-S	-0.32	-0.45

（单位：$\times 10^{-2}$，以 SSR-D 为基线）

稀疏过滤是最关键的组件。去掉稀疏过滤模块（直接将完整输入暴露给 Dense Block），AUC 下降 0.50pt（Avazu）和 0.37pt（Industrial）——这是所有消融中最大的性能退化，直接验证了论文的核心假设：全局密集连接对推荐输入是次优的。

多视图分解不可或缺。限制为单一表示子空间（$b = 1$）导致 0.22pt/0.15pt 的性能损失，说明并行视图投影对捕获多样互补的特征交互是必要的。

动态优于静态。SSR-D 相比 SSR-S 分别提升 0.12pt 和 0.23pt，表明固定稀疏模式无法充分考虑样本级的特征重要性变化——工业数据集上的差距更大（0.23pt vs 0.12pt），推测是因为 300+ 特征域带来了更丰富的样本间变异性。

ICS 显著优于 STE Top-k。用不可微的 STE Top-k（$k = d_v$，保留 $d_v$ 个最大值）替代 ICS 导致 0.18pt/0.29pt 的性能惩罚。这验证了 ICS 连续梯度流的优越性——STE 的梯度失配在高维推荐特征上被放大。

SSR 学到的不是简单正则化效果。用 Dropout 替代 SSR-S 导致 0.32pt/0.45pt 的剧烈性能下降——如果 SSR 的增益仅来自正则化效果，Dropout 应该能取得相近结果。这证明 SSR 学到了有意义的结构化稀疏模式，而非仅仅是随机丢弃带来的正则化。

5.5.2 ICS 训练动态分析

论文可视化了训练过程中前两层 ICS 的稀疏率和平均特征幅度变化。

稀疏率演化。稀疏率在训练早期快速上升，然后趋于稳定。Layer 2 收敛到约 90% 的稀疏度，显著高于 Layer 1 的约 75%——说明更深的层变得更具选择性，产生更抽象、更稀疏的表示。后期的稳定性确认了收敛是稳定的，而非在不同特征子集间持续切换。

平均特征幅度演化。平均特征幅度在训练过程中总体上升。Layer 2 中，幅度在前 10000 步短暂下降然后上升——这与”先抑制弱/冗余特征，再强化幸存特征”的两阶段动态一致。

5.5.3 ICS 超参数敏感性

设置	参数值	稀疏度	AUC
迭代次数 $T$	$T = 1$	76.4%	0.7821
	$T = 2$	88.6%	0.7826
	$T = 5$（默认）	91.0%	0.7835
灭绝率 $\alpha_t$	$\alpha_t = 0.01$	80.4%	0.7832
$\alpha_t$	$\alpha_t = 0.1$（默认）	91.0%	0.7835
$\alpha_t$	$\alpha_t = 0.3$	93.3%	0.7833
$\alpha_t$	$\alpha_t = 0.5$	94.0%	0.7828
缩放因子 $\gamma$	无 $\gamma$	94.5%	0.7832
	有 $\gamma$（默认）	91.0%	0.7835

渐进式过滤的必要性。$T = 1$（单步阈值化）只能达到 76.4% 稀疏度和 0.7821 AUC，而 $T = 5$ 达到 91.0% 稀疏度和 0.7835 AUC。多轮迭代产生了更干净的表示和更高的预测精度。

灭绝率 $\alpha_t$ 是有效的稀疏度调节器。$\alpha_t$ 平滑地将稀疏度从 80.4% 调节到 94.5%，且在较宽范围（$\alpha_t \in [0.1, 0.5]$）内性能保持稳定（AUC 变化仅 0.0007）。这说明 ICS 机制是鲁棒的而非脆弱的——不需要精确调优灭绝率就能获得良好效果。但 $\alpha_t = 0.5$ 时性能开始下降（0.7828），说明过高的灭绝率会导致过度稀疏，丢失有用信号。

缩放因子 $\gamma$ 的必要性。去掉 $\gamma$ 后 AUC 从 0.7835 降到 0.7832，同时稀疏度异常升高到 94.5%（有 $\gamma$ 时为 91.0%）。这说明 $\gamma$ 不仅是简单的数值稳定器，它实际上通过恢复信号幅度间接调节了竞争动态——有 $\gamma$ 时模型不需要过度稀疏化来维持信号动态范围。

5.5.4 视图多样性验证

论文可视化了 $b$ 个视图的投影矩阵 ${W^{\text{proj}}_i}_{i=1}^{b}$ 之间的两两余弦相似度。Layer 1 和 Layer 2 的热力图在对角线外的元素上显示出一致的低相似度，表明不同视图的特征向量保持大体正交——各视图成功收敛到了不同的子空间，每个视图捕获了特征交互的独特方面。

一个重要的工程发现是：SSR 不需要显式的多样性正则化。由于所有视图的输出被拼接后在同一个损失函数下优化，训练过程自然抑制了冗余视图、偏好捕获互补模式的视图。这意味着视图间的正交性是优化目标驱动的涌现结果，而非额外约束的产物。

5.6 线上 A/B 测试（RQ4）

模型	延迟	CTR 提升	订单提升	GMV 提升
SSR-D	26ms (+1ms)	+2.1%	+3.2%	+3.5%

基线模型为同参数量的 RankMixer（当前生产标准）。在核心推荐场景进行两周 A/B 测试，SSR-D 在所有关键业务指标上取得一致提升。

最关键的是延迟对等。SSR-D 的平均响应时间仅增加 1ms（26ms vs 25ms），说明性能增益来自更优的架构设计而非增加推理计算负担。在工业推荐场景中，延迟约束通常是硬约束——SSR 在不增加延迟的前提下实现了显著的业务提升，是其工程可行性的直接证明。

6. 总结与思考

SSR 最核心的贡献是将推荐模型的 Scaling 瓶颈从”参数不够”重新定义为”密集连接架构与稀疏数据的结构性失配”。92% 权重近零、80% 能量集中在 4% 维度的实证发现是一个极具说服力的观察——它不仅解释了为什么简单堆叠 Dense MLP 在推荐场景下失败，也为 SSR 的”先过滤再融合”范式提供了直接的经验依据。

“Filter-then-Fuse” 范式的设计哲学与 MoE 有相似之处但路线不同。MoE 通过条件路由让不同专家处理不同样本，实现容量扩展但面临路由坍塌和负载均衡问题。SSR 通过多视图稀疏过滤让不同视图关注不同的特征子集，实现信号净化但不涉及 token 级路由。本质上，MoE 在”样本”维度做稀疏化（不同样本激活不同专家），SSR 在”特征”维度做稀疏化（不同视图过滤不同特征维度）。两者的关注维度正交，理论上可以组合使用。

ICS 的生物竞争隐喻是一个优雅的设计。将稀疏化从离散排序（Top-k）转化为连续动态系统，解决了 STE 的梯度失配和 NeuralSort 的超线性复杂度。但一个值得深思的问题是：均场抑制（Mean-Field Inhibition）是否是最优的竞争策略？ 当前 ICS 用全局均值作为抑制阈值，这意味着所有维度面临相同的”生存压力”。但在推荐场景中，不同语义域的特征（如用户画像 vs 行为序列）的信号分布可能差异很大——对所有维度施加同一均值阈值可能不是最优的。一种可能的改进是引入分组抑制（按语义域分组计算均值），或自适应阈值（学习每个维度的局部抑制强度而非全局均值）。

SSR-S 的零 FLOP 稀疏过滤是一个被低估的工程洞察。大多数稀疏化方法（包括 SSR-D 的 ICS）本身仍有计算开销——它们只是用更低的稀疏化成本换取了后续全连接层的计算节省。但 SSR-S 通过固定索引切片实现真正的零成本过滤，将维度选择从”运行时计算”降级为”编译时确定的内存访问模式”。这使得 SSR-S 在延迟敏感的在线服务场景中具有独特优势——它的 Feature Bagging 效应类似随机森林的特征子集采样，牺牲了样本自适应性但获得了极致效率。

视图数是首要 Scaling 维度的发现与推荐数据的特点高度吻合。推荐输入的核心特征是”异构特征域的稀疏交互”——增加视图数意味着更多并行的特征子集视角，每个视角专注于不同的交互模式。这比增加子空间宽度（在固定视角内做更精细的建模）或增加深度（在固定容量内做更多非线性变换）更直接地匹配了数据的结构——因为推荐数据的复杂性主要来自交互模式的多样性而非单个交互的非线性阶数。

论文与同期工作（UniMixer、RankMixer）的关系值得关注。UniMixer 从理论上证明了 Attention/TokenMixer/FM 三类 Scaling 模块的统一性，RankMixer 则代表了无参数 TokenMixer 的工程极限。SSR 走了一条不同的路——不是在 Token 混合层面做文章，而是在进入混合层之前就做信号过滤。这意味着 SSR 的稀疏过滤理论上可以与任何 Scaling 模块（Attention、TokenMixer、UniMixer）组合使用——先用 SSR 的过滤机制净化输入，再用这些模块做特征交互。如果这种组合被验证有效，SSR 的”Filter-then-Fuse”将不仅仅是一个独立的架构方案，而是一个可以附加到任何推荐 Scaling 架构上的通用前处理范式。

一个值得指出的局限性是视图间信息隔离。SSR 的块对角结构严格禁止不同视图间的信息流动（在单层内）。虽然中间层的拼接聚合允许下一层跨视图访问信息，但这种”单层隔离、跨层交互”的模式可能限制了某些需要全局特征交互的模式学习。论文的视图多样性分析（低余弦相似度）证明了视图确实学到了不同的子空间，但没有分析这些子空间是否”遗漏”了某些重要的跨视图交互。在实践中，这种遗漏可能被多层堆叠部分弥补，但对于需要显式全局交互的任务（如跨域推荐），可能需要在 SSR 框架中引入受控的跨视图注意力机制。

7. 读后感：这篇论文到底贡献了什么

读完整篇论文，一个直观感受是：模型层面几乎没有什么创新。SSR 用到的所有组件——多视图分解（本质是块对角矩阵）、随机特征子集采样（随机森林几十年前就有了）、全连接层、ReLU 截断——都是非常基础的操作。ICS 看起来有一套生物竞争的叙事包装，但核心就是”反复减均值再 ReLU”。SSR-S 更是直接随机选维度子集，初始化后固定不变，没有任何学习过程。整个方法”简单到让人觉得不应该有效”。

但它确实有效。那价值在哪？

第一，提出了一个有数据支撑的观点。 “92% 权重近零、80% 能量集中在 4% 维度”——这个对生产模型的实证分析本身就有独立价值。它把一个大家隐约感觉到的问题（Dense MLP 在推荐系统上 Scaling 效果差）具体量化了，并指向了一个明确的原因：不是参数不够，而是密集连接与稀疏数据的结构性失配。这个观察不依赖于 SSR 本身，对整个推荐系统 Scaling 社区都有参考意义。

第二，用最简单的方式验证了一条新路径。 在此之前，推荐系统的 Scaling 研究主要集中在 Token 混合层面（Attention、TokenMixer、FM），SSR 开辟了一个正交的方向——在特征维度做显式稀疏化。SSR-S 用 57M 参数超过 60M 的 Dense MLP，SSR-D 在十亿样本上超过 RankMixer，说明”先过滤再融合”确实是一条可行的路径。方法简单反而是优势：它说明推荐系统 Scaling 的瓶颈可能不在模型复杂度，而在归纳偏置与数据结构的匹配上。

第三，工程实用性很强。 零 FLOP 过滤、延迟只增加 1ms、参数减半的同时性能提升——这些在工业部署中是非常实际的优势。很多学术上更精巧的方法因为延迟问题在线上用不了，SSR-S 的”粗暴但高效”反而更有部署价值。

但也有需要注意的前提条件。 SSR 有效的核心假设是”推荐数据的有效特征交互是稀疏的”——大部分维度对大部分样本的预测贡献微乎其微。如果一个任务的有效交互是密集的，SSR 的强行稀疏化就会丢失信息。论文只在 CTR 预估场景上做了验证，不能推广到所有推荐任务，更不能推广到 CV/NLP 等有自然局部性的领域。

此外，论文的理论部分（2.1 节 MLP-Mixer 等价稀疏性 + Golubeva 假说）作为动机铺垫存在逻辑跳跃（详见前文讨论），真正的说服力来自经验观察和实验数据，而非理论推导。

一句话总结：SSR 的价值不在于提出了多精巧的模型，而在于用最简单的方式证明了一个重要的观点——推荐系统的 Scaling 瓶颈在于”密集连接的浪费”，而显式稀疏化是一条值得探索的解法。

机器学习

This post is licensed under CC BY 4.0 by the author.