论文链接：https://arxiv.org/abs/2602.23964（已录用SIGIR2026）

1. 背景：

1.1 生成式检索（GR）的技术范式

在电商搜索领域，“生成式检索”范式逐渐兴起并得到越来越多的关注。生成式检索通过将海量商品（SKU）编码为结构化的语义 ID（Semantic ID, SID），将检索任务转化为一个自回归生成任务。

SID 的构建原理：通常采用层次化聚类（如 RQ-VAE 或 RQ-Kmeans）构建。这种“由粗到细”的层级结构使得模型能够通过 Beam Search 在十亿级商品库中实现毫秒级响应

训练阶段：一般分为语义对齐预训练（Pre-train）、个性化对齐指令微调（SFT）和偏好对齐优化（DPO/RL）三个阶段。

1.2 为什么需要 DPO？

电商环境拥有极其丰富的隐式偏好信号（如曝光、点击、加购、下单）。传统的精排模型通过交叉熵或序关系损失来吸收这些信号，而 GR 模型在经过 SFT（指令微调）后，仍需进一步对齐用户意图。相比其他强化学习算法如GRPO、PPO，DPO 的优势在于其不依赖额外的 Reward Model，实现简单且样本获取成本低。

1.3 GR 场景下的特殊挑战

不同于自然语言处理（NLP）任务，生成式检索下的 DPO 具有以下独特性：

梯度冲突（Shared Prefixes）：SID 具有层级性，正负样本常共享类目前缀。标准 DPO 在惩罚负样本时，会无差别地打压这些正确的前缀路径，导致类目生成的震荡。
噪声敏感（Pseudo-negatives）：电商的“未点击”并不等同于“不相关”，可能是位置偏见导致的。强行对比这种“伪负例”会扭曲模型的语义表示。
概率挤压（Squeezing Effect）：电商 Query 通常对应多个相关正样本（Multi-label）。打压负样本（尤其是难负样本和伪负样本）的同时可能会压缩长尾正样本的概率空间。

2. 算法演进：主流偏好对齐方案对比

我们对现有的DPO类算法进行了调研整理，选取其中的代表性方法总结如下：

整体趋势可以概括为：

演进方向	代表方法	趋势说明
轻量化	SimPO、ORPO	从依赖参考模型转向 reference-free，减少显存和计算开销
提升样本利用效率	Softmax-DPO、IRPO	从 pair-wise 走向 multi-sample / list-wise，一次利用多个负样本
增强细粒度控制	TDPO、AAO	从序列级奖励转向 token 级建模，减少粗粒度梯度带来的误伤
提升噪声鲁棒性	Omni-DPO、Beta-DPO	通过动态权重、外部评分、动态 β 或离群过滤缓解噪声数据问题
面向生成式检索结构优化	list-wise DPO、APAO、 RAD-DPO	从通用偏好优化进一步走向SID 结构感知、伪负例识别、多目标融合、样本构成优化

在生成式检索/推荐后训练对齐领域，逐渐有工作开始针对SID的层次化结构进行token级的细粒度优化，例如APAO和OneSearch-V2提出的TPMA-GRPO，他们采用了不同的策略对SID前缀token做单独建模增强。

一句话总结：DPO 变体的演进主线是从“简单 pair-wise 序列级偏好优化”，逐步走向“低成本、多样本、token 级、噪声鲁棒、prefix-aware 和结构感知”的优化范式；RAD-DPO 的核心定位是把这些趋势进一步落到生成式检索的 SID 结构和伪负例问题上。

3. RAD-DPO 核心技术方案：面向 SID 结构的鲁棒偏好对齐

前面我们分析了标准 DPO 在生成式检索场景下的三个核心问题：公共前缀被误伤、隐式反馈噪声敏感、多正例概率挤压。RAD-DPO 的设计目标，就是把通用的序列级偏好优化，改造成更适合电商 SID 生成的结构化偏好学习方法。

从整体上看，RAD-DPO 由三个相互配合的模块组成：

模块	解决问题	核心思想
MLGC：Multi-label Global Contrast	多正例概率挤压	从 pair-wise 对比扩展到 session 级多标签全局对比
TLGD：Token-Level Gradient Detachment	公共 SID 前缀被误伤	对负样本共享前缀执行 Stop-Gradient，避免正确前缀的梯度被抵消
RDRW：Representation-based Dynamic Reward Weighting	曝光未点击中的伪负例	根据正负样本表示相似度动态降低疑似伪负例惩罚

3.1 从 pair-wise DPO 到 session 级偏好学习

图片.png

3.2 MLGC：多标签全局对比，缓解正样本概率挤压

3.3 TLGD：Token 级梯度截断，保护 SID 公共前缀

图片.png

前向计算时，负样本公共前缀仍然参与 likelihood 计算；反向传播时，切断负样本公共前缀上的梯度，只在正负样本真正分叉的位置之后进行惩罚。

图片.png

3.4 RDRW：动态奖励加权，降低伪负例误伤

图片.png

3.5 三个模块的整体协同

4. 实现细节

图片.png

4.1 Label Packing：把多候选样本压到一次前向中

图片.png

可以把 attention 可见性理解为：

Token 区域	可见范围
Prompt	作为上下文，被所有 label 看到
Positive Label	只能看到 prompt 和自身历史 token
Negative Label	只能看到 prompt 和自身历史 token
不同 Label 之间	互不可见

图片.png

4.2 Attention Mask 与 Position ID 的两个关键细节

图片.png

4.3 性能收益

从工程视角看，Label Packing 和 reference-free 设计保证了 RAD-DPO 可以在大规模搜索日志上高效训练，训练效率和SFT处于同一水平，远高于GRPO等强化学习算法。

显存：由于去掉了参考模型（SimPO 路线），显存消耗降低近50%。
吞吐：对比传统拼接方式，单次前向即可完成所有样本计算，训练吞吐提升了 300%。

5. 实验分析

为高效验证离线指标，我们在3千万小数据集上进行了对比实验，实际上线前的训练会放大到上亿量级的数据，经验证RAD-DPO训练后的指标提升会更明显。

整体对比：

全方位领先：在所有召回（Recall）和 MRR 指标上，RAD-DPO 均优于 SFT 及其他 DPO 变体。
模型规模可扩展性：随着模型参数从 0.6B 扩展到 8B，RAD-DPO 的领先优势持续扩大（如 8B 模型下 SID-level MRR 提升至 0.3246）。

数据效率： Figure 3 显示，即使在 10M 的训练数据下，RAD-DPO 依然能保持对 SFT 的显著相对提升。

需要强调的是，论文中的结果为了对比公平，统一只使用了3000万条训练样本，实际上线时RAD-DPO可高效训练上亿数据，指标会有进一步提升。

6. 总结与展望

RAD-DPO 是生成式检索从理论走向大规模工业应用的关键方案。它系统性地解决了结构化 SID 生成中的前缀冲突、隐式噪声以及多标签概率挤压问题。通过 TLGD 梯度截断保护了层级结构的稳定性，通过 RDRW 实现了自适应降噪，并在工程上利用 Label Packing 实现了极高的训练吞吐。

未来优化：

引入更丰富的样本类型：探索引入相关性样本，进一步提升检索结果的相关度（pgood）。
训练阶段融合：探索 SFT 与 DPO 的单阶段联合训练，减少分阶段训练带来的分布偏移和成本增加。
精细化 Token 优化：针对不同位置的 Token设计差异化的损失权重，进一步挖掘生成式模型的建模能力。

京东主站搜索-生成式检索偏好对齐：RAD-DPO 技术解析

1. 背景：

1.1 生成式检索（GR）的技术范式

1.2 为什么需要 DPO？

1.3 GR 场景下的特殊挑战

2. 算法演进：主流偏好对齐方案对比

3. RAD-DPO 核心技术方案：面向 SID 结构的鲁棒偏好对齐

3.1 从 pair-wise DPO 到 session 级偏好学习

3.2 MLGC：多标签全局对比，缓解正样本概率挤压

3.3 TLGD：Token 级梯度截断，保护 SID 公共前缀

3.4 RDRW：动态奖励加权，降低伪负例误伤

3.5 三个模块的整体协同

4. 实现细节

4.1 Label Packing：把多候选样本压到一次前向中

4.2 Attention Mask 与 Position ID 的两个关键细节

4.3 性能收益

5. 实验分析

6. 总结与展望