Ppo vs dpo
PPO vs DPO 详细对比 对比维度 PPO (Proximal Policy Optimization) DPO (Direct Preference Optimization) 核心目标 通过限制策略更新幅度,最大化累积奖励。 直接通过偏好数据优化策略,无需显式...
PPO vs DPO 详细对比 对比维度 PPO (Proximal Policy Optimization) DPO (Direct Preference Optimization) 核心目标 通过限制策略更新幅度,最大化累积奖励。 直接通过偏好数据优化策略,无需显式...
在分类任务中,模型的极大似然函数(Maximum Likelihood Estimation, MLE)通过以下步骤定义: 1. 问题设定 假设分类任务有K个类别,给定训练数据集${(x_i, y_i)}_{i=1}^N$,其中: $x_i$ 为输入特征。 $y_i$ 为真实标签(离散值,如 one-hot 编码形式)。 模型的目标是输出每个类别的概率分布 $Q(y\|x...
在机器学习中,交叉熵(Cross-Entropy)被广泛用作损失函数,尤其是在分类任务中。以下是其理论背景和直观解释: 1. 交叉熵的定义 交叉熵衡量两个概率分布P(真实分布)和Q(预测分布)之间的差异: [H(P, Q) = -\sum_{x} P(x) \log Q(x).] P(x) 是真实标签的概率分布(如 one-hot 编码)。 Q(x) 是模型的预测概率分布...
1. KL散度的计算公式 离散概率分布 ( P ) 和 ( Q ) 之间的KL散度定义为: [D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}] 或者用期望形式表示: [D_{KL}(P \parallel Q) = \mathbb{E}_{x \sim P}\left[ \log P(x) - \log Q(x)...
FM模型在LR模型的基础上,添加了交叉特征部分的计算,使模型的拟合能力增强。其特别适合有大量稀疏ID类特征的分类问题。 特点: 1、适合特征量较大,且稀疏的情况。 2、适合one hot特征,不适合连续特征。 3、适合做分类预估问题,不适合回归拟合问题。 FM模型: [Y(x)= \omega_0 + \sum_{i = 0}^n\omega_i+\sum_{i = 0}^{n -...
本篇博文内容主要来自Sebastian Ruder的经典论文An Overview of gradient descent optimization algorithms,论文原文可以在这里找到。 一、简介 神经网络中最常用的优化算法就是梯度下降算法,但是对于大部分研究者,都将梯度下降算法作为黑盒在使用,对不同优化算法的特点并没有一个直观的感受,本文作者通过系统性的介绍,希望读者能够...
反向传播算法是神经网络中使用最普遍的优化算法,这里做一个简单的总结。对于给定的训练集 [D={(x_{1}, y_{1}), (x_{2}, y_{2}), … , (x_{m}, y_{m})}, x_i \in \mathbb{R}^{d}, y_i \in \mathbb{R}^l] 假设有一个三层神经网络,有d个输入神经元,l个输出神经元,中间隐层数量为q。隐层和输出层均采...
神经网络优化 个人浅见,神经网络从20世界中期出现,到2000年以后的突然火爆,与硬件计算能力的提升密不可分。我们试图通过人工设计的算法,给机器更多的智能,神经网络担起了这一重要的任务。但是,神经网络虽然在图像语音和NLP等领域取得了一些成绩,离真正的智能却相去甚远。诺奖得主Thomas J. Sargent公开表示,现在所谓的人工智能,只不过就是统计学。可是究竟什么是智能,恐怕也没...
在机器学习领域,LR和SVM应该算是hello world级别的分类器,简单总结下。 一、LR LR分类器用于解决01分类问题,是一个线性的2分类器,能力较弱,但是速度较快。logistic函数用来表示样本为正样本(y=1)的概率,具体表达式如下: [h_{\theta }(x)=\frac{1}{1+e^{-X^{T}\theta}}] logistic函数的导入如下: [h_{\...
一、损失函数 在机器学习中,损失函数用来评估预测值与真实值之间的差异程度,有的文章会区分损失函数(loss function)和代价函数(cost function),损失函数表示单个样本差异,而代价函数用来表示整体差异,本文统一叫做损失函数了。 在处理实际问题时,只优化损失函数是不够的,有时还需要加上限制项,限制模型参数之间的关系或者限制参数的复杂度用来防止过拟合。损失函数可以理解为是目...