强化学习与一般机器学习损失函数的对比
写在最前,利用机器学习框架进行训练是,我们都需要定义损失函数,框架会自动通过梯度下降法,最小化损失函数。 因为梯度的方向,是函数变大的方向,所以我们会沿着负梯度方向优化。 [\theta := \theta - \alpha * g(\theta)] 其中:$g(\theta)$就是损失函数的梯度。 框架干的事情是固定的,所以想要达成不同的目的,就需要设计不同的损失函数。 交叉熵损失...
写在最前,利用机器学习框架进行训练是,我们都需要定义损失函数,框架会自动通过梯度下降法,最小化损失函数。 因为梯度的方向,是函数变大的方向,所以我们会沿着负梯度方向优化。 [\theta := \theta - \alpha * g(\theta)] 其中:$g(\theta)$就是损失函数的梯度。 框架干的事情是固定的,所以想要达成不同的目的,就需要设计不同的损失函数。 交叉熵损失...
在PyTorch中,使用nn.Parameter(设置requires_grad=False)和register_buffer的主要区别如下: 特性 nn.Parameter(requires_grad=False) register_buffer 存储位置 属于模型参数 (mod...
PPO vs DPO 详细对比 对比维度 PPO (Proximal Policy Optimization) DPO (Direct Preference Optimization) 核心目标 通过限制策略更新幅度,最大化累积奖励。 直接通过偏好数据优化策略,无需显式...
在分类任务中,模型的极大似然函数(Maximum Likelihood Estimation, MLE)通过以下步骤定义: 1. 问题设定 假设分类任务有K个类别,给定训练数据集${(x_i, y_i)}_{i=1}^N$,其中: $x_i$ 为输入特征。 $y_i$ 为真实标签(离散值,如 one-hot 编码形式)。 模型的目标是输出每个类别的概率分布 $Q(y\|x...
在机器学习中,交叉熵(Cross-Entropy)被广泛用作损失函数,尤其是在分类任务中。以下是其理论背景和直观解释: 1. 交叉熵的定义 交叉熵衡量两个概率分布P(真实分布)和Q(预测分布)之间的差异: [H(P, Q) = -\sum_{x} P(x) \log Q(x).] P(x) 是真实标签的概率分布(如 one-hot 编码)。 Q(x) 是模型的预测概率分布...
1. KL散度的计算公式 离散概率分布 ( P ) 和 ( Q ) 之间的KL散度定义为: [D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}] 或者用期望形式表示: [D_{KL}(P \parallel Q) = \mathbb{E}_{x \sim P}\left[ \log P(x) - \log Q(x)...
FM模型在LR模型的基础上,添加了交叉特征部分的计算,使模型的拟合能力增强。其特别适合有大量稀疏ID类特征的分类问题。 特点: 1、适合特征量较大,且稀疏的情况。 2、适合one hot特征,不适合连续特征。 3、适合做分类预估问题,不适合回归拟合问题。 FM模型: [Y(x)= \omega_0 + \sum_{i = 0}^n\omega_i+\sum_{i = 0}^{n -...
本篇博文内容主要来自Sebastian Ruder的经典论文An Overview of gradient descent optimization algorithms,论文原文可以在这里找到。 一、简介 神经网络中最常用的优化算法就是梯度下降算法,但是对于大部分研究者,都将梯度下降算法作为黑盒在使用,对不同优化算法的特点并没有一个直观的感受,本文作者通过系统性的介绍,希望读者能够...
反向传播算法是神经网络中使用最普遍的优化算法,这里做一个简单的总结。对于给定的训练集 [D={(x_{1}, y_{1}), (x_{2}, y_{2}), … , (x_{m}, y_{m})}, x_i \in \mathbb{R}^{d}, y_i \in \mathbb{R}^l] 假设有一个三层神经网络,有d个输入神经元,l个输出神经元,中间隐层数量为q。隐层和输出层均采...
神经网络优化 个人浅见,神经网络从20世界中期出现,到2000年以后的突然火爆,与硬件计算能力的提升密不可分。我们试图通过人工设计的算法,给机器更多的智能,神经网络担起了这一重要的任务。但是,神经网络虽然在图像语音和NLP等领域取得了一些成绩,离真正的智能却相去甚远。诺奖得主Thomas J. Sargent公开表示,现在所谓的人工智能,只不过就是统计学。可是究竟什么是智能,恐怕也没...