强化学习与一般机器学习损失函数的对比

写在最前，利用机器学习框架进行训练是，我们都需要定义损失函数，框架会自动通过梯度下降法，最小化损失函数。因为梯度的方向，是函数变大的方向，所以我们会沿着负梯度方向优化。 [\theta := \theta - \alpha * g(\theta)] 其中：$g(\theta)$就是损失函数的梯度。框架干的事情是固定的，所以想要达成不同的目的，就需要设计不同的损失函数。交叉熵损失...

Mar 17, 2025 机器学习

Torch中的register_bufffer

在PyTorch中，使用nn.Parameter（设置requires_grad=False）和register_buffer的主要区别如下：特性 nn.Parameter(requires_grad=False) register_buffer 存储位置属于模型参数 (mod...

Mar 17, 2025 机器学习

Ppo vs dpo

PPO vs DPO 详细对比对比维度 PPO (Proximal Policy Optimization) DPO (Direct Preference Optimization) 核心目标通过限制策略更新幅度，最大化累积奖励。直接通过偏好数据优化策略，无需显式...

Mar 13, 2025 机器学习

极大似然函数

在分类任务中，模型的极大似然函数（Maximum Likelihood Estimation, MLE）通过以下步骤定义： 1. 问题设定假设分类任务有K个类别，给定训练数据集${(x_i, y_i)}_{i=1}^N$，其中： $x_i$ 为输入特征。 $y_i$ 为真实标签（离散值，如 one-hot 编码形式）。模型的目标是输出每个类别的概率分布 $Q(y\|x...

Mar 11, 2025 机器学习

交叉熵为什么可以被用作损失函数

在机器学习中，交叉熵（Cross-Entropy）被广泛用作损失函数，尤其是在分类任务中。以下是其理论背景和直观解释： 1. 交叉熵的定义交叉熵衡量两个概率分布P（真实分布）和Q（预测分布）之间的差异： [H(P, Q) = -\sum_{x} P(x) \log Q(x).] P(x) 是真实标签的概率分布（如 one-hot 编码）。 Q(x) 是模型的预测概率分布...

Mar 11, 2025 机器学习

Kl散度和交叉熵

1. KL散度的计算公式离散概率分布 ( P ) 和 ( Q ) 之间的KL散度定义为： [D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}] 或者用期望形式表示： [D_{KL}(P \parallel Q) = \mathbb{E}_{x \sim P}\left[ \log P(x) - \log Q(x)...

Mar 11, 2025 机器学习

Fm模型总结

FM模型在LR模型的基础上，添加了交叉特征部分的计算，使模型的拟合能力增强。其特别适合有大量稀疏ID类特征的分类问题。特点： 1、适合特征量较大，且稀疏的情况。 2、适合one hot特征，不适合连续特征。 3、适合做分类预估问题，不适合回归拟合问题。 FM模型： [Y(x)= \omega_0 + \sum_{i = 0}^n\omega_i+\sum_{i = 0}^{n -...

Nov 20, 2019 机器学习

神经网络优化算法总结

本篇博文内容主要来自Sebastian Ruder的经典论文An Overview of gradient descent optimization algorithms，论文原文可以在这里找到。一、简介神经网络中最常用的优化算法就是梯度下降算法，但是对于大部分研究者，都将梯度下降算法作为黑盒在使用，对不同优化算法的特点并没有一个直观的感受，本文作者通过系统性的介绍，希望读者能够...

Oct 15, 2018 机器学习

神经网络中的反向传播算法

反向传播算法是神经网络中使用最普遍的优化算法，这里做一个简单的总结。对于给定的训练集 [D={(x_{1}, y_{1}), (x_{2}, y_{2}), … , (x_{m}, y_{m})}, x_i \in \mathbb{R}^{d}, y_i \in \mathbb{R}^l] 假设有一个三层神经网络，有d个输入神经元，l个输出神经元，中间隐层数量为q。隐层和输出层均采...

Oct 10, 2018 机器学习

神经网络调优

神经网络优化个人浅见，神经网络从20世界中期出现，到2000年以后的突然火爆，与硬件计算能力的提升密不可分。我们试图通过人工设计的算法，给机器更多的智能，神经网络担起了这一重要的任务。但是，神经网络虽然在图像语音和NLP等领域取得了一些成绩，离真正的智能却相去甚远。诺奖得主Thomas J. Sargent公开表示，现在所谓的人工智能，只不过就是统计学。可是究竟什么是智能，恐怕也没...

Oct 3, 2018 机器学习

强化学习与一般机器学习损失函数的对比

Torch中的register_bufffer

Ppo vs dpo

极大似然函数

交叉熵为什么可以被用作损失函数

Kl散度和交叉熵

Fm模型总结

神经网络优化算法总结

神经网络中的反向传播算法

神经网络调优

Trending Tags