重新总结激活函数和损失函数
一、常用损失函数及使用场景 1. 均方误差(MSE, Mean Squared Error) 公式: \[L = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2\] 使用场景:回归任务(如房价预测、温度预测)。 优点:计算简单,梯度平滑,收敛快。 缺点:对异常值敏感,可能导致梯度爆炸。 图像特点:二次函数曲线...
一、常用损失函数及使用场景 1. 均方误差(MSE, Mean Squared Error) 公式: \[L = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2\] 使用场景:回归任务(如房价预测、温度预测)。 优点:计算简单,梯度平滑,收敛快。 缺点:对异常值敏感,可能导致梯度爆炸。 图像特点:二次函数曲线...
简单做个demo,对一批文本数据进行预处理,方便后续训练 """ 步骤 1:安装依赖库 """ # !pip install datasets transformers """ 步骤 2:准备文件结构 """ # 假设原始数据存放结构: # ./raw_data/ # ├── part-0001.txt # ├── part-0002.txt # └── ...(数千个文本文...
温度系数的作用 在Softmax损失函数中引入温度系数(Temperature Scaling)的目的是通过调节概率分布的“尖锐”或“平滑”程度,优化模型的训练或推理效果。具体作用如下: 控制输出分布的平滑度 温度系数公式: \[p_i = \frac{\exp(z_i / \tau)}{\sum_{j=1}^C \exp(z_j / \tau)}\...
写在最前,利用机器学习框架进行训练是,我们都需要定义损失函数,框架会自动通过梯度下降法,最小化损失函数。 因为梯度的方向,是函数变大的方向,所以我们会沿着负梯度方向优化。 [\theta := \theta - \alpha * g(\theta)] 其中:$g(\theta)$就是损失函数的梯度。 框架干的事情是固定的,所以想要达成不同的目的,就需要设计不同的损失函数。 交叉熵损失...
在PyTorch中,使用nn.Parameter(设置requires_grad=False)和register_buffer的主要区别如下: 特性 nn.Parameter(requires_grad=False) register_buffer 存储位置 属于模型参数 (mod...
PPO vs DPO 详细对比 对比维度 PPO (Proximal Policy Optimization) DPO (Direct Preference Optimization) 核心目标 通过限制策略更新幅度,最大化累积奖励。 直接通过偏好数据优化策略,无需显式...
在分类任务中,模型的极大似然函数(Maximum Likelihood Estimation, MLE)通过以下步骤定义: 1. 问题设定 假设分类任务有K个类别,给定训练数据集${(x_i, y_i)}_{i=1}^N$,其中: $x_i$ 为输入特征。 $y_i$ 为真实标签(离散值,如 one-hot 编码形式)。 模型的目标是输出每个类别的概率分布 $Q(y\|x...
在机器学习中,交叉熵(Cross-Entropy)被广泛用作损失函数,尤其是在分类任务中。以下是其理论背景和直观解释: 1. 交叉熵的定义 交叉熵衡量两个概率分布P(真实分布)和Q(预测分布)之间的差异: [H(P, Q) = -\sum_{x} P(x) \log Q(x).] P(x) 是真实标签的概率分布(如 one-hot 编码)。 Q(x) 是模型的预测概率分布...
1. KL散度的计算公式 离散概率分布 ( P ) 和 ( Q ) 之间的KL散度定义为: [D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}] 或者用期望形式表示: [D_{KL}(P \parallel Q) = \mathbb{E}_{x \sim P}\left[ \log P(x) - \log Q(x)...
FM模型在LR模型的基础上,添加了交叉特征部分的计算,使模型的拟合能力增强。其特别适合有大量稀疏ID类特征的分类问题。 特点: 1、适合特征量较大,且稀疏的情况。 2、适合one hot特征,不适合连续特征。 3、适合做分类预估问题,不适合回归拟合问题。 FM模型: [Y(x)= \omega_0 + \sum_{i = 0}^n\omega_i+\sum_{i = 0}^{n -...