BCEWithLogloss公式推导

1. 引言直接使用这个函数，解决了rank模型中，部分稀疏目标无法正常训练的问题，学习一下其推导过程。 2. 二分类问题一般我们在模型训练中，会使用sigmoid函数作为激活函数，将模型的输出映射到(0,1)之间，作为二分类问题的预测概率。但是，sigmoid函数有一些问题，比如：当输入非常大或非常小时，sigmoid函数的输出接近0或1，而梯度接近0，这会导致梯度消失问题...

Sep 9, 2025 机器学习

旋转位置编码

论文名字：ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING 这篇论文主要介绍了一种名为RoFormer的增强型Transformer模型，其核心是提出了旋转位置嵌入（RoPE）方法来改进Transformer中的位置编码机制，具体内容如下： \[\begin{equation} \begin{split} q_m ...

Jun 24, 2025 机器学习

相对位置编码

论文名字：Self-Attention with Relative Position Representations 绝对位置编码有明显的局限性，不能处理超过训练数据长度的序列，token之间的位置关系，表达不清晰。自注意力子层输出计算: \[z_{i}=\sum_{j=1}^{n} \alpha_{i j}\left(x_{j} W^{V}\right)\] 注意力...

Jun 23, 2025 机器学习

torch中的梯度计算

1. 引言梯度计算是深度学习的核心机制之一，PyTorch通过自动微分（Autograd）系统实现了高效的梯度计算。本文将深入解析PyTorch中梯度计算的原理与实现细节。 2. 计算图与反向传播 PyTorch采用动态计算图（Dynamic Computation Graph）：前向传播时实时构建计算图每个张量操作被记录为图中的节点反向传播时自动计算梯度 ...

Apr 18, 2025 机器学习

RQ-VAE方法详解

RQ-VAE（Residual Quantized Variational Autoencoder）方法详解一、方法概述 Residual-Quantized Variational AutoEncoder（RQ-VAE）是一种结合了残差连接（Residual Connection）和量化技术（Quantization）的变分自编码器（VAE）。它旨在通过引入这些技术，提高模型的生成...

Apr 10, 2025 机器学习

Flash Attention推导

Flash Attention 计算正确性数学推导标准注意力计算给定查询矩阵 \(Q \in \mathbb{R}^{N \times d}\)，键矩阵\(K \in \mathbb{R}^{N \times d}\)，值矩阵\(V \in \mathbb{R}^{N \times d}\)，标准注意力输出\(O \in \mathbb{R}^{N \times d}\)计算为： ...

Mar 26, 2025 机器学习

对比attention实现

Self-Attention 与 Cross-Attention 的区别及实现细节应用场景类型应用场景示例 Self-Attention 单序列内部关系建模 Transformer 编码器、文本分类 Cross-Attentio...

Mar 24, 2025 机器学习

Gpt2代码阅读

Mar 24, 2025 机器学习

重新总结激活函数和损失函数

一、常用损失函数及使用场景 1. 均方误差（MSE, Mean Squared Error）公式： \[L = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2\] 使用场景：回归任务（如房价预测、温度预测）。优点：计算简单，梯度平滑，收敛快。缺点：对异常值敏感，可能导致梯度爆炸。图像特点：二次函数曲线...

Mar 18, 2025 机器学习

对数据进行预处理

简单做个demo，对一批文本数据进行预处理，方便后续训练 """ 步骤 1：安装依赖库 """ # !pip install datasets transformers """ 步骤 2：准备文件结构 """ # 假设原始数据存放结构： # ./raw_data/ # ├── part-0001.txt # ├── part-0002.txt # └── ...（数千个文本文...