交叉熵为什么可以被用作损失函数
在机器学习中,交叉熵(Cross-Entropy)被广泛用作损失函数,尤其是在分类任务中。以下是其理论背景和直观解释: 1. 交叉熵的定义 交叉熵衡量两个概率分布P(真实分布)和Q(预测分布)之间的差异: [H(P, Q) = -\sum_{x} P(x) \log Q(x).] P(x) 是真实标签的概率分布(如 one-hot 编码)。 Q(x) 是模型的预测概率分布...
在机器学习中,交叉熵(Cross-Entropy)被广泛用作损失函数,尤其是在分类任务中。以下是其理论背景和直观解释: 1. 交叉熵的定义 交叉熵衡量两个概率分布P(真实分布)和Q(预测分布)之间的差异: [H(P, Q) = -\sum_{x} P(x) \log Q(x).] P(x) 是真实标签的概率分布(如 one-hot 编码)。 Q(x) 是模型的预测概率分布...
1. KL散度的计算公式 离散概率分布 ( P ) 和 ( Q ) 之间的KL散度定义为: [D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}] 或者用期望形式表示: [D_{KL}(P \parallel Q) = \mathbb{E}_{x \sim P}\left[ \log P(x) - \log Q(x)...
FM模型在LR模型的基础上,添加了交叉特征部分的计算,使模型的拟合能力增强。其特别适合有大量稀疏ID类特征的分类问题。 特点: 1、适合特征量较大,且稀疏的情况。 2、适合one hot特征,不适合连续特征。 3、适合做分类预估问题,不适合回归拟合问题。 FM模型: [Y(x)= \omega_0 + \sum_{i = 0}^n\omega_i+\sum_{i = 0}^{n -...
本篇博文内容主要来自Sebastian Ruder的经典论文An Overview of gradient descent optimization algorithms,论文原文可以在这里找到。 一、简介 神经网络中最常用的优化算法就是梯度下降算法,但是对于大部分研究者,都将梯度下降算法作为黑盒在使用,对不同优化算法的特点并没有一个直观的感受,本文作者通过系统性的介绍,希望读者能够...
反向传播算法是神经网络中使用最普遍的优化算法,这里做一个简单的总结。对于给定的训练集 [D={(x_{1}, y_{1}), (x_{2}, y_{2}), … , (x_{m}, y_{m})}, x_i \in \mathbb{R}^{d}, y_i \in \mathbb{R}^l] 假设有一个三层神经网络,有d个输入神经元,l个输出神经元,中间隐层数量为q。隐层和输出层均采...
神经网络优化 个人浅见,神经网络从20世界中期出现,到2000年以后的突然火爆,与硬件计算能力的提升密不可分。我们试图通过人工设计的算法,给机器更多的智能,神经网络担起了这一重要的任务。但是,神经网络虽然在图像语音和NLP等领域取得了一些成绩,离真正的智能却相去甚远。诺奖得主Thomas J. Sargent公开表示,现在所谓的人工智能,只不过就是统计学。可是究竟什么是智能,恐怕也没...
在机器学习领域,LR和SVM应该算是hello world级别的分类器,简单总结下。 一、LR LR分类器用于解决01分类问题,是一个线性的2分类器,能力较弱,但是速度较快。logistic函数用来表示样本为正样本(y=1)的概率,具体表达式如下: [h_{\theta }(x)=\frac{1}{1+e^{-X^{T}\theta}}] logistic函数的导入如下: [h_{\...
一、损失函数 在机器学习中,损失函数用来评估预测值与真实值之间的差异程度,有的文章会区分损失函数(loss function)和代价函数(cost function),损失函数表示单个样本差异,而代价函数用来表示整体差异,本文统一叫做损失函数了。 在处理实际问题时,只优化损失函数是不够的,有时还需要加上限制项,限制模型参数之间的关系或者限制参数的复杂度用来防止过拟合。损失函数可以理解为是目...
比较决策树,GBDT,XGBOOST和LightGBM 一、决策树 决策树是一个树结构的分类器,其中每个非叶子节点表示一个特征属性上的测试条件。在决策树构建过程中,最重要的部分就是决定分类特征和分类值,特征既可以是离散值也可以是连续值。 特征的选择一般有两种算法ID3和C4.5,下面依次介绍。 ID3 ID3的核心算法是使用信息增益来选择分裂的特征。在信息论中,熵表示随机变量的不确定性,条...
总结几个常用的文本分类器,从数学原理到效果测评。 一、常用文本分类器 1、朴素贝叶斯分类器 [P(Y X)=\frac{P(Y)P(X Y)}{P(X)}] P(Y|X)是已知X发生后Y的条件概率,也由于得自X的取值而被称作Y的后验概率。 P(Y)是Y的先验概率(或边缘概率)。之所以称为”先验”是因为它不考虑...