极大似然函数

在分类任务中，模型的极大似然函数（Maximum Likelihood Estimation, MLE）通过以下步骤定义： 1. 问题设定假设分类任务有K个类别，给定训练数据集${(x_i, y_i)}_{i=1}^N$，其中： $x_i$ 为输入特征。 $y_i$ 为真实标签（离散值，如 one-hot 编码形式）。模型的目标是输出每个类别的概率分布 $Q(y\|x...

Mar 11, 2025 机器学习

交叉熵为什么可以被用作损失函数

在机器学习中，交叉熵（Cross-Entropy）被广泛用作损失函数，尤其是在分类任务中。以下是其理论背景和直观解释： 1. 交叉熵的定义交叉熵衡量两个概率分布P（真实分布）和Q（预测分布）之间的差异： [H(P, Q) = -\sum_{x} P(x) \log Q(x).] P(x) 是真实标签的概率分布（如 one-hot 编码）。 Q(x) 是模型的预测概率分布...

Mar 11, 2025 机器学习

Kl散度和交叉熵

1. KL散度的计算公式离散概率分布 ( P ) 和 ( Q ) 之间的KL散度定义为： [D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}] 或者用期望形式表示： [D_{KL}(P \parallel Q) = \mathbb{E}_{x \sim P}\left[ \log P(x) - \log Q(x)...

Mar 11, 2025 机器学习

Fm模型总结

FM模型在LR模型的基础上，添加了交叉特征部分的计算，使模型的拟合能力增强。其特别适合有大量稀疏ID类特征的分类问题。特点： 1、适合特征量较大，且稀疏的情况。 2、适合one hot特征，不适合连续特征。 3、适合做分类预估问题，不适合回归拟合问题。 FM模型： [Y(x)= \omega_0 + \sum_{i = 0}^n\omega_i+\sum_{i = 0}^{n -...

Nov 20, 2019 机器学习

神经网络优化算法总结

本篇博文内容主要来自Sebastian Ruder的经典论文An Overview of gradient descent optimization algorithms，论文原文可以在这里找到。一、简介神经网络中最常用的优化算法就是梯度下降算法，但是对于大部分研究者，都将梯度下降算法作为黑盒在使用，对不同优化算法的特点并没有一个直观的感受，本文作者通过系统性的介绍，希望读者能够...

Oct 15, 2018 机器学习

神经网络中的反向传播算法

反向传播算法是神经网络中使用最普遍的优化算法，这里做一个简单的总结。对于给定的训练集 [D={(x_{1}, y_{1}), (x_{2}, y_{2}), … , (x_{m}, y_{m})}, x_i \in \mathbb{R}^{d}, y_i \in \mathbb{R}^l] 假设有一个三层神经网络，有d个输入神经元，l个输出神经元，中间隐层数量为q。隐层和输出层均采...

Oct 10, 2018 机器学习

神经网络调优

神经网络优化个人浅见，神经网络从20世界中期出现，到2000年以后的突然火爆，与硬件计算能力的提升密不可分。我们试图通过人工设计的算法，给机器更多的智能，神经网络担起了这一重要的任务。但是，神经网络虽然在图像语音和NLP等领域取得了一些成绩，离真正的智能却相去甚远。诺奖得主Thomas J. Sargent公开表示，现在所谓的人工智能，只不过就是统计学。可是究竟什么是智能，恐怕也没...

Oct 3, 2018 机器学习

Lr和svm分类器

在机器学习领域，LR和SVM应该算是hello world级别的分类器，简单总结下。一、LR LR分类器用于解决01分类问题，是一个线性的2分类器，能力较弱，但是速度较快。logistic函数用来表示样本为正样本(y=1)的概率，具体表达式如下： [h_{\theta }(x)=\frac{1}{1+e^{-X^{T}\theta}}] logistic函数的导入如下： [h_{\...

Sep 13, 2018 机器学习

损失函数和激活函数总结

一、损失函数在机器学习中，损失函数用来评估预测值与真实值之间的差异程度，有的文章会区分损失函数（loss function）和代价函数（cost function），损失函数表示单个样本差异，而代价函数用来表示整体差异，本文统一叫做损失函数了。在处理实际问题时，只优化损失函数是不够的，有时还需要加上限制项，限制模型参数之间的关系或者限制参数的复杂度用来防止过拟合。损失函数可以理解为是目...

Sep 12, 2018 机器学习

生成树算法总结

比较决策树，GBDT，XGBOOST和LightGBM 一、决策树决策树是一个树结构的分类器，其中每个非叶子节点表示一个特征属性上的测试条件。在决策树构建过程中，最重要的部分就是决定分类特征和分类值，特征既可以是离散值也可以是连续值。特征的选择一般有两种算法ID3和C4.5，下面依次介绍。 ID3 ID3的核心算法是使用信息增益来选择分裂的特征。在信息论中，熵表示随机变量的不确定性，条...

Sep 11, 2018 机器学习

极大似然函数

交叉熵为什么可以被用作损失函数

Kl散度和交叉熵

Fm模型总结

神经网络优化算法总结

神经网络中的反向传播算法

神经网络调优

Lr和svm分类器

损失函数和激活函数总结

生成树算法总结

Trending Tags