札记

神经网络调优

神经网络优化 个人浅见,神经网络从20世界中期出现,到2000年以后的突然火爆,与硬件计算能力的提升密不可分。我们试图通过人工设计的算法,给机器更多的智能,神经网络担起了这一重要的任务。但是,神经网络虽然在图像语音和NLP等领域取得了一些成绩,离真正的智能却相去甚远。诺奖得主Thomas J. Sargent公开表示,现在所谓的人工智能,只不过就是统计学。可是究竟什么是智能,恐怕也没...

损失函数和激活函数总结

一、损失函数 在机器学习中,损失函数用来评估预测值与真实值之间的差异程度,有的文章会区分损失函数(loss function)和代价函数(cost function),损失函数表示单个样本差异,而代价函数用来表示整体差异,本文统一叫做损失函数了。 在处理实际问题时,只优化损失函数是不够的,有时还需要加上限制项,限制模型参数之间的关系或者限制参数的复杂度用来防止过拟合。损失函数可以理解为是目...

生成树算法总结

比较决策树,GBDT,XGBOOST和LightGBM 一、决策树 决策树是一个树结构的分类器,其中每个非叶子节点表示一个特征属性上的测试条件。在决策树构建过程中,最重要的部分就是决定分类特征和分类值,特征既可以是离散值也可以是连续值。 特征的选择一般有两种算法ID3和C4.5,下面依次介绍。 ID3 ID3的核心算法是使用信息增益来选择分裂的特征。在信息论中,熵表示随机变量的不确定性,条...

文本分类器

  总结几个常用的文本分类器,从数学原理到效果测评。 一、常用文本分类器 1、朴素贝叶斯分类器 \[P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)}\] P(Y|X)是已知X发生后Y的条件概率,也由于得自X的取值而被称作Y的后验概率。 P(Y)是Y的先验概率(或边缘概率)。之所以称为”先验”是因为它不考虑任何X方面的因素。 在文本分类中,Y代表文本所属类别,X代表出现的文...

概率图模型——隐马尔科夫

  最近在做实体词相关工作,需要用到crf(条件随机场)模型,于是又从头开始复习了一遍概率图模型,当然从最简单的HMM(隐马尔科夫)模型开始。在开始之前先引用一张网上已经泛滥的图吧。 它的含义在概率图模型详列文章的结尾解释。   在概率图模型中,一个节点一般用来标识一个状态或者观测值,节点之间的连线表示状态或者观测值之间的关系。根据连线是否有方向(箭头),概率图模型大体可以分为两类...

通过用户安装app列表判定性别

  通过用户安装的app列表来判断用户性别似乎不是一件十分困难的事情,因为在日常生活中,我们接触到大量的app在男女用户中的安装比例存在明显的差异。比如,‘汽车之家’app明显男性用户的安装量大于女性,而‘购物类’app和母婴类app女性用户的安装量大于男性。这种app在男女人群安装量的差异,是我们通过app判定用户性别的基础。   我来公司的第一份工作就是爬取各应用市场的app数据,包括...

开始机器学习之旅

  去年的这个时候还在风风火火的找工作,应该还没找到,哈哈。当时也曾一度情绪低落,转眼已经一年过去了,我已经在搜狗实习了4个月的时间。最近提交了毕业论文的初版,压力稍微小了一点,可以在空下来的时候接着写写东西。   虽然自己的毕业论文已经交了,可毕业季还是有很多琐碎的事情牵扯精力,公司的工作不是很好干,个人感觉做的也不是很好。导师交给项目,一直进展缓慢,当然也还有一些其他的事情十分耗费精力...

Python爬虫框架——scrapy

  最近想要做一个文本自动分类器,主要是想试试不用的机器学习方法在文本分类上效果如何。训练分类器需要大规模的训练样本,于是需要利用python爬虫去爬取一些网页新闻作为样本,本想偷懒去网上直接找个能有的教程学习下scrapy,利用几个小时时间就把这个任务搞定,可是没想到居然踩了好多坑,在此记录一下。顺便还要吐槽一下,为什么这么多人喜欢转载别人的文章到自己的博客下面,有什么意义吗?需要学习收藏...

我的购物网站

  最近在搭建一个购物网站,目的是希望把自己所学到的东西都用起来,串在一起,做一个阶段的总结吧。除了必要的前端技术(HTML、Class、JavaScript等),还包括一些数据库技术(Mybatics、MySql、Memcached等)。框架用的spring boot,前端模板用的是Thymeleaf。   目前这个网站还比较丑,没来得时做美化,基本思路是这样的。在最开始的登录界面,用户...

Trending Tags