札记

生成树算法总结

比较决策树,GBDT,XGBOOST和LightGBM 一、决策树 决策树是一个树结构的分类器,其中每个非叶子节点表示一个特征属性上的测试条件。在决策树构建过程中,最重要的部分就是决定分类特征和分类值,特征既可以是离散值也可以是连续值。 特征的选择一般有两种算法ID3和C4.5,下面依次介绍。 ID3 ID3的核心算法是使用信息增益来选择分裂的特征。在信息论中,熵表示随机变量的不确定性,条...

概率图模型——隐马尔科夫

  最近在做实体词相关工作,需要用到crf(条件随机场)模型,于是又从头开始复习了一遍概率图模型,当然从最简单的HMM(隐马尔科夫)模型开始。在开始之前先引用一张网上已经泛滥的图吧。 它的含义在概率图模型详列文章的结尾解释。   在概率图模型中,一个节点一般用来标识一个状态或者观测值,节点之间的连线表示状态或者观测值之间的关系。根据连线是否有方向(箭头),概率图模型大体可以分为两类...

通过用户安装app列表判定性别

  通过用户安装的app列表来判断用户性别似乎不是一件十分困难的事情,因为在日常生活中,我们接触到大量的app在男女用户中的安装比例存在明显的差异。比如,‘汽车之家’app明显男性用户的安装量大于女性,而‘购物类’app和母婴类app女性用户的安装量大于男性。这种app在男女人群安装量的差异,是我们通过app判定用户性别的基础。   我来公司的第一份工作就是爬取各应用市场的app数据,包括...

开始机器学习之旅

  去年的这个时候还在风风火火的找工作,应该还没找到,哈哈。当时也曾一度情绪低落,转眼已经一年过去了,我已经在搜狗实习了4个月的时间。最近提交了毕业论文的初版,压力稍微小了一点,可以在空下来的时候接着写写东西。   虽然自己的毕业论文已经交了,可毕业季还是有很多琐碎的事情牵扯精力,公司的工作不是很好干,个人感觉做的也不是很好。导师交给项目,一直进展缓慢,当然也还有一些其他的事情十分耗费精力...

Python爬虫框架——scrapy

  最近想要做一个文本自动分类器,主要是想试试不用的机器学习方法在文本分类上效果如何。训练分类器需要大规模的训练样本,于是需要利用python爬虫去爬取一些网页新闻作为样本,本想偷懒去网上直接找个能有的教程学习下scrapy,利用几个小时时间就把这个任务搞定,可是没想到居然踩了好多坑,在此记录一下。顺便还要吐槽一下,为什么这么多人喜欢转载别人的文章到自己的博客下面,有什么意义吗?需要学习收藏...

我的购物网站

  最近在搭建一个购物网站,目的是希望把自己所学到的东西都用起来,串在一起,做一个阶段的总结吧。除了必要的前端技术(HTML、Class、JavaScript等),还包括一些数据库技术(Mybatics、MySql、Memcached等)。框架用的spring boot,前端模板用的是Thymeleaf。   目前这个网站还比较丑,没来得时做美化,基本思路是这样的。在最开始的登录界面,用户...

Spring中的bean

一、什么是Bean   Bean就是一个java类,这个java类交给容器来管理,从而减少类与类之间的耦合。那么什么样的类才能声明为Bean类呢?只有你认为这个类可能会在不同的地方用到(可重用),并且需要交给容器管理,那么就可以将其声明为Bean了。但是要注意Bean类也需要遵守一定的规范。 Java Bean类必须是一个公共类,并将其访问属性设置为public。 Java Be...

Spring依赖注入和面向切面

一、依赖注入   所谓依赖注入是指容器负责创建对象和维护对象间的依赖关系,而不是通过对象本身负责自己创建和解决自己的依赖。依赖注入的主要目的是解耦,体现了一种“组合”的思想。   Spring IoC(Application Context)负责创建Bean,并通过容器将功能类Bean注入到你需要的Bean中。Spring提供xml、注解、java配置、groovv配置实现Bean的创建和...

Trending Tags