札记

概率图模型——隐马尔科夫

  最近在做实体词相关工作,需要用到crf(条件随机场)模型,于是又从头开始复习了一遍概率图模型,当然从最简单的HMM(隐马尔科夫)模型开始。在开始之前先引用一张网上已经泛滥的图吧。 它的含义在概率图模型详列文章的结尾解释。   在概率图模型中,一个节点一般用来标识一个状态或者观测值,节点之间的连线表示状态或者观测值之间的关系。根据连线是否有方向(箭头),概率图模型大体可以分为两类...

通过用户安装app列表判定性别

  通过用户安装的app列表来判断用户性别似乎不是一件十分困难的事情,因为在日常生活中,我们接触到大量的app在男女用户中的安装比例存在明显的差异。比如,‘汽车之家’app明显男性用户的安装量大于女性,而‘购物类’app和母婴类app女性用户的安装量大于男性。这种app在男女人群安装量的差异,是我们通过app判定用户性别的基础。   我来公司的第一份工作就是爬取各应用市场的app数据,包括...

开始机器学习之旅

  去年的这个时候还在风风火火的找工作,应该还没找到,哈哈。当时也曾一度情绪低落,转眼已经一年过去了,我已经在搜狗实习了4个月的时间。最近提交了毕业论文的初版,压力稍微小了一点,可以在空下来的时候接着写写东西。   虽然自己的毕业论文已经交了,可毕业季还是有很多琐碎的事情牵扯精力,公司的工作不是很好干,个人感觉做的也不是很好。导师交给项目,一直进展缓慢,当然也还有一些其他的事情十分耗费精力...

Python爬虫框架——scrapy

  最近想要做一个文本自动分类器,主要是想试试不用的机器学习方法在文本分类上效果如何。训练分类器需要大规模的训练样本,于是需要利用python爬虫去爬取一些网页新闻作为样本,本想偷懒去网上直接找个能有的教程学习下scrapy,利用几个小时时间就把这个任务搞定,可是没想到居然踩了好多坑,在此记录一下。顺便还要吐槽一下,为什么这么多人喜欢转载别人的文章到自己的博客下面,有什么意义吗?需要学习收藏...

我的购物网站

  最近在搭建一个购物网站,目的是希望把自己所学到的东西都用起来,串在一起,做一个阶段的总结吧。除了必要的前端技术(HTML、Class、JavaScript等),还包括一些数据库技术(Mybatics、MySql、Memcached等)。框架用的spring boot,前端模板用的是Thymeleaf。   目前这个网站还比较丑,没来得时做美化,基本思路是这样的。在最开始的登录界面,用户...

Spring中的bean

一、什么是Bean   Bean就是一个java类,这个java类交给容器来管理,从而减少类与类之间的耦合。那么什么样的类才能声明为Bean类呢?只有你认为这个类可能会在不同的地方用到(可重用),并且需要交给容器管理,那么就可以将其声明为Bean了。但是要注意Bean类也需要遵守一定的规范。 Java Bean类必须是一个公共类,并将其访问属性设置为public。 Java Be...

Spring依赖注入和面向切面

一、依赖注入   所谓依赖注入是指容器负责创建对象和维护对象间的依赖关系,而不是通过对象本身负责自己创建和解决自己的依赖。依赖注入的主要目的是解耦,体现了一种“组合”的思想。   Spring IoC(Application Context)负责创建Bean,并通过容器将功能类Bean注入到你需要的Bean中。Spring提供xml、注解、java配置、groovv配置实现Bean的创建和...

Java反射学习

  java反射机制听起来似乎很神奇,在自己编程的时候却很少用到,但是在框架中却频繁的使用。以前自己看过一些java反射的内容,但是也没有搞得十分透彻,今天再重新学习一遍,争取把这个问题彻底搞清楚。 一、反射——并不神奇   运行时类型信息(RTTI)可以告诉我们运行时某个对象的类型,只要这个类在编译时已经加载。那么如果在编译阶段我们无法获取某个类的信息,却需要使用类对象怎么办呢?这看起来...

排序算法整理

  一直都想写写排序,今天终于有时间了。记得刚刚开始接触算法的时候,遇到的第一问题往往就是排序问题。因为排序很自然,我们每天都要接触,而排序算法十分丰富,可以让初学者大开眼界的同时对算法复杂度和分治思想有一定的认识。今天我也回顾下自己了解的排序算法,算是做个记录吧。   排序问题如何去分呢?首先应该分为基于比较的排序和非基于比较的排序。基于比较的排序有理论的最优时间复杂度O(N*logN)...

Trending Tags