自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

专注网络爬虫、数据挖掘、机器学习方向。

个人网站:http://www.lining0806.com/

  • 博客(1)
  • 资源 (8)
  • 收藏
  • 关注

原创 Python入门网络爬虫之精华版

Python入门网络爬虫之精华版Python学习网络爬虫主要分3个大的版块:抓取,分析,存储

2015-08-19 12:32:42 3049 1

Python 入门网络爬虫之精华版

介绍了Python入门网络爬虫的概念精华及技巧。 包括最基本的抓取,对于登陆情况的处理,对于反爬虫机制的处理,对于断线重连,多进程抓取,对于Ajax请求的处理,自动化测试工具Selenium,验证码识别等等

2015-11-18

Python入门网络爬虫之精华版

Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也介绍一下。 先列举一下相关参考:宁哥的小站-网络爬虫

2015-08-19

文本分类系统

TextClassify文本分类系统适用于中文,英文文本分类。 包括各个文本的关键词输出,可以控制关键词输出个数,也可以对关键词加入黑名单和白名单。 关于TextClassify文本分类系统的改进: 改进jieba中文分词词典 改进黑名单:增加停用词 改进白名单:增加专业词 在TextProcess改进每一类text至多选FileInFolder个:理论上越多越好 deleteN的选取:可以优化 特征词的长度限定:unicode不过长,不过短 特征词词典dict_size的选取:可以优化 特征的改进 多分类结合的算法改进

2014-06-17

文本分词系统

包含最新的分词系统,C/C++开发,提供调用接口

2014-05-23

Python版FAQ

Python的学习资料。包括一些下载的资源链接。

2014-03-12

Viterbi算法c/c++实现

算法解决的问题:通过观察序列来猜测背后最有可能的隐藏序列。viterbi译码算法是一种卷积码的解码算法。优点不说了。缺点就是随着约束长度的增加算法的复杂度增加很快。

2013-11-25

Ubuntu 命令大全

讲述Ubuntu操作系统的命令,便于查询。是linux开发不可缺少的工具。

2013-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除