自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 领取敬业福或新春红包

临近春节相信大家玩红包玩的不亦乐乎,但是这里有一个“秘密”想跟大家分享一下,打开支付宝首页搜索 “1236829”,即可获得一张敬业福或者2018新春红包,数量有限。别问我是谁 我是雷锋不谢!!!...

2018-02-11 10:49:20 1222

原创 线程,进程,单线程,多线程,附有并发例子

本篇博客是根据自己的理解对这块知识做一个总结,如果有不妥的地方请指出,定会改正。1、线程和进程1.1、线程和进程定义进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位.线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和

2017-06-06 17:41:29 1131

原创 解析爬虫12306购票系统流程

做爬虫也将近有一年的时间,本人不是什么名牌大学毕业,但是对计算机的热爱无人能挡。大学学了Java语言,大四来到帝都实习找了一份Java偏数据的实习工作,工作的过程中第一次接触到了爬虫的工作,并且感觉爬虫挺有意思。从知道爬虫到某些网购平台,新闻网页等文本数据的抓取,再到登录系统做查询实时数据,再到解析验证码,以至于前两天完成12306购票系统的爬虫。完成购票系统爬虫之后自我感觉有点膨胀,但是这点小小的

2017-05-24 15:12:11 9694 4

原创 验证码去除干扰线

验证码是防止和阻止非人为性的请求访问的一道屏障,有时候要去网上“浏览一些数据”,当遇到验证码的时候不得不突破验证码这道屏障。但是验证码的种类繁多,这不得不说给破解验证码的盆友们带来了巨大的阻碍。我之前发表的几篇博客也在讲破解不同种类验证码的算法,还有源程序,有兴趣的可以看看。1、干扰线颜色和验证码字符颜色不同http://shixin.court.gov.cn/captchaNew.do?captc

2017-05-08 18:06:52 21794 37

原创 java语言 验证码解析 图片大小转化

在解析验证码的时候,可能会遇到字符不太规整,或者同一字符颜色深度不太一样,最后导致识别的时候不容易识别,那么我在这里再次向大家推荐一个算法,这个算法就是把验证码缩小到8x8大小,这样下来真正的做到了只保留验证码细节部分,提高了验证码的识别率。//把图片缩小成指定大小,b=true 按比例缩放。 public BufferedImage thumb(BufferedImage source,

2017-04-25 17:11:50 1187

原创 验证码分割

本次主要针对没有粘连的验证码,我起的名字填充式分割,这种方法超级好用,而且适合用的场景比较多,值得学习。 下面来介绍一下这个算法的优势,先用大白话讲一下。比如说,一个透明的鱼缸中有n条鱼(鱼缸中只有鱼和水),那么我现在只想要观察鱼儿是那种鱼类,其他区域我不去考虑。那么这个问题转化成二维就是一张验证码。我只考虑验证码中的字符,不去考虑验证码中的干扰(前提是二值化之后的图片),我所说的...

2017-04-25 16:14:15 3421 12

原创 爬虫request请求误带参数导致错误

爬虫request请求误带参数导致错误:这会儿闲下来了顺便把我前几天遇到的一个经典问题跟大家共享一下,写的不好的地方请大家多多指点,欢迎各位提宝贵的意见,邮箱:[email protected]。持续更新爬虫遇到的相关问题与大家分享,感觉还不错的话关注一下。我工作中遇到的爬虫都是要么需要登录,要么需要cookie还要么就是需要带各种参数的类型的过程性爬虫,时而久之就会遇到各种各样的问

2017-02-13 12:50:51 2051

原创 SVM验证码识别,提供源程序下载。

做爬虫已经有半年时间了,感觉已经踏入了这个行业的门槛了,要想做到更好还要花大量的时间去提升自己。在做爬虫的时候相信大家肯定会遇到验证码的问题,那么爬虫的时候遇到了验证码该怎么办?目前最简单的办法就是打码平台,打码平台这里就不多说了,但是打码平台也有缺点呢,比如,收费,并不是实时,可能会有几秒或者几十秒的等待时间等,这些都会影响到爬虫的效率问题。那么有没有不收费,而且速度又快呢?答案是肯定的,小编今天

2017-01-07 18:22:26 2365 1

原创 爬虫415(UNsupported media type)问题解决

爬虫遇到的问题:这两天做爬虫遇到些问题,我在这里总结一下,希望能够和大家分享,共同学习,共同进步。今天在我爬某个网站的时候,返回的结果是415,不支持的媒体类型(Unsupported media type),当时遇到这个问题的时候,我有点蒙,什么是媒体,在这里先不管他什么是媒体,反正就是报错,但是能肯定的是415错误肯定是请求的问题。那么我就开始顺着我的爬虫经验挨个排除。 1、我的IP有没有被封

2017-01-03 18:42:32 3988

原创 有感而发

有感而发今天是元旦三天假期的最后一天,我由于北京的雾霾天气我在家呆了两天(真实搞不懂北京的雾霾天气)。这两天流行感冒,而我也没有例外,春节前的最后一个假期就这样荒唐的度过了,然而什么都没有去做,今天早上在跟我室友聊天(我室友是个大牛),我问他在干嘛,他给我说在床上,昨天写文章写到两三点钟……,就是很努力的学习。都那么牛了还在那么努力的学习,这的确伤到了我的心啊,然后我说我也想学习,他说群里面我发的资

2017-01-02 13:51:14 716 1

svm解析验证码

http://blog.csdn.net/javamanjosen/article/details/54176929,参见博客

2017-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除