自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AaronLin的博客

一个初级程序猿的自我修养

  • 博客(20)
  • 收藏
  • 关注

原创 算法篇目录

打算以学习和复习的目的写一些关于算法的博客。学习来源主要是:博客,GitHub,平时刷题,LeetCode,网课不定期更新KMP算法:https://blog.csdn.net/qq_35159818/article/details/84112727目前刚大四,自认为还是比较菜的,也在慢慢学习累积。欢迎极客朋友们来互相交流。...

2018-11-18 22:52:18 210

原创 你可能需要了解的KMP算法(Java语言)+Leetcode例题

KMP算法应该是经典算法中的经典算法了,背景我也不介绍了,当然背景我也不怎么了解。那它解决的问题是什么呢?在我粗浅的理解中,主要解决的是包含问题,如经典的字符串包含问题,如解决字符串中abccccc中是否包含abc这样一个问题。好了,你也许会说,这还不简单吗,直接两边循环嵌套,暴力碾压过去。当然,这是可以做到的,这就是传统的BF算法。但是,毫无疑问,这不优雅美观。丑陋且恐怖的O(n*m)复杂...

2018-11-18 22:16:20 1780

原创 第一个开源项目,爬虫+布隆过滤器(写的有点滑稽大家见谅),上传到github上了

主要是一个封装的爬虫框架和可定制可持久化的布隆过滤器水平有限,跪求大家给个star~第一个版本爬虫部分还有些问题没修复。可以用用布隆过滤器。导入jar后。基本操作如下BoolmFilter.setFilePath("布隆过滤器持久化地址txt形式"); BoolmFilter boolmFilter=BoolmFilter.getBoolmFilter();//默认为10...

2018-09-02 21:46:06 475

原创 五种实现网络爬虫的方法(四,selenium的使用 五,phantomjs的使用)

咕咕咕selenium其实是一个更偏向于自动化测试的工具,当然物尽其用嘛,我主要用selenium来抓JS动态加载的网页,虽然速度没有直接http请求快,但是效果还是不错的。首先我们要配置selenium的环境,我使用的是mavenpox.xml中添加<dependency> <groupId>org.seleniumhq.selenium<...

2018-09-02 20:52:58 375

原创 五种实现网络爬虫的方法(三,基于httpclient编写爬虫)

咕咕咕~总所周知httpclient是java爬虫的利器,一般我个人开发,都是用httpclient来编写抓取登陆代理等,用jsoup,xpath,正则来处理解析。废话不多说直接上代码。public static String getPageContent(String url) { // 创建一个客户端,类似于打开一个浏览器 DefaultHttpClient http...

2018-09-02 20:33:20 2589

原创 五种实现网络爬虫的方法(二,基于HttpURLConnection类编写爬虫)

好了,接上一篇。这篇是基于HttpURLConnection类编写爬虫:java se的net包的核心类,主要用于http的相关操作。这时候我们的项目结构就变成这样了。可以看到多了几个类,主要用HttpURLConnection的主要就是HttpUrlConnectionCrawlerImpl类,其他多出来的两个类主要是为了让项目便于管理和维护。UrlPojo类也加入了一个函数public Htt...

2018-06-24 16:26:51 2233 4

原创 总结一下五种实现网络爬虫的方法(一,基于socket通信编写爬虫)

最近呢,由于实习需要呢,复习一遍爬虫,前断时间闭关刷题去了,也会把刷题心得总结成博客分享给大家,比如java集合类特性及源码解析,操作系统数据结构的一些算法等,放心,肯定不会鸽的,虽然可能会晚一点写。言归正传,java实现网络爬虫一般有五种方法(据我所知,要是有其他方法的同学欢迎分享)1.基于socket通信编写爬虫:最底层的方式,同时也是执行最高效的,不过开发效率最低。2.基于HttpURLCo...

2018-06-20 23:10:49 14838 1

原创 java爬取闲鱼商品信息(三)

这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -。好了,上次说到没办法获取到动态加载的部分。我用了phantomjs尝试了一下,多获取到的部分是复杂的js代码,代码量太大了,没找到我们需要的信息。也可能是我使用的方式不对,要是有可以获得的方法欢迎大家在评论介绍一下,我去试试看。好了,最后我还是弄到了动态加载的数据,当然不是用的phantomjs。既然找不到数据,那为什么不...

2018-04-09 17:05:21 4830 9

原创 总结一下碰到的多线程的问题

最近被多线程的题目搅的有点混乱,写一篇整理一下思路,顺便与大家分享,纯属个人理解,要是有什么出入,欢迎大家指点。参考文献:《操作系统》 第四版 西安电子科技大学出版                博客:https://www.cnblogs.com/snow-flower/p/6114765.html                百度学术尚智堂课件不定期更新。我们知道多线程大概有三种实现方式:继...

2018-04-03 21:24:16 245

原创 java面试题知识点小结

最近准备下海干活了,再在牛客网和其他途径刷一些面试题。将自己碰到的一些问题进行小结,不定时更新,勉励自己温故知新,也希望可以帮助大家。由于是个人理解,要是略有偏差,欢迎大家指出,不胜感激。另给大家推荐一片文章,写的非常好,我有些模糊的知识点也是参考这的https://www.cnblogs.com/strivers/p/6537620.html//-------------------------...

2018-03-28 19:55:46 283 2

原创 java爬取闲鱼商品信息(二)

有了需要爬取的起点队列。接下来就可以细看一下源码中html的规则。上面这一段就是一个商品在html源码中的结构。这里面包含了,卖家头像,ID,vip等级,主页,各种图片,商品基本信息,地址等等东西当然,我们不需要全部的信息,我们只需要卖家ID,商品标题,内容,价格,发货地,成色,主页链接,图片链接,这样就够了。我的思路是构造一段正则表达式来遍历整个网页源码,因为结构相似,我们可以抓取到商品的信息。...

2018-03-20 23:54:58 7083 6

原创 java爬取闲鱼商品信息(一)

闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车。好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手。预计达到的目标:第一步,将闲鱼上发布的商品信息爬取到本地。                           第二步,实现关键词价格域提醒,比如设置想要找一个5000以下的IPHONE X,可爱的爬虫在闲鱼抓信息...

2018-03-20 23:26:04 17148 10

转载 mysql 数据库中的三种判断是否包含总结

原文:http://blog.51cto.com/kaigejava/2084552应用场景:1:在使用mysql数据库进行存储数据的时候,有时候,一个字段,要存储使用逗号分隔的多个数据,在查询的时候,传递的是一个keyword,需要在逗号分隔的字段中进行查询,这种情况怎么处理?比如:在爬虫爬取的时候,指定关键字查询,关键字可以是多个用逗号分隔。数据库中对应的字段是:key_word,存储的数据,...

2018-03-14 21:13:21 5439

转载 Map的两种遍历方法

第一种: Map map = new HashMap(); Iterator iter = map.entrySet().iterator(); while (iter.hasNext()) {     Map.Entry entry = (Map.Entry) iter.next();     Object key = entry.getKey();     Object

2018-01-23 16:49:33 271

转载 Java中的StringTokenizer类的使用方法

原文链接:http://blog.csdn.net/wenqisun/article/details/7442445StringTokenizer是字符串分隔解析类型,属于:java.util包。1.StringTokenizer的构造函数StringTokenizer(String str):构造一个用来解析str的StringTokenizer对象。java默认

2017-12-23 16:00:30 346

转载 httpclient4.5 的一些细节

原文地址:http://mercymessi.iteye.com/blog/2250161httpclient是Apache下的一个用于执行http网络访问的一个工具包。大致流程:新建一个httpclient对象->新建一个httpRequest对象->用httpclient去执行->得到一个response->通过解析这个response来获取自己所需要的信息。

2017-12-19 10:44:52 987

转载 java中如何忽略字符串转义字符

转载文章,原文地址:https://my.oschina.net/u/1010578/blog/366252这几天工作上需要跟另一个同事联调rest接口,我这边是java他是php,返回报文是json格式。接口调用成功后,输出返回的报文中有类似“\u79fb\u52a8\u4e92\u8054\u7f51\u5e94\u7528 ”的Unicode字符,有点纳闷,记得java是会自动转换Uni

2017-12-13 20:28:43 9700

原创 java爬虫爬取微博热搜榜

在网上稍微看了一下,好像还没有爬取微博热搜的java实例,心血来潮就动手写一个简易版的,之后会不会升级再说。首先我们点开微博热搜榜电脑版,然后查看源码。我们可以看到body的构成很简单,几乎没有什么东西,再往下滑就不得了了,没错,意料之中有很多script就算不看源码我们分析也可以知道这应该是一个js动态页面,因为我们一点进去,里面都是实时的数据。然后我们fidder抓下数

2017-12-10 16:03:20 7906 3

原创 安卓定位开发实例

实例

2017-12-08 20:32:31 1035 4

原创 安卓使用百度提供的定位接口

由于校内科创项目的需要用到定位服务,所以就研究下如何实现定位的这个功能首先,我采用的是使用百度的lbs功能,这里需要有一个百度帐号估计大家都有,然后进入http://developer.baidu.com/user/reg申请成为百度开发者,这个需要先登入百度帐号再进入 点击创建应用可以看见因为写的是安卓程序,所以我们选择应用

2017-09-16 16:39:35 685

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除