自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(144)
  • 资源 (36)
  • 收藏
  • 关注

原创 WebCollector 2.72处理301/302重定向、404 Not Found等Http状态

官网地址:https://github.com/CrawlScript/WebCollectorWebCollector的Http请求结果有两种状态:请求成功和请求失败。这两种状态的定义如下:请求成功:服务器成功地返回了请求URL的状态及数据。这里注意,不是状态码200才叫请求成功,一般情况下,301/302/404都可能对应请求成功。例如对于404,服务器正确地告诉了你,当前的URL不存...

2018-07-19 12:33:02 3604 2

原创 WebCollector 2.72自定义Http请求插件(定制User-Agent和Cookie等请求头)

WebCollector从2.72版本开始,默认使用OkHttpRequester作为Http请求插件。继承OkHttpRequester可以轻松地定制各种Http请求功能,如设置User-Agent、Cookie等Http请求头,设置请求方法(GET/POST)和表单数据等。官网地址:https://github.com/CrawlScript/WebCollectorOkHttpReq...

2018-07-19 01:40:03 5473 3

原创 专知原创和整理了一些中英文机器学习从入门到精通的资料,和大家分享一下

1.主题模型( LDA )http://www.zhuanzhi.ai/topic/2001548513247252/awesome2.知识图谱( Knowledge Graph )http://www.zhuanzhi.ai/topic/2001005380553956/awesome3.网络节点表示学习( Network Representation Learning )http://www.z

2017-10-31 21:42:13 1219

原创 Windows下运行C语言版Word2Vec训练词向量

在Word2vec模型中,算法可以通过无监督的方法为每个词计算出一个d维的向量,即将每个词映射为d维的空间中的一个点,d维空间中点之间的距离(即每个词对应的d维向量的距离)可反映词之间的相似性。dav/word2vec是一个经典的利用多线程训练词向量的代码,非常地好用且非常地高效。然而该代码是用Linux C语言写的,而且代码的调度使用的是shell。在Windows上安装Cygwin即可运行该代码

2017-09-05 13:53:14 2696 3

原创 Python机器学习教程——逻辑回归

本教程介绍如何用Python的机器学习库scikit-learn去编写逻辑回归分类器。首先介绍一下IRIS数据集,IRIS数据集包含了150条花的数据,前4列是花的4个特征(feature),第五列是花的类别(label),下图展示了IRIS的特性,可以看出,选任意2个特征看(每个小图),都很难直接用简单的IF-ELSE语句用人工规则根据feature判断label。下面介绍如何用Python机器学

2017-09-03 12:32:08 1451

原创 Python数据分析库Pandas教程——简介

Pandas是基于Python的高性能数据分析工具,非常容易上手。Pandas安装推荐使用Conda安装(尤其是在Windows下)使用Conda安装: 安装anaconda进入anaconda命令行,conda create -n py27 python=2.7conda install pandas使用PIP安装: 安装pip,如果是Ubuntu,可以用sudo apt-get

2017-09-01 11:27:32 1091

原创 Python文本分类服务 — klassify

Python文本分类服务 — klassifyklassify是基于贝叶斯的文本分类服务,用户可通过界面或web api进行训练和分类。项目地址:https://github.com/fatiherikli/klassify

2017-08-31 02:04:35 890

原创 python开源机器学习工具scikit中文教程

scikit是目前最流行的python开源机器学习工具之一,它封装了线性回归、逻辑回归、神经网络、决策树、k-means等多种机器学习/数据挖掘常用模型,非常适合数据分析师或科研人员使用。scikit相对于R、matlab的优势在于它是用python编写的,因此scikit可以对接大量已有的python库,例如使用结巴分词(python中文分词)配合scikit中的聚类算法,就可以轻松地完成文本的聚

2016-06-03 18:09:29 1736

原创 WebCollector 2.x 教程列表

WebCollector教程WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫JAVA爬虫WebCollector 2.x入门教程——基本概念WebCollector爬取CSDN博客使用Spring JDBC持久化WebCollector爬取的数据WebCollector自定义http请求WebCollector设置代理WebCollector内

2016-05-29 06:03:49 1702

原创 WebCollector内核开发——定制Http请求

本教程适用于WebCollector 2.27版本或更高。在WebCollector中,使用最多的爬取器应该是BreadthCrawler,BreadthCrawler是用WebCollector的内核开发的一个插件,并不属于内核。如果只是简单定制Http请求,例如加入Cookie、UserAgent等Http头,使用POST操作等,使用BreadthCrawler插件即可完成,可以参考教程WebC

2016-02-19 17:33:13 3582

原创 WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫

WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫

2016-02-16 13:00:04 7255 1

原创 WebCollector网页正文提取

网页正文提取项目ContentExtractor已并入WebCollector维护。 WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。 可以抽取结构化新闻,也可以只抽取网页的正文(或正文所在Element)。 正文抽取效果指标 :比赛数据集CleanEval P=93.79% R=86.02% F=86.72%常见新闻网站数据集 P=97.87%

2016-02-16 12:59:10 4924 1

原创 WebCollector设置代理

WebCollector自带一个Proxys类,通过Proxys.nextRandom()方法可以随机获取加入的代理。 通过Proxys.add(“ip”,”端口号”);添加代理。 如果本机也参与http请求,可用Proxys.addEmpty()方法将本机加入。 覆盖Crawler的getResponse()方法,即可自定义使用随机代理的http请求: @Overridepublic H

2016-02-16 12:58:27 4569

原创 JAVA爬虫WebCollector 2.x入门教程——基本概念

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。目前WebCollector在Github上维护:https://github.com/CrawlScript/WebCollector1.WebCollect

2016-02-16 12:58:00 5726

原创 WebCollector教程——获取当前深度

本教程演示了WebCollector 2.20的新特性。下载WebCollector最新jar包可在WebCollector github主页下载。内容:本教程和深度遍历没有任何关系,只是讲解如何获取当前网页在遍历树中的深度。 利用2.20版本中的新特性MetaData可以轻松实现这个功能。import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;

2016-02-16 12:57:25 3997

原创 WebCollector教程——爬取搜索引擎

本教程演示了WebCollector 2.20的新特性。下载WebCollector最新jar包可在WebCollector github主页下载。MetaData:MetaData是每个爬取任务的附加信息,灵活应用MetaData可以大大简化爬虫的设计。 例如Post请求往往需要包含参数,而传统爬虫单纯使用URL来保存参数的方法不适合复杂的POST请求。一些爬取任务希望获取遍历树的深度信息,这也

2016-02-16 12:56:57 4063

原创 WebCollector教程——爬取新浪微博

下载本教程需要两套jar包,WebCollector核心jar包和selenium的jar包。WebCollector最新jar包可在WebCollector github主页下载。selenium的jar包点击进入下载页面。内容:利用Selenium获取登陆新浪微博weibo.cn的cookie(WeiboCN.java)利用WebCollector和获取的cookie爬取新浪微博并抽取数据(

2016-02-16 12:56:14 6850

原创 WebCollector爬取JS加载的数据

WebCollector爬取JS加载的数据只需要自定义一个Requester即可,下面这个例子可以获取加载完成后的页面(但对于一边滚动一边加载数据的网页,需要修改代码)代码需要依赖WebCollector内核和selenium相关jar包:selenium及相关jar包下载import cn.edu.hfut.dmic.webcollector.net.HttpResponse;import cn

2016-02-16 12:55:36 7196 2

原创 网页存储解决方案

很多数据采集任务并不复杂,例如门户网站新闻采集,代码可以在10分钟内编写,但采集到的网页如何存储缺成为一个大问题。下面先给出一些常见的,但本人认为是错误的方法:1.将网页按照网站目录结构存储先不考虑小文件存储的问题,网站结构和文件目录并不能做到一一对应,例如一个网站同时包含下面两个URL,两个URL并不指向同一页面:http://www.abc.com/test/ahttp://www.abc.c

2016-02-16 12:55:01 1584

原创 Lazy爬虫配置教程

LAZY是基于WebCollector的一个简易爬虫,可以通过配置采集网页持久化到mongodb中。使用方法进入LAZY主页,下载Lazy-version-bin.zip,解压下载mongodb,由于国内下载mongodb较慢,提供两个百度网盘下载地址:Linux 64 Win 64配置并启动mongodb(按照一般流程即可)进入Lazy-version-bin.zip解压后的文件夹,用命令

2016-02-16 12:54:28 2666

原创 WebCollector分布式爬取

WebCollector-Hadoop是WebCollector的分布式版本,目前为beta版本项目地址:WebCollector-HadoopWebCollector-Hadoop需要运行在Hadoop上,因此最好在Linux中运行。用本地模式运行WebCollector-Hadoop并不需要配置hadoop环境,WebCollector-Hadoop项目是一个maven项目,本身包含了hadoo

2016-02-16 12:53:50 3998 1

原创 使用Spring JDBC持久化WebCollector爬取的数据

1.导入Spring JDBC的依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.31</version></dependency><dependency> <groupId>org.springframework</

2016-02-16 12:53:04 5254

原创 WebCollector爬取CSDN博客

新闻、博客爬取是数据采集中常见的需求,也是最容易实现的需求。一些开发者利用HttpClient和Jsoup等工具也可以实现这个需求,但大多数实现的是一个单线程爬虫,并且在URL去重和断点爬取这些功能上控制地不好,爬虫框架可以很好地解决这些问题,开源爬虫框架往往都自带稳定的线程池、URL去重机制和断点续爬功能。爬虫框架往往也会自带网页解析功能,支持xpath或css选择器(底层多用Jsoup实现)。使

2016-02-16 12:52:20 3687 1

原创 WebCollector自定义http请求

WebCollector可以自定义http请求,WebCollector的http请求由Requester完成,BreadthCrawler和RamCrawler本身就实现了Requester接口,默认情况下它们使用自身作为Requester。自定义http请求只要override它们的getResponse方法即可。下面例子代码演示了如何在WebCollector中将部分页面的http请求方式改为

2016-02-16 12:51:10 5286

原创

2015-12-29 01:16:10 769

原创 WebCollector 2.x入门教程——基本概念

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

2015-12-25 09:44:32 4360

原创 WebCollector 网页正文提取算法(ContentExtractor)

WebCollector 网页正文提取算法(ContentExtractor)WebCollector自2.10版起加入新闻网页正文自动提取功能(合并了hfut-dmic的ContentExtractor项目,WebCollector项目也属于hfut-dmic)。WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。 可以抽取结构化新闻,也可以只抽取网页

2015-09-16 13:58:54 10405

原创 网页抽取技术和算法

网页抽取技术和算法,持续更新。本文由WebCollector提供,转载请标明出处。目录:网页抽取简介基于正则表达式的网页抽取基于CSS选择器的网页抽取基于机器学习的网页抽取一. 网页抽取简介网页抽取在大多数情况下,指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。常见的网页抽取方法有 :基于正则表达式的网页抽取基于CSS选择器的网页抽取基于XPATH的网页抽取基于

2015-09-12 11:23:53 13084 4

原创 分布式网络爬虫Nutch中文教程nutcher(JAVA)

教程不断更新中:Nutch流程控制源码详解(bin/crawl中文注释版)Nutch配置(Windows)免费视频教程1Nutch教程——导入Nutch工程,执行完整爬取Nutch教程——URLNormalizer源码详解

2015-07-25 14:49:41 5130

转载 How does the compilation/linking process work?

The compilation of a C++ program involves three steps:Preprocessing: the preprocessor takes a C++ source code file and deals with the #includes, #defines and other preprocessor directives. T

2015-06-27 10:08:29 949

原创 WebCollector下载整站页面(JAVA网络爬虫)

很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放。下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。代码中的抽取器可以作为一个插件复用。WebCollector的jar包可到官网下载:WebCollector官网。进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包。

2015-06-25 09:45:05 5170 2

原创 WebCollector 2.09 发布

WebCollector 2.09 发布,更新详情:http://nutcher.org/topics/63

2015-06-24 13:44:40 1210

原创 WebCollector多代理切换机制

使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。

2015-04-26 20:58:28 6356 3

原创 怎么用Nutch保存网页源码?

怎么用Nutch保存网页源码?

2015-03-06 21:44:34 1338

原创 基于WebCollector 2.x的增量更新机制,制作新闻采集APP

WebCollector 2.x的增量更新机制,适合采集门户网站的更新新闻信息。基于WebCollector 2.x 我们制作了Android APP程序员杂志。应用采用HTML5构建,应用只有33k,应用使用了webkit的缓存机制,非常节省流量。下载地址:百度云下载地址

2015-02-11 23:09:07 3032 1

原创 Nutch2.3系列教程——Nutch2.3编译

Nutch2的稳定版,Nutch2.3终于在2015年1月22日发布,官方所谓的Nutch2.x终于可以编译成功了。下载地址:http://nutch.apache.org/downloads.html编译过程:1.找一台Linux机器,或者Linux虚拟机2.安装JDK3.安装ANT4.编译注意,由于国内用ant速度回很慢,所以需要将Nutch源码中的ivy/ivys

2015-01-31 13:42:48 3897

原创 开发网络爬虫应该怎样选择爬虫框架?

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?

2014-12-24 14:32:26 15651 2

转载 我和权威的故事——王垠

我和权威的故事(王垠 yinwang.org 版权所有,未经许可,请勿转载)每个人小时候心里都是没有权威的,就像每个人小时候也都不相信广告一样。可是权威就像广告,它埋伏在你的潜意识里。听一遍不信,听两遍不信,……,直到一千遍的时候,它忽然开始起作用了,而且这作用越来越强。消灭广告所造成的幻觉,最好的办法就是去尝试,去实地的考察它。有些虚幻的东西只要你第一次尝试就会像肥皂泡一样破灭掉。可

2014-12-24 00:50:53 2552

原创 Nutch教程中文翻译1(官方教程,中英对照)——Nutch的编译、安装和简单运行

Nutch教程中文翻译1(官方教程,中英对照)——Nutch的编译、安装和简单运行

2014-12-01 13:51:20 3133

转载 HTTP协议Header头域

HTTP协议Header头域

2014-11-29 20:35:44 1401

android 背单词锁屏

android版背单词锁屏,简单的功能,可以提升您的英语水平。

2013-10-20

JAVA制作火狐内核浏览器源代码

JAVA制作火狐内核浏览器源代码,很容易运行。具体使用方法请看我的博客。

2013-10-13

org.eclipse.swt 相关jar包

org.eclipse.swt 相关jar包,JAVA调用火狐内核制作浏览器教程中所需,供各位下载,可在我的博客中查看详细用法。

2013-10-13

MozillaInterfaces.jar(火狐内核相关jar包)

java开发火狐内核所需要的jar包,由于官方获取方法比较复杂,所以这里提取出来上传到CSDN方便各位下载。详细使用方法请看我的博客。

2013-10-13

java笔试题 android版 1.1

java笔试题1.1,可在公交车上复习笔试题,流量消耗小

2013-10-11

android版java笔试题 1.0

android版java笔试题1.0,让您在公交车上可以方便地复习java笔试。

2013-10-11

java获取文本关键词的API

通过这个jar包,可以轻松获取一篇文章的API,5秒即可学会使用。可在我的CSDN博客中查看使用方法。

2013-10-06

http服务器源码--java版(适合学习)

java写的http服务器源码,有注释,适合初学者学习。可以直接使用。

2013-10-05

电脑手机中转站

怎样将电脑上正在看的网页轻松转移到手机上?使用“电脑手机中转站”这个应用,可以轻松实现。

2013-09-21

android 记事本

这是一个android的记事本,可以添加文字和图片,也可以添加闹钟,是学习的好东西。

2013-08-10

编译原理 龙书

编译原理最经典的教材,龙书,碾压任何编译原理教材。

2013-07-11

C# 照相机 好用

C# 摄像头。如果WIN7没有自带摄像头可以用这个代替

2012-12-26

C# 编写的魔兽挂,开源

C# 的魔兽挂,开源的哦,功能很齐全.很好。

2012-12-09

C# DOTA 卡尔 智能改键

C#编写的卡尔智能改键挂,可以快速切技能,提供了源代码

2012-12-09

C#美工初学,窗口渐变

一个C#的窗口渐变代码,给初学者使用,运行后会显示教程

2012-08-16

一个非常有趣的显示文字程序

一个C#写的小程序.新方法显示文字 可能算法会慢一些。由于接触内存。可能360会报错

2012-05-07

C#小程序 很好玩的

C#的小程序 很好玩的 仅供学习研究使用

2011-04-03

selenium及依赖jar包(java)

selenium及所有依赖jar包(java),selenium,java,模拟浏览器,模拟登录

2015-07-21

bbs项目源码(java+mysql)

java结合mysql的bbs论坛源码,可直接放在tomcat下使用,学习和工作的必备,包含数据库和源码两部分,内附说明和使用方法

2015-05-05

企业应用架构模式中文版 PDF.pdf.zip

本书讲述各种分析模式(即来自概念性业务模型的模式)和支持模式(即讲述如何使用分析模式的辅助性模式),把论述重点放在介绍面向对象分析和设计的最终结果—即模型本身。作者透过平实朴素的语言,将自己丰富的对象建模经验与读者分享,使读者可以马上采纳这些经验性模式。

2015-02-23

Linux系统常用命令快速入门

Linux系统常用命令快速入门

2014-12-02

AUTONOMY技术白皮书.doc

AUTONOMY技术白皮书.

2014-05-16

Linux 下用 C 语言进行数字图像处理.pdf

Linux 下用 C 语言进行数字图像处理.pdf Linux 下用 C 语言进行数字图像处理.pdf Linux 下用 C 语言进行数字图像处理.pdf

2014-05-16

均匀直线阵方向系数

均匀直线阵方向系数.m.zip均匀直线阵方向系数.m.zip均匀直线阵方向系数.m.zip

2014-05-12

算法导论第三版总结与练习思考题答案(英文)

算法导论第三版总结与练习思考题答案(英文)

2014-05-12

公司员工电脑设置清单.doc

公司员工电脑设置清单.doc

2014-05-12

WCF+Silverlight+EntityFramework+Sqlite所做的学生信息管理系统

WCF+Silverlight+EntityFramework+Sqlite所做的学生信息管理系统

2014-05-12

汇编显示时钟.asm

汇编语言是一门重要的程序设计语言 下面列举了至少4本名叫《汇编语言》的图书和教材 并简要介绍了高校计算机相关专业在开设“汇编语言”课程方面的一些情况

2014-05-11

反编译工具 C# VB DELPHI C++ C zip

计算机软件反向工程(Reverse engineering)也称为计算机软件还原工程,是指通过对他人软件的目标程序(可执行程序)进行“逆向分析、研究”工作

2014-05-11

pso工具箱 matlab

微粒群算法是一种模拟动物群体社会行为的群智能优化算法,现已成为自然计算的一个重要分支。《微粒群优化算法》分为9章,第1、第2章介绍了微粒群算法的概念、基本方程以及相关社会行为分析等,并给出了一个较为详细的综述。第3~5章从生物学背景出发,分别从个体的觅食时间、觅食行为、觅食决策等方面探讨了微粒群算法的改进模式。第6~8章的研究内容则从控制角度出发探讨微粒群算法的相关控制方式。在现实世界中,由于目标函数计算困难或计算时间较长等因素,许多复杂的优化问题难以利用微粒群算法进行优化。

2014-05-10

MSDN中文版下载

VC++的文档MSDN,C++编程必备,这是难得的中文版。

2014-05-09

毕业设计源码 搜索引擎

一个毕业设计的源码,内容是一个搜索引擎。如果有任何问题请看压缩包中附带的“使用前必读”和“教程地址“文件,教程在CSDN中有连载,百度搜索即可获取。

2014-01-21

CrawlScript-bin-beta0.3 JAVA的爬虫脚本语言

CrawlScript-bin-beta0.3 ,CrawlScript语言0.3beta版,无需配置。 JAVA的爬虫脚本语言,用几行代码即可实现对整个网站的爬取,直接执行demo中的代码,可以获取整个新华网的所有的新闻(从网页中提取出的干净的新闻)。

2014-01-20

CrawlScript-bin-beta0.1 JAVA的爬虫脚本语言

官方网站和资料: http://crawlscript.github.io/ 网络爬虫脚本语言 CrawlScript: 网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的代码,就可以制作一个强大的网络爬虫。同时,CrawlScript由JAVA编写,可以在其他JAVA程序中被简单调用。

2014-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除