自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Nutch核心流程

一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造 <url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级

2016-08-31 11:17:53 296

转载 ubuntu14.04 切换 python版本

默认情况下ubuntu14中存在python2.7的版本和3.4的版本。默认版本是2.7使用命令alias python=python3如下图所示 python编辑器安装apt-get install ipython.然后输入ipython运行,ipython默认支持的是python2.7.如果要运行python3.*版本的ipython,则需要安装ipython3apt-get instal

2016-08-26 23:15:58 657

转载 Nutch的Hadoop方式爬取效率优化

下面这些是潜在的影响爬取效率的内容(官方资料翻译):1)DNS设置 2)你的爬虫数量,太多或太少 3)带宽限制 4)每一主机的线程数 5)要抓取的urls的分配不均匀 6) robots.txt中的高爬取延时(通常和urls的分配不均匀同时出现) 7)有很多比较慢的网页(通常和分配不均匀同时出现) 8)要下载太多的内容(PDF,大的html页面,通常和分配不均匀同时出现) 9)其它

2016-07-18 09:36:56 360

原创 Nutch抓取插件-HTTPS协议支持

1 什么是HTTPS协议?HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。 即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。 它是一个URI scheme(抽象标识符体系),句法类同http:体系。用于安全的HTTP数据传输

2016-05-24 12:24:37 1877 2

转载 数据结构学习笔记

1 **查找** 按照查找的引出的先后顺序介绍:1. 静态查找(树)表静态查找表(Static Search Table):只作查找操作的查找表。 A:查询某个“特定”数据元素是否在查找表中; B:检索某个“特定”数据元素和各种属性。以下介绍的是有序表查找,无序表只能顺序查找。二分查找作为有序表查找的一种非常普通且实用的方法。大家并不陌生。思想:先确定待查记录所在的范围(区间),然后逐步缩小范

2016-05-06 14:11:32 331

原创 Java 学习笔记

1Java Collection 结构图 2Java 运算符优先级 3 接口和抽象类接口(interface)可以说成是抽象类的一种特例,接口中的所有方法都必须是抽象的。接口中的方法定义默认为public abstract类型,接口中的成员变量类型默认为public static final。另外,接口和抽象类在方法上有区别: 1.抽象类可以有构造方法,接口中不能有构造方法。 2.抽象类中

2016-05-05 21:20:12 278

转载 lucene学习笔记

参考: http://cloudera.iteye.com/blog/656459正文:1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么 要回答这个问题

2016-05-05 10:55:02 503

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除