自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(257)
  • 收藏
  • 关注

转载 ntp服务搭建与配置

安装NTP ServerLinux系统内核提供了对NTP的支持,因此只需要再安装一个NTP Server的守护进程即可。 常用的ntpd由ntp.org提供。查找当前系统是否已安装ntp    http://www.ntp.org/downloads.html [root@localhost ~]# rpm -qa | grep ntp chkfontpath-1.10

2015-06-05 11:34:38 4298 1

转载 Hbase完全分布式集群安装配置(Hbase1.0.0,Hadoop2.6.0)

1.安装软件    OS:centos6.5    Hadoop:hadoop2.6.0    Hbase:hbase.1.0.0   JDK: jdk1.7.0_51集群机器:    192.168.153.130(hadoop130 namenode)    192.168.153.131 (hadoop131datanode) 

2015-06-03 18:16:40 783

转载 [CentOS] CentOS 6 IPv6 关闭方法

方法一:CentOS 6 默认安装后,IPv6是自动开启的,但是现在IPv6还没有普及基本用不到这个功能,建议关闭IPv6模块。下面介绍一下关闭方法。说明:蓝色=命令名称      浅绿=命令参数      浅蓝=选项      紫色=目录      系统环境:CentOS  6.2  i6861、查看系统是否开启ipv6a)通过网卡

2015-06-03 08:04:35 629

转载 LINUX关闭防火墙

(1) 重启后永久性生效:开启:chkconfig iptables on关闭:chkconfig iptables off(2) 即时生效,重启后失效:开启:service iptables start关闭:service iptables stop需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。

2015-06-03 07:34:18 508

转载 linux /etc/security/limits.conf的相关说明

linux limits.conf 配置 limits.conf 文件实际是 Linux PAM(插入式认证模块,Pluggable Authentication Modules)中 pam_limits.so 的配置文件,而且只针对于单个会话。limits.conf的格式如下:username|@groupname type resource limitusername|

2015-06-02 17:20:10 553

转载 服务器端git的安装和gitosis安装

1. 服务器端git的安装和配置(1)使用yum源安装git1.  yum install git(2)创建git用户并设置密码1.  #useradd --home /home/git git2.   #passwd git 3.  //注意这里要设置一个密码,建议不要不设密码,网上很多资料都不设密码(3)创建一个git仓库,验证git是否可用·

2015-05-25 11:32:30 2803

转载 SpringMVC——接收请求参数和页面传参

Spring接收请求参数: 1,使用HttpServletRequest获取Java代码  @RequestMapping("/login.do")  public String login(HttpServletRequest request){      String name = request.getParameter("name")

2015-05-15 17:41:01 697

转载 Nutch1.7Fetcher源代码分析

Fetcher分析Fetcher是以生产者/消费者模式来处理网页抓取的。QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情况。 FetcherThread作为消费者,不断从队列里取出待抓取的URL进行抓取。Fetcher与Injector和Generator的不

2015-04-16 16:18:48 417

转载 Nutch1.7ParseSegment源代码分析

ParseSegment分析ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。 核心方法解析:map方法的功能包括:(1)   检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续;(2)   检查Content的内容是否为truncated以及par

2015-04-16 16:18:03 399

转载 Nutch1.7Generator源代码分析

Generator分析Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/domain划分子集,是否超过设定的generate最大值(就是Crawl命令中的topN值)等。generate方法主要包括三个job的执行:第一个job的map和

2015-04-16 16:17:30 514

转载 Nutch1.7Injector源代码分析

Injector的主要功能Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。Injector类基本构成(1)    三个主成员变量nutchScoreMDNamenutchFetchIntervalMDNamenutchFixedFetchIntervalMDName(2)    两个内部静态类InjectMapperI

2015-04-16 15:52:49 410 1

转载 Nutch1.7基本工作流程分析

找到分析源头分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a

2015-04-16 14:23:08 339

转载 nutch在hadoop集群上安装使用

1.搭建Hadoop 2.5.1集群 配置yarn2.创建hadoop用户useradd hadooppasswd hadoop3.使用hadoop用户来编译nutch-1.7文件夹4.以hadoop用户创建文件进入到/home/nutch/nutch-1.7/runtime/deploy文件夹下

2015-04-16 10:42:22 670

转载 nutch1.7基本工作流程源码分析

找到分析源头分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a

2015-04-15 17:05:23 131

转载 Nutch1.7二次开发培训讲义

1、下载并解压eclipse(集成开发环境)    使用Standard版    下载地址:Eclipse Standard 4.3.2 For Windows 64Bit              Eclipse Standard 4.3.2 For Windows 32Bit              其他操作系统版本 2、安装Subcl

2015-04-15 14:53:42 597

转载 Apache Nutch 1.7 单机安装

2015-04-15 14:20:04 445

转载 Apache Nutch 1.7 + Solr 4.4.0安装笔记

Nutch安装 参考文档: http://wiki.apache.org/nutch/NutchTutorial 安装必要程序: yum update yum list java*  yum install java-1.7.0-openjdk-devel.x86_64  找到java的安装路径: 参考: http://serverfaullt.com/question

2015-04-10 15:38:05 783

转载 Linux top命令的用法详细详解

op进入视图top视图 01【top视图 01】是刚进入top的基本视图,我们来结合这个视图讲解各个数据的含义。复制代码代码如下:第一行:10:01:23 — 当前系统时间126 days, 14:29 — 系统已经运行了126天14小时29分钟(在这期间没有重启过)2 users — 当前有2个用户登录系统load average: 1

2015-04-07 10:27:51 565

转载 安装Scrapy

Centos下安装ScrapyScrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。安装环境: centos5.4python2.7.3 安装步骤:1.下载python2.7  http://www.python.org/ftp/python/2.7.3/Python-2.

2015-04-01 14:30:15 115

转载 jstat查看gc状态信息

jstat -gc S0C  Current survivor space 0 capacity (KB).   当前survivor0的容量S1C  Current survivor space 1 capacity (KB).   当前survivor1的容量S0U  Survivor space 0 utilization (KB).    survivor0的使用S1U

2015-03-30 15:45:53 844

转载 linux修改hostname

修改linux的服务器名  # vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=yourname //在这修改hostnameNISDOMAIN=eng-cn.platform.com2.修改/etc/hosts里面的名字# vi /etc/hosts127.0.0.1 localhost.localdomain

2015-03-30 14:47:13 541

转载 redis与memcached

这两年 Redis火得可以,Redis也常常被当作 Memcached的挑战者被提到桌面上来。关于Redis与Memcached的比较更是比比皆是。然而,Redis真的在功能、性能以及内存使用效率上都超越了Memcached吗?没有必要过于关注性能,因为二者的性能都已经足够高了。由于Redis只使用单核,而Memcached可以使用多核,所以二者比较起来,平均每一个核上,Redis在存储小数据

2015-03-20 10:44:48 630

转载 Elasticsearch:检索篇

ES检索篇主要是对索引中的数据进行查询的一个过程:1.IndexReader打开索引文件,读取并打开指向索引文件的流。2.用户输入查询语句3.将查询语句转换为查询对象Query对象树4.构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分)。5.构造Scorer对象树,用于计算打分(T

2015-03-18 15:37:47 1632

转载 Elasticsearch:Mapping篇

Es Mapping篇主要是讲解Mapping的一些相关配置与需要注意的地方,说到Mapping大家可能觉得有些不解,其实我大体上可以将Es 理解为一个数据管理平台,那么index 当然就是库了,type可以理解为表,mapping可以理解为表的结构和相关设置的信息(当然mapping有更大范围的意思)。Mapping的作用域也是从cluster、node、index、type。c

2015-03-18 15:29:59 2496

转载 elasticsearch安装参数配置注意事项

在elasticsearch安装时,有几个重要的参数配置需要我们注意:1.文件描述在http://www.elasticsearch.org/guide/reference/setup/installation/这样描述:Make sure to increase the number of open files descriptors on the machine (or for

2015-03-17 17:05:16 2542

转载 Elasticsearch:配置篇

在生产环境中elasticsearch.yml配置项主要如下:cluster.name: elasticsearch集群名称node.name: “35″节点名称node.tag: “tag21″节点标签node.data: true节点是否存储数据index.number_of_shards: 10索引分片数in

2015-03-17 15:18:42 2197

转载 ElasticSearch 安装配置

下载解压,执行bin下面的elasticsearch.bat(linux下./elasticsearch)即可,在linux下执行elasticsearch默认会以后台的方式执行,如果想看console输出的日志信息,加上参数 -f 即可(./elasticsearch -f),JAVA环境6以上,不要忘了。一般来说,我会使用elasticsearch的一个searchwrapper来让e

2015-03-17 15:11:50 1179

转载 Java NIO和IO的区别

下表总结了Java NIO和IO之间的主要差别,我会更详细地描述表中每部分的差异。复制代码代码如下:IO                NIO面向流            面向缓冲阻塞IO            非阻塞IO无                选择器面向流与面向缓冲Java NIO和IO之间第一个最大的区别是,IO是面向流

2015-03-17 11:27:04 394

转载 elasticsearch-suggest-plugin使用

接着上一篇文章elasticsearch SuggestionBuilder应用实例,我们使用elasticsearch本生的SuggestionBuilder,效果并不好。我们来使用https://github.com/spinscale/elasticsearch-suggest-plugin插件。1.先从https://github.com/spinscale/elasticsear

2015-03-17 10:17:06 3647

转载 elasticsearch 自定义similarity 插件开发

在搜索开发中,我们要修改打分机制,就需要自定义similarity。现在来简单说一下elasticsearch下的自定义similarity 插件开发。网上的https://github.com/tlrx/elasticsearch-custom-similarity-provider仅仅支持0.20.0.Beta1-SNAPSHOT版本,现在我们用的版本是elasticsearch

2015-03-17 10:13:32 4437

转载 elasticsearch FuzzyLikeThisQueryBuilder实例

需求:在搜索中经常需要模糊搜索,比如我们搜“国”,希望能得到“中国”,“英国”等等。这时候就可以用FuzzyLikeThisQueryBuilder实现。java 实例代码如下:FuzzyLikeThisQueryBuilder fuzzy=new FuzzyLikeThisQueryBuilder("fname");//fname 为搜索的fieldfuzzy.analy

2015-03-16 16:40:45 2431

转载 elasticsearch RangeFilter实例

需求:我们搜索文章范围在近一年之内。这时候我们就用到elasticsearch RangeFilter了具体例子如下:long current=System.currentTimeMillis()/1000l;   Calendar ca = Calendar.getInstance();//得到一个Calendar的实例     ca.setTime(new Date()

2015-03-16 16:40:45 2820

转载 mvel2.0语法指南

虽然mvel吸收了大量的java语法,但作为一个表达式语言,还是有着很多重要的不同之处,以达到更高的效率,比如:mvel像正则表达式一样,有直接支持集合、数组和字符串匹配的操作符。 除了表达式语言外,mvel还提供了用来配置和构造字符串的模板语言。mvel2.x表达式包含以下部分的内容:属性表达式,布尔表达式,方法调用,变量赋值,函数定义。一、基本语法

2015-03-13 18:07:47 1176

转载 mvel2.0语法指南

虽然mvel吸收了大量的java语法,但作为一个表达式语言,还是有着很多重要的不同之处,以达到更高的效率,比如:mvel像正则表达式一样,有直接支持集合、数组和字符串匹配的操作符。 除了表达式语言外,mvel还提供了用来配置和构造字符串的模板语言。mvel2.x表达式包含以下部分的内容:属性表达式,布尔表达式,方法调用,变量赋值,函数定义。一、基本语法MVEL 是一

2015-03-13 18:02:06 2730

转载 elasticsearch customScoreQuery 实例

我们来学习一下elasticsearch customScoreQuery 的使用。customScoreQuery 可以自定义score,从而来影响排序结果。建立mappingpublic static XContentBuilder createMapping(String indexName){XContentBuilder mapping = null;

2015-03-13 17:59:54 2908

转载 Lucene - CustomScoreQuery 自定义排序

在某些场景需要做自定义排序(非单值字段排序、非文本相关度排序),除了自己重写collect、weight,可以借助CustomScoreQuery。场景:根据tag字段中标签的数量进行排序(tag字段中,标签的数量越多得分越高)public class CustomScoreTest { public static void main(String[] args) th

2015-03-13 16:45:55 1293 1

转载 elasticsearch MultiSearch实例

在实际开发中,我们需要对多个索引搜索,然后得出一个综合结果。例如:“综合搜索”,得出新闻和话题的搜索结果。实例代码如下:Client esClient = ESServiceSingleton2.getTransportClient();        SearchRequestBuilder tagSearch = esClient           .prepareSearc

2015-03-13 16:41:51 5196

转载 elasticsearch获取java client实例

一般情况下,我们可以用如下方法获取一个java client。public Client getTransportClient(){  // 设置client.transport.sniff为true来使客户端去嗅探整个集群的状态,把集群中其它机器的ip地址加到客户端中, // 这样做的好处是一般你不用手动设置集群里所有集群的ip到连接客户端,它会自动帮你

2015-03-13 16:22:07 23077 7

转载 elasticsearch moreLikeThis查询应用

elasticsearch MoreLikeThisQueryBuilder实例分布式搜索elasticsearch java client:使用More like this实现基于内容的推荐elasticsearch MoreLikeThisQueryBuilder查询主要实现对一句话相似文章的查询。在推荐系统中,通常要用到与一篇文章相似度高的一组文章。在这里我们要用到

2015-03-13 15:51:59 5372

转载 elasticsearch suggest 的几种使用-completion 的基本 使用

在lucene里面,suggest 的支持非常完善,可以随心所欲的定制; 但是在es中使用起来就没有那么方便了。 es给suggest 分类4类:term ;phrase; completion; context; 目前最新版本是es1.2.1 这一块也还在不断完善中; term suggester 是根据某词元在制定的字段中出现的频次来做出提示; phrase suggester 是给ter

2015-03-11 18:01:40 8961 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除