july_2-CSDN博客

转载 ntp服务搭建与配置

安装NTP ServerLinux系统内核提供了对NTP的支持，因此只需要再安装一个NTP Server的守护进程即可。常用的ntpd由ntp.org提供。查找当前系统是否已安装ntp http://www.ntp.org/downloads.html [root@localhost ~]# rpm -qa | grep ntp chkfontpath-1.10

2015-06-05 11:34:38 4298 1

转载 Hbase完全分布式集群安装配置(Hbase1.0.0,Hadoop2.6.0)

1.安装软件 OS:centos6.5 Hadoop：hadoop2.6.0 Hbase:hbase.1.0.0 JDK: jdk1.7.0_51集群机器： 192.168.153.130（hadoop130 namenode） 192.168.153.131 (hadoop131datanode)

2015-06-03 18:16:40 783

转载 [CentOS] CentOS 6 IPv6 关闭方法

方法一：CentOS 6 默认安装后，IPv6是自动开启的，但是现在IPv6还没有普及基本用不到这个功能，建议关闭IPv6模块。下面介绍一下关闭方法。说明：蓝色=命令名称浅绿=命令参数浅蓝=选项紫色=目录系统环境：CentOS 6.2 i6861、查看系统是否开启ipv6a）通过网卡

2015-06-03 08:04:35 629

转载 LINUX关闭防火墙

（1）重启后永久性生效：开启：chkconfig iptables on关闭：chkconfig iptables off（2）即时生效，重启后失效：开启：service iptables start关闭：service iptables stop需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。

2015-06-03 07:34:18 508

转载 linux /etc/security/limits.conf的相关说明

linux limits.conf 配置 limits.conf 文件实际是 Linux PAM（插入式认证模块，Pluggable Authentication Modules）中 pam_limits.so 的配置文件，而且只针对于单个会话。limits.conf的格式如下：username|@groupname type resource limitusername|

2015-06-02 17:20:10 553

转载服务器端git的安装和gitosis安装

1. 服务器端git的安装和配置（1）使用yum源安装git1. yum install git（2）创建git用户并设置密码1. #useradd --home /home/git git2. #passwd git 3. //注意这里要设置一个密码，建议不要不设密码，网上很多资料都不设密码（3）创建一个git仓库，验证git是否可用·

2015-05-25 11:32:30 2803

转载 SpringMVC——接收请求参数和页面传参

Spring接收请求参数: 1,使用HttpServletRequest获取Java代码 @RequestMapping("/login.do") public String login(HttpServletRequest request){ String name = request.getParameter("name")

2015-05-15 17:41:01 697

转载 Nutch1.7Fetcher源代码分析

Fetcher分析Fetcher是以生产者/消费者模式来处理网页抓取的。QueueFeeder作为生产者，从前面Generator中产生的读取出来，然后加入到FetchItemQueues队列中，加入的时候需处理队列已满等异常情况。 FetcherThread作为消费者，不断从队列里取出待抓取的URL进行抓取。Fetcher与Injector和Generator的不

2015-04-16 16:18:48 417

转载 Nutch1.7ParseSegment源代码分析

ParseSegment分析ParseSegment类的结构相对要简单一些，与Injector等在内部类中实现map和reduce的方式不同，它直接在类中实现。核心方法解析：map方法的功能包括：(1) 检查URL对应的Content是否抓取成功，如果没有直接返回，否则继续;(2) 检查Content的内容是否为truncated以及par

2015-04-16 16:18:03 399

转载 Nutch1.7Generator源代码分析

Generator分析Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括：抓取时间是否符合要求，是否符合设定过滤规则，根据页面评分进行排序，根据URL的host/ip/domain划分子集，是否超过设定的generate最大值(就是Crawl命令中的topN值)等。generate方法主要包括三个job的执行：第一个job的map和

2015-04-16 16:17:30 514

转载 Nutch1.7Injector源代码分析

Injector的主要功能Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。Injector类基本构成(1) 三个主成员变量nutchScoreMDNamenutchFetchIntervalMDNamenutchFixedFetchIntervalMDName(2) 两个内部静态类InjectMapperI

2015-04-16 15:52:49 410 1

转载 Nutch1.7基本工作流程分析

找到分析源头分析软件的基本工作流程，通常都是从它的运行命令开始。在前面的一文 (地址：http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到，该命令实际运行的为org.a

2015-04-16 14:23:08 339

转载 nutch在hadoop集群上安装使用

1.搭建Hadoop 2.5.1集群配置yarn2.创建hadoop用户useradd hadooppasswd hadoop3.使用hadoop用户来编译nutch-1.7文件夹4.以hadoop用户创建文件进入到/home/nutch/nutch-1.7/runtime/deploy文件夹下

2015-04-16 10:42:22 670

转载 nutch1.7基本工作流程源码分析

找到分析源头分析软件的基本工作流程，通常都是从它的运行命令开始。在前面的一文 (地址：http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到，该命令实际运行的为org.a

2015-04-15 17:05:23 131

转载 Nutch1.7二次开发培训讲义

1、下载并解压eclipse（集成开发环境）使用Standard版下载地址：Eclipse Standard 4.3.2 For Windows 64Bit Eclipse Standard 4.3.2 For Windows 32Bit 其他操作系统版本 2、安装Subcl

2015-04-15 14:53:42 597

转载 Apache Nutch 1.7 单机安装

2015-04-15 14:20:04 445

转载 Apache Nutch 1.7 + Solr 4.4.0安装笔记

Nutch安装参考文档： http://wiki.apache.org/nutch/NutchTutorial 安装必要程序： yum update yum list java* yum install java-1.7.0-openjdk-devel.x86_64 找到java的安装路径：参考： http://serverfaullt.com/question

2015-04-10 15:38:05 783

转载 Linux top命令的用法详细详解

op进入视图top视图 01【top视图 01】是刚进入top的基本视图，我们来结合这个视图讲解各个数据的含义。复制代码代码如下:第一行：10:01:23 — 当前系统时间126 days, 14:29 — 系统已经运行了126天14小时29分钟（在这期间没有重启过）2 users — 当前有2个用户登录系统load average: 1

2015-04-07 10:27:51 565

转载安装Scrapy

Centos下安装ScrapyScrapy是一个开源的机遇twisted框架的python的单机爬虫，该爬虫实际上包含大多数网页抓取的工具包，用于爬虫下载端以及抽取端。安装环境: centos5.4python2.7.3 安装步骤:1.下载python2.7 http://www.python.org/ftp/python/2.7.3/Python-2.

2015-04-01 14:30:15 115

转载 jstat查看gc状态信息

jstat -gc S0C Current survivor space 0 capacity (KB). 当前survivor0的容量S1C Current survivor space 1 capacity (KB). 当前survivor1的容量S0U Survivor space 0 utilization (KB). survivor0的使用S1U

2015-03-30 15:45:53 844

转载 linux修改hostname

修改linux的服务器名 # vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=yourname //在这修改hostnameNISDOMAIN=eng-cn.platform.com2.修改/etc/hosts里面的名字＃ vi /etc/hosts127.0.0.1 localhost.localdomain

2015-03-30 14:47:13 541

转载 redis与memcached

这两年 Redis火得可以，Redis也常常被当作 Memcached的挑战者被提到桌面上来。关于Redis与Memcached的比较更是比比皆是。然而，Redis真的在功能、性能以及内存使用效率上都超越了Memcached吗？没有必要过于关注性能，因为二者的性能都已经足够高了。由于Redis只使用单核，而Memcached可以使用多核，所以二者比较起来，平均每一个核上，Redis在存储小数据

2015-03-20 10:44:48 630

转载 Elasticsearch:检索篇

ES检索篇主要是对索引中的数据进行查询的一个过程：1.IndexReader打开索引文件，读取并打开指向索引文件的流。2.用户输入查询语句3.将查询语句转换为查询对象Query对象树4.构造Weight对象树，用于计算词的权重Term Weight，也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分)。5.构造Scorer对象树，用于计算打分(T

2015-03-18 15:37:47 1632

转载 Elasticsearch:Mapping篇

Es Mapping篇主要是讲解Mapping的一些相关配置与需要注意的地方，说到Mapping大家可能觉得有些不解，其实我大体上可以将Es 理解为一个数据管理平台，那么index 当然就是库了，type可以理解为表,mapping可以理解为表的结构和相关设置的信息（当然mapping有更大范围的意思）。Mapping的作用域也是从cluster、node、index、type。c

2015-03-18 15:29:59 2496

转载 elasticsearch安装参数配置注意事项

在elasticsearch安装时，有几个重要的参数配置需要我们注意：1.文件描述在http://www.elasticsearch.org/guide/reference/setup/installation/这样描述:Make sure to increase the number of open files descriptors on the machine (or for

2015-03-17 17:05:16 2542

转载 Elasticsearch:配置篇

在生产环境中elasticsearch.yml配置项主要如下：cluster.name: elasticsearch集群名称node.name: “35″节点名称node.tag: “tag21″节点标签node.data: true节点是否存储数据index.number_of_shards: 10索引分片数in

2015-03-17 15:18:42 2197

转载 ElasticSearch 安装配置

下载解压，执行bin下面的elasticsearch.bat(linux下./elasticsearch)即可，在linux下执行elasticsearch默认会以后台的方式执行，如果想看console输出的日志信息，加上参数 -f 即可（./elasticsearch -f)，JAVA环境6以上，不要忘了。一般来说，我会使用elasticsearch的一个searchwrapper来让e

2015-03-17 15:11:50 1179

转载 Java NIO和IO的区别

下表总结了Java NIO和IO之间的主要差别，我会更详细地描述表中每部分的差异。复制代码代码如下:IO NIO面向流面向缓冲阻塞IO 非阻塞IO无选择器面向流与面向缓冲Java NIO和IO之间第一个最大的区别是，IO是面向流

2015-03-17 11:27:04 394

转载 elasticsearch-suggest-plugin使用

接着上一篇文章elasticsearch SuggestionBuilder应用实例,我们使用elasticsearch本生的SuggestionBuilder，效果并不好。我们来使用https://github.com/spinscale/elasticsearch-suggest-plugin插件。1.先从https://github.com/spinscale/elasticsear

2015-03-17 10:17:06 3647

转载 elasticsearch 自定义similarity 插件开发

在搜索开发中，我们要修改打分机制，就需要自定义similarity。现在来简单说一下elasticsearch下的自定义similarity 插件开发。网上的https://github.com/tlrx/elasticsearch-custom-similarity-provider仅仅支持0.20.0.Beta1-SNAPSHOT版本，现在我们用的版本是elasticsearch

2015-03-17 10:13:32 4437

转载 elasticsearch FuzzyLikeThisQueryBuilder实例

需求：在搜索中经常需要模糊搜索，比如我们搜“国”，希望能得到“中国”，“英国”等等。这时候就可以用FuzzyLikeThisQueryBuilder实现。java 实例代码如下：FuzzyLikeThisQueryBuilder fuzzy=new FuzzyLikeThisQueryBuilder("fname");//fname 为搜索的fieldfuzzy.analy

2015-03-16 16:40:45 2431

转载 elasticsearch RangeFilter实例

需求：我们搜索文章范围在近一年之内。这时候我们就用到elasticsearch RangeFilter了具体例子如下：long current=System.currentTimeMillis()/1000l; Calendar ca = Calendar.getInstance();//得到一个Calendar的实例 ca.setTime(new Date()

2015-03-16 16:40:45 2820

转载 mvel2.0语法指南

虽然mvel吸收了大量的java语法，但作为一个表达式语言，还是有着很多重要的不同之处，以达到更高的效率，比如：mvel像正则表达式一样，有直接支持集合、数组和字符串匹配的操作符。除了表达式语言外，mvel还提供了用来配置和构造字符串的模板语言。mvel2.x表达式包含以下部分的内容：属性表达式，布尔表达式，方法调用，变量赋值，函数定义。一、基本语法

2015-03-13 18:07:47 1176

转载 mvel2.0语法指南

虽然mvel吸收了大量的java语法，但作为一个表达式语言，还是有着很多重要的不同之处，以达到更高的效率，比如：mvel像正则表达式一样，有直接支持集合、数组和字符串匹配的操作符。除了表达式语言外，mvel还提供了用来配置和构造字符串的模板语言。mvel2.x表达式包含以下部分的内容：属性表达式，布尔表达式，方法调用，变量赋值，函数定义。一、基本语法MVEL 是一

2015-03-13 18:02:06 2730

转载 elasticsearch customScoreQuery 实例

我们来学习一下elasticsearch customScoreQuery 的使用。customScoreQuery 可以自定义score，从而来影响排序结果。建立mappingpublic static XContentBuilder createMapping(String indexName){XContentBuilder mapping = null;

2015-03-13 17:59:54 2908

转载 Lucene - CustomScoreQuery 自定义排序

在某些场景需要做自定义排序（非单值字段排序、非文本相关度排序），除了自己重写collect、weight，可以借助CustomScoreQuery。场景：根据tag字段中标签的数量进行排序（tag字段中，标签的数量越多得分越高）public class CustomScoreTest { public static void main(String[] args) th

2015-03-13 16:45:55 1293 1

转载 elasticsearch MultiSearch实例

在实际开发中，我们需要对多个索引搜索，然后得出一个综合结果。例如：“综合搜索”,得出新闻和话题的搜索结果。实例代码如下：Client esClient = ESServiceSingleton2.getTransportClient(); SearchRequestBuilder tagSearch = esClient .prepareSearc

2015-03-13 16:41:51 5196

转载 elasticsearch获取java client实例

一般情况下，我们可以用如下方法获取一个java client。public Client getTransportClient(){ // 设置client.transport.sniff为true来使客户端去嗅探整个集群的状态，把集群中其它机器的ip地址加到客户端中， // 这样做的好处是一般你不用手动设置集群里所有集群的ip到连接客户端，它会自动帮你

2015-03-13 16:22:07 23077 7

转载 elasticsearch moreLikeThis查询应用

elasticsearch MoreLikeThisQueryBuilder实例分布式搜索elasticsearch java client:使用More like this实现基于内容的推荐elasticsearch MoreLikeThisQueryBuilder查询主要实现对一句话相似文章的查询。在推荐系统中，通常要用到与一篇文章相似度高的一组文章。在这里我们要用到

2015-03-13 15:51:59 5372

转载 elasticsearch suggest 的几种使用-completion 的基本使用

在lucene里面，suggest 的支持非常完善，可以随心所欲的定制；但是在es中使用起来就没有那么方便了。 es给suggest 分类4类：term ；phrase； completion； context；目前最新版本是es1.2.1 这一块也还在不断完善中； term suggester 是根据某词元在制定的字段中出现的频次来做出提示； phrase suggester 是给ter

2015-03-11 18:01:40 8961 3

空空如也

空空如也