自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (3)
  • 收藏
  • 关注

原创 spark map flatMap flatMapToPair mapPartitions 的区别和用途

import akka.japi.Function2;import org.apache.spark.HashPartitioner;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import o

2015-05-19 16:22:07 9378

原创 mongodb-elasticsearch-rive源码解析

MongoDBRiverPluginMongoDBRiverPlugin类是插件注册类,它继承自AbstractPlugin,其功能是1.      在RiverModule中注册一个MongoDBRiver2.      在RestModule中注册一个RestMongoDBRiverActionpackage org.elasticsearch.plugin.river.mon

2014-08-21 14:01:22 561

原创 mongodb-river-elasticsearch源码解析

1. MongoDBRiverPluginMongoDBRiverPlugin类是插件注册类,它继承自AbstractPlugin,其功能是1.      在RiverModule中注册一个MongoDBRiver2.      在RestModule中注册一个RestMongoDBRiverActionpackage org.elasticsearch.plugin.river.

2014-08-21 13:41:01 1817

原创 neo4j 三元组数据存储问题的解决方案

图数据库的扩展性,灵活性非常好,适合用于复杂关系管理和关系查询推理,社交关系应用就是一个可选的应用场景。语义网和Ontology的数据结构(三元组)就是图结构数据,而基于RDF构建的语义网,过于复杂,效率很低,实际上不如基于图数据库的构建方便好用,而且Neo4J支持RDF,SPARQL等扩展。目前neo4j支持了linked data数据存储和有效数据查询。   早期 Neo4j-rdf-sa

2014-03-03 17:47:45 7407 3

原创 ubuntu neo4j单机安装和集群环境安装

1. Neo4j简介    Neo4j是一个用Java实现的、高性能的、NoSQL图形数据库。Neo4j 使用图(graph)相关的概念来描述数据模型,通过图中的节点和节点的关系来建模。Neo4j完全兼容ACID的事务性。Neo4j以“节点空间”来表达领域数据,相对于传统的关系型数据库的表、行和列来说,节点空间可以更好地存储由节点关系和属性构成的网络,如社交网络,朋友圈等。2 neo4

2014-02-26 17:57:46 3459 2

原创 org.apache.hadoop.hdfs.DFSClient: Error Recovery for null bad datanode[0] nodes == null问题可能出现的原因

2014年-1-22日遇到了这个问题:2014-01-22 14:36:18,346 WARN org.apache.hadoop.hdfs.DFSClient: Error Recovery for null bad datanode[0] nodes == null2014-01-22 14:36:18,346 WARN org.apache.hadoop.hdfs.DFSClient

2014-01-22 15:45:00 2513

原创 HADOOP 分布式集群环境下第一个mapReduce程序—WordCount

关于hadoop 分布式集群环境搭建,本人已经在博客中的

2014-01-21 11:21:41 830

转载 交互设计专业必备知识,看到了好的课程,给自己一点储备

交互设计师出发点和考虑的因素以及跟其他业务人员的交互

2014-01-17 09:34:05 672

原创 elasticsearch与mongodb分布式集群环境下数据同步以及遇到的相应问题解答

1. elasticsearch是什么     ElasticSearch 是一个基于Lucene构建的开源、分布式,RESTful搜索引擎。它的服务是为具有数据库和Web前端的应用程序提供附加的组件(即可搜索的存储库)。ElasticSearch为应用程序提供搜索算法和相关的基础架构,用户只需要将应用程序中的数据上载到ElasticSearch数据存储中,就可以通过RESTful U

2014-01-03 18:45:11 3681 3

原创 ubuntu hadoop 全分布式集群搭

集群部署介绍1.1 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。  对于Hadoop的集群来讲,可以分成两大类角色:M

2013-12-11 17:38:10 1367

原创 将博客搬至CSDN

大家好!为便于文章发放和整理、我将iteye博客文章搬家到CSDN上面!

2013-12-05 16:12:43 531

原创 solrcloud安装手册

关于如何安装solrcloud看了网上很多资料也尝试了很多次,发现有许多不太对的地方,正好单位 需要用,所以仔细实践了一下,把相关实践的情况总结一下: 1. 在同一台机器上建立两个Shard集群 这个例子简单的创建了一个代表一个独立索引块的两个不同的 shards 的两个 solr 服务组成的集群。从我们将需要两个 solr 服务器,简单的复制例子目录副本作为第二个服务器。

2013-12-05 16:12:38 675

原创 solr 基础架构

本节通过建一个基础应用来说明solr的主要核心模块,当然这个过程中我们也能够看出solr的特别之处和solr存在的意义。首先在说明solr是什么之前,我们先撇清一些概念---------solr既不是搜索引擎也不是搜索引擎优化。 上面的图片能够展示一部分solr的核心功能,solr可以童工强大的关键字搜索和一些复杂的高级搜索,另外solr还提供相应的拼写检查,自动匹配或者是建议,同义词处理,短语

2013-12-05 16:12:33 694

原创 Apache solr windows环境下安装及遇到的问题解答

1 首先在http://apache.fayea.com/apache-mirror/lucene/solr/4.5.0  网站上下载最新版本的solr资源,对 资源进行解压:F:\lib\solr-4.5.0 2 下载tomcat资源,并且对tomcat 软件进行解压:F:\software\apache-tomcat-6.0.36 3  solr安装在tomcat中。 

2013-12-05 16:12:28 619

原创 mongo服务器启动错误 1067

mongodb启动服务时报错,错误:1067,进程意外终止解决办法:我之前也遇到过类似的问题,个人分析是数据的问题,在网上查信息说要删掉mongod.lock文件就重启就可以了,但是在我的机子上依然出现上述问题。如果之前一直好好的,仅仅是因为插入了数据导致服务无法使用,处理问题的方法就很简单了,把你刚刚复制的数据和mongod.lock文件删掉(都在data文件夹下)。有可能是因为mong

2013-12-05 16:12:22 845

原创 java 驱动mysqldump 进行自动备份

import java.io.File;import java.io.InputStream;import java.io.PrintStream;public class MysqlDump1 { private String ip; private String port; private String database; private String user; priva

2013-12-05 16:12:17 511

原创 将博客搬至CSDN

大家好!为便于文章发放和整理、我将iteye博客文章搬家到CSDN上面!

2013-11-28 14:31:56 64

原创 solrcloud安装手册

关于如何安装solrcloud看了网上很多资料也尝试了很多次,发现有许多不太对的地方,正好单位 需要用,所以仔细实践了一下,把相关实践的情况总结一下: [color=red][size=medium]1. 在同一台机器上建立两个Shard集群 [/size][/color] 这个例子简单的创建了一个代表一个独立索引块的两个不同的 shards 的两个 solr 服务组成的集...

2013-10-22 12:51:33 58

原创 solr 基础架构

[size=medium]本节通过建一个基础应用来说明solr的主要核心模块,当然这个过程中我们也能够看出solr的特别之处和solr存在的意义。首先在说明solr是什么之前,我们先撇清一些概念---------solr既不是搜索引擎也不是搜索引擎优化。[/size] [img]http://dl2.iteye.com/upload/attachment/0090/1938/7ea57bad-f9...

2013-10-15 10:44:57 110

原创 Apache solr windows环境下安装及遇到的问题解答

1 首先在http://apache.fayea.com/apache-mirror/lucene/solr/4.5.0  网站上下载最新版本的solr资源,对 资源进行解压:F:\lib\solr-4.5.0 2 下载tomcat资源,并且对tomcat 软件进行解压:F:\software\apache-tomcat-6.0.36 3  solr安装在tomcat中。 ...

2013-10-14 16:05:46 88

原创 mongo服务器启动错误 1067

mongodb启动服务时报错,错误:1067,进程意外终止解决办法:我之前也遇到过类似的问题,个人分析是数据的问题,在网上查信息说要删掉mongod.lock文件就重启就可以了,但是在我的机子上依然出现上述问题。如果之前一直好好的,仅仅是因为插入了数据导致服务无法使用,处理问题的方法就很简单了,把你刚刚复制的数据和mongod.lock文件删掉(都在data文件夹下)。有可能是因为...

2013-08-16 08:32:18 306

原创 java 驱动mysqldump 进行自动备份

import java.io.File;import java.io.InputStream;import java.io.PrintStream;public class MysqlDump1 { private String ip; private String port; private String database; private String user...

2013-08-13 08:46:27 66

hadoop-eclipse-plugin-1.2.1.jar

通过ant编译完成的hadoop eclipse plugin jar包,版本是1.2.1 可直接使用,无需再编译了。

2014-01-21

百度百科抓取工具

这个是一个python脚本,加入了动态代理,主要做的就是实现百度百科自动抓取

2013-01-16

网络爬虫总体介绍

网络爬虫总体介绍和调研结果包括了heritrix 架构和每个模块,nutch,以及google ajax api

2012-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除