自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(52)
  • 资源 (24)
  • 收藏
  • 关注

原创 大数据系列1:在win7上安装配置Hadoop伪分布式集群

1、  安装虚拟机和操作系统VMware-workstation-full-10.0.0  或VirtualBox-4.2.18-88781-Win  下载VMware 下载VirtualBoxubuntu-13.04-server-amd64.iso下载ubuntu2、  设置root用户密码sudo passwdroot3、  上传文件利用Win

2014-02-03 16:40:42 10120

原创 APDPlat的系统启动和关闭流程剖析

APDPlat接管了Spring的启动关闭权,为各种运行其上的开源框架和类库的无缝集成提供了支持。 当然,大家都知道,一个JAVA EE Web应用的入口点是web.xml,APDPlat当然也不例外,我们看看APDPlat是如何接管Spring的启动关闭权的:  经过定制的spring监听器 org.apdplat.platform.spring.APDPlatContext

2014-02-03 10:47:09 10121

原创 Nutch性能测试报告(单机模式)

如果您有改进Nutch性能的需求,请跟我联系。

2012-02-15 22:06:55 164

原创 分布式搜索算法

对于搜索引擎来说,索引存放在成千上万台机器上,如何进行分布式搜索呢?

2014-02-05 18:46:55 169

转载 The Future of Compass & ElasticSearch

Posted by: Shay Banon on 07/07/2010     Its been a long time since I blogged about Compass, and I guess its about time to discuss Compass, ElasticSearch, and how they relate to one another.

2014-02-05 18:41:56 805

原创 和讯网人物信息采集程序

对于单站点或是数量较少的站点的信息采集来说,使用JSoup+CSSPath是非常不错的选择,使用Firefox的插件Firebug进行页面结构分析,可以很容易地得到待采集内容的CSSPath。对于更复杂的情况,我们就需要引入专业的网络爬虫如Nutch来完成页面的抓取,当然解析网页的工作还是使用JSoup+CSSPath。

2014-02-05 18:25:22 924

原创 电子报纸采集程序

使用JSoup+CSSPath从网上采集电子报纸,通过对不同电子报纸的网站结构进行分析,可以抽象出一些通用的模式,统一的接口,通用的抽象类,可扩展的实现。

2014-02-05 18:05:34 523 1

原创 Nutch相关框架视频教程20

第二十讲 优酷在线视频地址(22分钟)【视频下载地址】 1、Ganglia以单播方式监控跨多个网段的单一集群vi /etc/ganglia/gmetad.conf data_source "hadoop-cluster"   10  host6  /etc/init.d/gmetad restart 在集群的所有节点中指定以下配置:vi /etc

2014-02-03 19:05:53 184

原创 Nutch相关框架视频教程19

第十九讲 优酷在线视频地址(21分钟)【视频下载地址】 1、Ganglia以组播方式监控同一个网段中的多个集群vi /etc/ganglia/gmetad.conf data_source "cluster1"   10  host2 data_source "cluster2"   10  host6 data_source "cluster3"   10

2014-02-03 19:01:33 930

原创 Nutch相关框架视频教程18

第十八讲 优酷在线视频地址 (57分钟)【视频下载地址】 1、准备压缩数据从dmoz下载url库wget http://rdf.dmoz.org/rdf/content.rdf.u8.gzgunzip content.rdf.u8.gz准备nutch1.6svn co  https://svn.apache.org/repos/asf/nutch

2014-02-03 19:00:08 174

原创 Nutch相关框架视频教程17

第十七讲 优酷在线视频地址 (31分钟)【视频下载地址】 Ganglia主要是用来监控大规模分布式系统的性能,如:cpu、内存、硬盘、负载、网络流量等。Ganglia支持通过浏览器访问,强大的图表展示方式很容易直观地了解每个节点以及整个集群的工作状态,对集群运行参数调整、提高系统整体资源利用率起到重要作用。1、  配置服务端host6作为服务端:创建用户和组:

2014-02-03 18:58:43 173

原创 Nutch相关框架视频教程16

第十六讲 优酷在线视频地址 (27分钟)【视频下载地址】 1、运行基准测试hadoop jarhadoop-test-1.1.2.jar hadoop jarhadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 1000 -resFiletesthadoop jarhadoop-test-1.

2014-02-03 18:57:16 159

原创 Nutch相关框架视频教程15

第十五讲 优酷在线视频地址 (30分钟)【视频下载地址】 1、限制hadoop节点连接NameNode:vi conf/hdfs-site.xml  dfs.hosts /home/hadoop/hadoop-1.1.2/conf/include dfs.hosts.exclude /home/hadoop/had

2014-02-03 18:55:42 161

原创 Nutch相关框架视频教程14

第十四讲 优酷在线视频地址 (26分钟)【视频下载地址】 1、  动态增加DataNode节点和TaskTracker节点以host226为例在host226上执行:指定主机名vi /etc/hostname指定主机名到IP地址的映射vi /etc/hosts增加用户和组addgrouphadoopadduser--ingroup h

2014-02-03 18:53:58 138

原创 Nutch相关框架视频教程13

第十三讲 优酷在线视频地址 (29分钟)【视频下载地址】 1、改变负载三台机器,改变负载host2(NameNode、DataNode、TaskTracker)host6(SecondaryNameNode、DataNode、TaskTracker)host8(JobTracker、DataNode、TaskTracker) 指定SecondaryNam

2014-02-03 18:52:08 164

原创 Nutch相关框架视频教程12

第十二讲 土豆在线视频地址(30分钟)【视频下载地址】 1、  HADOOP多机完全分布式模式三台机器host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)host6(DataNode、TaskTracker)host8(DataNode、TaskTracker)vi /etc/

2014-02-03 18:50:39 163

原创 Nutch相关框架视频教程11

第十一讲土豆在线视频地址(64分钟)【视频下载地址】 1、配置Cygwin支持无密码SSH登陆安装SSH默认的Cygwin没有安装ssh,所以重新运行http://www.cygwin.com/setup.exe在Select Packages的时候,在search输入ssh,选择openssh:The OpenSSH server and client pro

2014-02-03 18:48:48 167

原创 Nutch相关框架视频教程10

第十讲土豆在线视频地址(58分钟)【视频下载地址】 1、HADOOP单机本地模式wgethttp://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gzexport PATH=/home/ysc/hadoop-

2014-02-03 18:47:12 158

原创 Nutch相关框架视频教程9

第九讲土豆在线视频地址(44分钟)【视频下载地址】  1、  安装win上的nutch运行环境Cygwincygwin路径不要有空格把安装好的JDK拷贝到用户主目录把nutch的文件拷贝到用户主目录下载解压ant,加入path2、  运行nutchException in thread "main" java.io.IOException:Failed

2014-02-03 18:45:45 171

原创 Nutch相关框架视频教程8

第八讲土豆在线视频地址(38分钟)【视频下载地址】 1、指定LUKE工具的分词器 访问https://code.google.com/p/mmseg4j/downloads/list   下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 将压缩包里面的dist文件夹里面的jar解压,将解压出来com和data文件夹拖到lukeall-4.

2014-02-03 18:43:59 181

原创 Nutch相关框架视频教程7

第七讲土豆在线视频地址(58分钟)【视频下载地址】 1、indexcheckerbin/nutch indexchecker  http://www.163.com2、安装配置SOLRwgethttp://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgztar -xzv

2014-02-03 18:42:22 149

原创 Nutch相关框架视频教程6

第六讲 土豆在线视频地址(46分钟)【视频下载地址】 1、注入分值bin/nutch  readdb  data2/crawldb  -dump  crawldb_dumpcat  crawldb_dump/*  |  grep  Score  |  sort  |  uniqbin/nutch  scoreupdater -crawldb data2/craw

2014-02-03 18:41:03 97

原创 Nutch相关框架视频教程5

第五讲 土豆在线视频地址(66分钟)【视频下载地址】 1、 域统计bin/nutch domainstats  data2/crawldb/current  host  hostbin/nutch domainstats data2/crawldb/current  domain domainbin/nutch domainstats dat

2014-02-03 18:36:17 189

原创 Nutch相关框架视频教程4

第四讲 土豆在线视频地址(60分钟) 【视频下载地址】 1、  深入分析nutch的抓取周期injectgenerate -> fetch -> parse ->updatedb2、  3大merge和3大read命令阐释bin/nutch |  grep mergebin/nutch |  grep readbin/nutch merges

2014-02-03 18:05:55 189

原创 Nutch相关框架视频教程3

第三讲土豆在线视频地址(53分钟)【视频下载地址】 1、    nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、    命令:crawldbbin/nutch | grep readbin/nutch readdb  data/crawldb  -statsbin/nutch readdb  data/crawldb  -

2014-02-03 17:57:46 132

原创 Nutch相关框架视频教程3

第三讲土豆在线视频地址(53分钟)【视频下载地址】 1、    nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、    命令:crawldbbin/nutch | grep readbin/nutch readdb  data/crawldb  -statsbin/nutch readdb  data/crawldb  -

2014-02-03 17:55:21 91

原创 Nutch相关框架视频教程2

第二讲土豆在线视频地址 (52分钟)【视频下载地址】 1、  git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。2、  nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。3、  定制开发nutch的入门方法是研读build.xml文件。4、  命令:

2014-02-03 17:33:49 80

原创 Nutch相关框架视频教程1

第一讲土豆在线视频地址(52分钟)超清原版下载地址  压缩高清下载地址1、    通过nutch,诞生了hadoop、tika、gora。2、    nutch通过ivy来进行依赖管理(1.2之后)。3、    nutch是使用svn进行源代码管理的。4、    lucene、nutch、hadoop,在搜索界相当有名。5、    ant构建之后,生成runtime

2014-02-03 16:56:20 30

原创 大数据系列12:Hadoop2 – 全新的Hadoop

wgethttp://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gztar-xzvf hadoop-2.2.0.tar.gzcdhadoop-2.2.0vietc/hadoop/hadoop-env.sh修改:export JAVA_HOME=/home/ysc/jdk

2014-02-03 16:53:16 658

原创 大数据系列11:Gora – 大数据持久化

gora-demo托管于github wgethttp://mirrors.cnnic.cn/apache/gora/0.3/apache-gora-0.3-src.zipunzip apache-gora-0.3-src.zipcd apache-gora-0.3mvn clean package1、创建项目mvn archetype:create -Dgroup

2014-02-03 16:52:23 988

原创 大数据系列10:Spark – 内存计算

wgethttp://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgztar-zxvf spark-0.8.0-incubating-bin-hadoop1.tgzmvspark-0.8.0-incubating-bin-ha

2014-02-03 16:51:07 730

原创 大数据系列9:Mahout – 机器学习

wgethttp://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gztar-xzvf mahout-distribution-0.8.tar.gzcdmahout-distribution-0.8sudo vi /etc/profile增加:    export PATH=$P

2014-02-03 16:50:22 1051

原创 大数据系列8:Sqoop – HADOOP和RDBMS数据交换

Sqoop1:wgethttp://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gztar-xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gzmvsqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4cds

2014-02-03 16:49:31 811

原创 大数据系列7:Storm – 流计算

wgethttp://download.zeromq.org/zeromq-2.1.7.tar.gztar -xzvf zeromq-2.1.7.tar.gzcd zeromq-2.1.7sudo apt-get install gccsudo apt-get install g++sudo apt-get install libuuid-dev./configur

2014-02-03 16:48:39 282

原创 大数据系列6:HBase – 基于Hadoop的分布式数据库

wgethttp://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gztar-xzvf zookeeper-3.4.5.tar.gzcdzookeeper-3.4.5cpconf/zoo_sample.cfg conf/zoo.cfgviconf/zoo.cfg 

2014-02-03 16:47:31 385

原创 大数据系列5:Pig – 大数据分析平台

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gztar -xzvf pig-0.11.1.tar.gzsudo vi /etc/profile增加:      export PIG_HOME=/home/ysc/pig-0.11.1exportPATH=$PATH:$PIG_HOME/bi

2014-02-03 16:45:50 515

原创 大数据系列4:Hive – 基于HADOOP的数据仓库

wgethttp://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gztar-xzvf hive-0.11.0-bin.tar.gzcdhive-0.11.0-binsudo vi /etc/profile增加:export HIVE_HOME=/home/ysc/hive-0.10.0

2014-02-03 16:44:58 292

原创 大数据系列3:用Python编写MapReduce

vi mapper.py     输入:            #!/usr/bin/env python             importsys             for linein sys.stdin:                          line= line.strip()                     

2014-02-03 16:44:08 599

原创 大数据系列2:建立开发环境编写HDFS和Map Reduce程序

1、在eclipse中配置hadoop插件      将hadoop-eclipse-plugin-1.2.1.jar复制到eclipse/plugins目录下,重启eclipse。2、打开MapReduce视图       Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象。3、添加一个MapReduce环

2014-02-03 16:42:10 415

原创 APDPlat拓展搜索之集成Solr

APDPlat充分利用Compass的OSEM和ORM integration特性,提供了简单易用且功能强大的内置搜索特性。 APDPlat的内置搜索,在设计简洁优雅的同时,还具备了强大的实时搜索能力,用户只需用注解的方式在模型中指定需要搜索哪些字段(还可在模型之间进行关联搜索)就获得了搜索能力,而不用编写任何代码。平台自动处理索引维护、查询解析、结果高亮等支撑功能。 然而APDP

2014-02-03 10:45:32 928

Nutch相关框架视频教程 (1-20)(PDF)

Nutch相关框架视频教程 (1-20)

2014-05-29

Nutch1.7二次开发培训讲义

Nutch1.7二次开发培训讲义,非常详细

2014-03-12

Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析

Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析

2014-03-12

大数据相关框架讲义(1-11)

大数据相关框架讲义,包括:hadoop,hbase,pig,hive,mahout,storm,sqoop,spark,gora等

2014-03-12

Hadoop培训讲义(3天课程)

Hadoop培训讲义(3天课程),内容包括大数据概述、HBase、Hive、HDFS 、MapReduce等

2013-11-11

Nutch相关框架视频教程讲义 (1-20)

. Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢? 大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。

2013-09-24

Nutch公开课从搜索引擎到网络爬虫

课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。

2013-09-24

Nutch搜索引擎培训讲义

对nutch三大版本系列的开发调试运行等做了详细的讲解

2012-09-06

java检测并自动获取usb扫码枪设备输入

windows(7/xp)(32/64)系统下,有个扫码枪,是usb接口.运行tomcat后,当扫码枪扫描到条码,就将条码的数据保存下来.准确获取到扫码枪,用纯java开发.

2012-07-20

APDPlat应用级产品开发平台_共27张UML设计图

APDPlat应用级产品开发平台_共27张UML设计图

2012-04-11

Jolt获奖图书(拥有两项大奖共计58本)

  Jolt大奖素有“软件业界的奥斯卡”之美誉,共设通用类图书、技术类图书、语言和开发环境、框架库和组件、开发者网站等十余个分类,每个分类设有一个“震撼奖”(Jolt Award)和三个“生产力奖”(Productivity Award)。一项技术产品只有在获得了Jolt奖之后才能真正成为行业的主流,一本技术书籍只有在获得了Jolt奖之后才能真正奠定经典的地位。赞助商Jolt可乐的广告词是“震撼全世界”,Jolt奖就让我们看到,是谁在震撼着我们今天的世界。虽然Jolt并不起决定作用,但代表了某种技术趋势与潮流.   JOLT大奖共设有:通用图书、技术图书、配置管理、协作工具、数据库引擎/数据库工具、设计工具/建模、开发环境、企业工具、库/框架、移动开发工具、项目管理工具、安全工具、测试、测试、工具、Web开发工具、Web网站/开发者网络等分类

2012-02-16

nutch根据URL来查找快照2

nutch根据URL来查找快照2,对中文URL进行处理

2012-02-16

提高nutch运行效率的原理与方法

提高nutch运行效率的原理与方法,nutch的运行过程相对来说还是很慢的,对于一些特殊的应用来说,必须对nutch做很多修改来达到提高速度的目的,本人在这方面有深入研究,可以提高2-5倍性能。

2012-02-16

nutch根据URL来查找快照

nutch根据URL来查找快照,为了解决索引重建后无法查看快照的情况

2012-02-16

nutch解决搜索结果高亮和网页快照链接无效及网页变形

nutch解决搜索结果高亮和网页快照链接无效及网页变形

2012-02-16

nutch对指定字段进行查询及双引号查询

nutch对指定字段进行查询的程序 和 在搜索的时候加不加双引号的区别

2012-02-16

nutch支持书名号搜索原理解释及代码实现

nutch支持书名号搜索原理解释及代码实现

2012-02-16

解决Nutch摘要问题

解决Nutch摘要问题,跟nutch摘要相关的一些问题

2012-02-16

nutch分布式搜索索引热替换程序

nutch分布式搜索索引热替换程序,当使用nutch分布式搜索的时候,通过修改nutch来实现重建索引和分布式搜索分隔开,相互不影响

2012-02-16

搭建nutch开发环境步骤

详细解释了如何搭建nutch开发环境,每一个步骤都有详细说明

2012-02-16

搭建nutch web开发环境

一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了

2012-02-16

nutch乱码BUG修正

nutch乱码BUG修正,详细解释了nutch乱码的原因就修复方法,有代码和详细说明

2012-02-16

nutch部分网页乱码BUG修正

nutch部分网页乱码BUG修正,有代码和详细修改说明

2012-02-16

Nutch性能测试报告(单机模式)

Nutch性能测试报告(单机模式),分析了Nutch的单机运行性能测试情况。

2012-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除