自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(251)
  • 资源 (1)
  • 收藏
  • 关注

转载 利用 Hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作

Hadoop 版本 2.7.0利用 hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作package com.feng.test.hdfs.filesystem;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.

2017-07-19 15:40:58 6557 1

转载 自定义数据类型写入SequenceFile并读出

开头对这边博客的内容做个概述,首先是定义了一个DoubleArrayWritable的类,用于存放矩阵的列向量,然后将其作为value写入SequenceFile中,key就是对应的矩阵的列号,最后(key,value)从SequenceFile中读出,与另一矩阵做乘法。完全通过IDEA在本地调试程序,并未提交集群。一般来说是将hadoop-core-1.2.1.jar和lib目录下的common

2017-07-19 15:35:45 909

转载 将本地文件读成sequenceFile文件,处理海量小文件的一种方式

个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言) 一、直接上传本地栅格数据将导致的问题                根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张

2017-07-19 15:31:28 3570

转载 Nutch教程——准备篇 by 逼格DATA

实在是看不下去Nutch官方的坑爹教程了,总结一套看完能懂的Nutch教程,持续更新中。开发环境和基础:学习Nutch,必须满足以下几个条件,缺一不可:1)Linux环境,实在是没办法就在Windows上装linux虚拟机。2)熟悉Java。3)有Hadoop基础,能够编写hadoop下map reduce程序。4)能够看懂Linux Shell。下

2017-07-14 10:27:45 753

转载 读取nutch爬取内容方法

读取nutch内容有如下两种方法:1 通过Nutch api SegmentReader读取。         public Content readSegment(String segPath,String url){                            Text key= new Text(url);              Path

2017-07-14 10:04:44 709

转载 Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA

在使用本教程之前,需要满足条件:1)有一台Linux或linux虚拟机2)安装JDK(推荐1.7)3)安装Apache Ant下载Nutch源码:推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip安装IDE:推荐使用Intell

2017-07-14 10:00:19 489

转载 VMWare中Ubuntu设置固定IP上网

操作系统有很多种,通常我们首先接触的是Windows,因为Windows有很好的交互桌面,易于使用,但是很多时候,我们同样需要学习其他的操作系统,如Linux,但是我们一般不再自己的电脑上装多个系统,那样会导致电脑运行比较慢,所以一般使用虚拟机软件装虚拟机,常用的虚拟机软件一般有VMWare和VirtualBox,这里使用VMWare和Ubuntu来做例子。通常在Linux中,命令行使用比

2017-06-29 15:37:21 450

原创 hadoop 2.0中配置文件详解

配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-default.xml四个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*

2017-06-08 18:32:36 515

原创 excel判断某一列中的数据是否在另一列中(含跨sheet)

1、在B列右边的空白列中,输入如下公式:=COUNTIF($A$1:$A$7,B1)其中,$A1:$A7代表A列中的所有数据即绝对范围,B1代表B列中的一个单元格。如下图所示:2、输入完成后,点击回车。单元格的数据就自动计算出来了。其中1就代表存在,0就代表不存在。如下图所示:3、B列中,还剩下一部分数据没有进行判断。其实很简单,只要把鼠标放

2017-06-08 10:22:17 83093

原创 将idea的java web项目导入eclipse

1、将将idea的java web项目导入eclipse后,目录结构和eclipse有很大不同,很多在项目右键Properties看不到,此时需修改项目所在目录的.project      文件     自己的项目名称org.eclipse.jdt.core.javabuilderorg.eclipse.wst.jsdt.core.jav

2017-06-05 18:03:00 1085

转载 Map<String, String> 遍历的四种方法

  Map map = new HashMap();  map.put("key1", "value1");  map.put("key2", "value2");  map.put("key3", "value3");    //第一种:普遍使用,二次取值  System.out.println("通过Map.keySet遍历key和value:");  fo

2017-05-19 12:13:23 2210

原创 hadoop中输入文件用LongWritable和IntWritable的区别

这里的LongWritable的key是线的偏移量,表示该行在文件中的位置,而不是行号这里的IntWritable的key是行号

2017-05-17 17:59:58 12055 2

转载 Ubuntu 14.04中gedit打开文件出现中文乱码问题

在中文支持配置还不完整的Ubuntu 14.04中,使用gedit打开带有中文字符的文件有时会出现乱码的情况,这是由于gedit对字符编码匹配不正确导致的,解决方法如下:    在终端中输入如下命令,然后重新打开gedit即可:    gsettings set org.gnome.gedit.preferences.encodings auto-detected "['G

2017-05-11 13:47:41 490

转载 汉字unicode编码范围

GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉

2017-05-02 16:58:07 37560 4

转载 Java String.split()用法小结

在java.lang包中有String.split()方法,返回是一个数组我在应用中用到一些,给大家总结一下,仅供大家参考:1、如果用“.”作为分隔的话,必须是如下写法,String.split("\\."),这样才能正确的分隔开,不能用String.split(".");2、如果用“|”作为分隔的话,必须是如下写法,String.split("\\|"),这样才能正确的分隔开

2017-04-27 16:07:56 337

转载 Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例

本项目实现的是:自己写一个网络爬虫,对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上,一个文件对应一个标题和链接地址,然后通过分词技术对每个文件中的标题进行分词,分词后建立倒排索引以此来实现搜索引擎的功能,建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解首先 要自己写一个网络爬虫由于我开始写爬虫的时候

2017-04-01 18:09:54 518

转载 基于Hadoop 的分布式网络爬虫技术学习笔记

基于Hadoop 的分布式网络爬虫技术学习笔记一、网络爬虫原理Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外,还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断

2017-03-31 18:26:10 2385

转载 URL,URLConnection,HttPURLConnection的使用

URLConnection与HttPURLConnection都是抽象类,无法直接实例化对象。其对象主要通过URL的openconnection方法获得。值得注意的是:1.openConnection方法只创建URLConnection或者HttPURLConnection实例,但是并不进行真正的连接操作。并且,每次openConnection都将创建一个新的实例。2.open

2017-03-31 12:12:40 535

原创 centos 7下定时执行php脚本

1.vi /var/spool/cron/root打开root文件输入以下内容:59 23 * * * /usr/local/php/bin/php /home/wwwroot/phpscripht/test.php >> /home/wwwroot/phpscripht/log上面的意思就是每天23:59开始执行test.php./usr/local/php/bin/php 为ph

2017-03-29 09:47:36 3036

转载 PHP零基础遍历查询数据库结果集

使用mysql的方式访问$link = mysql_connect("localhost","root","snowdi");mysql_select_db("数据库");mysql_query("set names 操作数据库字符集");$result = mysql_query("select * from 表名");while($msg = mysql

2017-03-28 17:49:39 8742

转载 mahout vector 的产生方式

根据wiki mahout 产生 vector 的方式有2种: #1 from lucene index to vector Java代码  $MAHOUT_HOME/bin/mahout lucene.vector  \     --output  --field  --dictOut    > = 0}> >  #2 from

2017-03-24 18:39:43 618

转载 一个基于Mahout与hadoop的聚类搭建

mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。     第一步:搭建hadoop平台。 我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《U

2017-03-24 18:38:34 461

转载 最最最简单的URL聚类

我们要发现一个富文本中的http链接,发现一些群体行为,获取URL 第一步:提取http链接 使用 Jsoup 来做 Java代码  Document doc = Jsoup.parse(stream.getText())  Elements links = doc.select("a[href]")  for (Element element:

2017-03-24 18:33:59 1185

转载 用户查询日志(SogouQ)之查询词WordCount

输入数据来源, 用户查询日志(SogouQ), 感谢搜狗实验室! 此次选择的是精简版(一天数据, 63MB, 解压后145MB), PS1: 日志原格式是GB2312编码, 一定要记得转成UTF-8PS2: 日志格式和格式说明:    // 搜狗实验室的官方说明访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL, 这个格

2017-03-24 13:12:39 2162 5

转载 日志分析 mapreduce sogou

数据来源:SogouQ统计信息:对每个查询中的查询词的数目进行统计代码如下:package Sogou;import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.*;import org.apache.hadoop.conf.*;import o

2017-03-24 11:30:59 816

转载 Hive基于搜狗搜索的用户日志行为分析

问题导读1.本文是如何学习大数据的?2.用户查询中包含的中文、英文字数的平均个数,本文提出哪两个思路?3.用户访问应用的时间特点如何使用hive实现统计的?前言”大数据时代“,“大数据/云计算”,“大数据平台”,每天听到太多的大数据相关的词语,好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的。可能这与整个IT圈子的炒作也有关联,某一个方面来看其实就是一营销术语。很多

2017-03-21 16:35:29 3513 1

原创 hadoop的WordCount按照value降序排序

package org.apache.hadoop.examples;import java.io.IOException;import java.util.Random;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs

2017-03-20 18:29:27 3410 1

转载 全文检索引擎Solr系列—–全文检索基本原理

场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止。这种搜索方法叫做顺序扫描法。对于少量的数据,使用顺序扫描是够用的。但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第一页的第一个字逐个的扫描下去,那你真的是被坑了。此时你就需要用到索引。索引记录了“坑”字在哪一页,你

2017-03-16 12:15:18 272

原创 hadoop中reduce input records不为0,而reduce output records却为0

可能由于在执行reducer之前,执行力combinie,combine的本质就是reduce。

2017-03-15 20:21:19 2046

原创 hadoop读取hdfs文件中的中文乱码解决办法

FileSystem fs = FileSystem.get(conf);Path file = new Path("hdfs://localhost:9000/wordcount/data/word.txt");FSDataInputStream inStream = fs.open(file);BufferedReader bf=new BufferedReader(new Inp

2017-03-15 20:19:35 15077

原创 hadoop中在map和reduce方法中调试代码

Counter countPrint = context.getCounter("map方法--------------------------------------",str_name);

2017-03-15 20:14:26 616

原创 apache所有软件以及版本下载地址

http://archive.apache.org/dist/

2017-03-08 13:22:27 900

转载 MongoDB数据表基本操作

查看全部数据表> use ChatRoomswitched to db ChatRoom> show collectionsAccountChatsystem.indexessystem.users 创建数据表> db.createCollection("Account"){"ok":1} > db

2017-03-06 17:46:57 311

原创 mysql日期自动加1天

UPDATE `mytable` SET  time2 = DATE_ADD(time1,INTERVAL 1 DAY) WHERE status=1

2017-03-06 15:18:11 35118 1

原创 Java中mysql拼接单引号和变量

UPDATE `mytable` SET status= "+status+" , completetime = '"+df.format(new Date())+"' WHERE Id="+Id;

2017-03-06 15:16:17 3198

转载 Navicat for MySQL使用手记(下)--实现自动备份数据库

五、备份和还原MySQL数据库 在数据库的管理中,备份和还原是必须做认真做的事情,如果疏忽或者做粗糙了,那么一旦数据库故障后果不堪设想,所以Navicat同样也有备份和还原的功能,相比较创建功能,其备份功能则非常的简单。1、备份数据库在主视图窗口中选择【备份】功能按钮后,在下面的导航栏中点击【新建备份】弹出其提示窗口,在提示窗口中点击【开始】按钮执行备份命令。

2017-03-06 09:41:00 308

转载 nutch 抓取流程解析

本次笔记主要对抓取的过程进行说明。 首先这里简要列下抓取命令常用参数:参数:-dir dir 指定用于存放抓取文件的目录名称。-threads threads 决定将会在获取是并行的线程数。-depth depth 表明从根网页开始那应该被抓取的链接深度。-topN N 决定在每一深度将会被取回的网页的最大数目。 我们之前的抓取命令中:nohup ./bin/nutch

2017-03-03 18:20:08 936

转载 Nutch抓取流程

nutch抓取流程注入起始url(inject)、生成爬取列表(generate)、爬取(fetch)、解析网页内容(parse)、更新url数据库(updatedb)1:注入起始url(inject)org.apache.nutch.crawl.Injector注入待抓取URL,因为Nutch的抓取程序要抓取网页,肯定需要有一个或者多个入口url。nutch会按照广度优先策略

2017-03-03 17:52:01 646

转载 Nutch 快速入门(Nutch 2.2.1)

Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如Hbase, Cassandra, MySQL来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1. 安装并运行HBase为了简单起见,使用Standalone模式,参考 HBase Quick start1.1 下载,解压wget htt

2017-03-03 13:36:09 785

转载 solr unknown field报错

Solr 中添加fieldType出错在schema.xml中,我添加了一个                     然后我创建了一个field,使用该fieldType。 然后我写了一个my.xml,内容:   lawrenst   lawrenst(256 MB)   wang wu 执行 ja

2017-03-03 12:42:12 6300 1

数据结构中图的拓扑排序

数据结构中图的拓扑排序,采用邻接矩阵,没有采用栈的操作

2011-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除