柱子89-CSDN博客

转载利用 Hadoop FileSystem listStatus 遍历文件目录实现HDFS操作

Hadoop 版本 2.7.0利用 hadoop FileSystem listStatus 遍历文件目录实现HDFS操作package com.feng.test.hdfs.filesystem;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.

2017-07-19 15:40:58 6557 1

转载自定义数据类型写入SequenceFile并读出

开头对这边博客的内容做个概述，首先是定义了一个DoubleArrayWritable的类，用于存放矩阵的列向量，然后将其作为value写入SequenceFile中，key就是对应的矩阵的列号，最后(key,value)从SequenceFile中读出，与另一矩阵做乘法。完全通过IDEA在本地调试程序，并未提交集群。一般来说是将hadoop-core-1.2.1.jar和lib目录下的common

2017-07-19 15:35:45 909

转载将本地文件读成sequenceFile文件，处理海量小文件的一种方式

个人观点：当处理海量小文件时，先将小文件进行sequenceFile操作或者类似操作处理，然后再上传到HDFS系统进行下一步的处理。（如有其它建议，欢迎留言）一、直接上传本地栅格数据将导致的问题根据栅格数据的特点，每层的图片个数都为上层数量的四倍。在第20层时，仅仅第20层的图片的数量达到了“2199023255552”张（世界地图在第一层被切成了两张

2017-07-19 15:31:28 3570

转载 Nutch教程——准备篇 by 逼格DATA

实在是看不下去Nutch官方的坑爹教程了，总结一套看完能懂的Nutch教程，持续更新中。开发环境和基础：学习Nutch，必须满足以下几个条件，缺一不可：1）Linux环境，实在是没办法就在Windows上装linux虚拟机。2）熟悉Java。3）有Hadoop基础，能够编写hadoop下map reduce程序。4）能够看懂Linux Shell。下

2017-07-14 10:27:45 753

转载读取nutch爬取内容方法

读取nutch内容有如下两种方法：1 通过Nutch api SegmentReader读取。 public Content readSegment(String segPath,String url){ Text key= new Text(url); Path

2017-07-14 10:04:44 709

转载 Nutch教程——导入Nutch工程，执行完整爬取 by 逼格DATA

在使用本教程之前，需要满足条件：1）有一台Linux或linux虚拟机2）安装JDK（推荐1.7）3）安装Apache Ant下载Nutch源码：推荐使用Nutch 1.9,官方下载地址：http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip安装IDE：推荐使用Intell

2017-07-14 10:00:19 489

转载 VMWare中Ubuntu设置固定IP上网

操作系统有很多种，通常我们首先接触的是Windows，因为Windows有很好的交互桌面，易于使用，但是很多时候，我们同样需要学习其他的操作系统，如Linux，但是我们一般不再自己的电脑上装多个系统，那样会导致电脑运行比较慢，所以一般使用虚拟机软件装虚拟机，常用的虚拟机软件一般有VMWare和VirtualBox，这里使用VMWare和Ubuntu来做例子。通常在Linux中，命令行使用比

2017-06-29 15:37:21 450

原创 hadoop 2.0中配置文件详解

配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml，yarn-default.xml四个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*

2017-06-08 18:32:36 515

原创 excel判断某一列中的数据是否在另一列中（含跨sheet）

1、在B列右边的空白列中，输入如下公式：=COUNTIF($A$1:$A$7,B1)其中，$A1:$A7代表A列中的所有数据即绝对范围，B1代表B列中的一个单元格。如下图所示：2、输入完成后，点击回车。单元格的数据就自动计算出来了。其中1就代表存在，0就代表不存在。如下图所示：3、B列中，还剩下一部分数据没有进行判断。其实很简单，只要把鼠标放

2017-06-08 10:22:17 83093

原创将idea的java web项目导入eclipse

1、将将idea的java web项目导入eclipse后，目录结构和eclipse有很大不同，很多在项目右键Properties看不到，此时需修改项目所在目录的.project 文件自己的项目名称org.eclipse.jdt.core.javabuilderorg.eclipse.wst.jsdt.core.jav

2017-06-05 18:03:00 1085

转载 Map<String, String> 遍历的四种方法

Map map = new HashMap(); map.put("key1", "value1"); map.put("key2", "value2"); map.put("key3", "value3"); //第一种：普遍使用，二次取值 System.out.println("通过Map.keySet遍历key和value："); fo

2017-05-19 12:13:23 2210

原创 hadoop中输入文件用LongWritable和IntWritable的区别

这里的LongWritable的key是线的偏移量，表示该行在文件中的位置，而不是行号这里的IntWritable的key是行号

2017-05-17 17:59:58 12055 2

转载 Ubuntu 14.04中gedit打开文件出现中文乱码问题

在中文支持配置还不完整的Ubuntu 14.04中，使用gedit打开带有中文字符的文件有时会出现乱码的情况，这是由于gedit对字符编码匹配不正确导致的，解决方法如下：在终端中输入如下命令，然后重新打开gedit即可： gsettings set org.gnome.gedit.preferences.encodings auto-detected "['G

2017-05-11 13:47:41 490

转载汉字unicode编码范围

GB2312编码：1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码，收录7445个图形字符，其中包括6763个汉字。BIG5编码：台湾地区繁体中文标准字符集，采用双字节编码，共收录13053个中文字，1984年实施。GBK编码：1995年12月发布的汉字编码国家标准，是对GB2312编码的扩充，对汉字采用双字节编码。GBK字符集共收录21003个汉

2017-05-02 16:58:07 37560 4

转载 Java String.split()用法小结

在java.lang包中有String.split()方法,返回是一个数组我在应用中用到一些,给大家总结一下,仅供大家参考:1、如果用“.”作为分隔的话,必须是如下写法,String.split("\\."),这样才能正确的分隔开,不能用String.split(".");2、如果用“|”作为分隔的话,必须是如下写法,String.split("\\|"),这样才能正确的分隔开

2017-04-27 16:07:56 337

转载 Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例

本项目实现的是：自己写一个网络爬虫，对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上，一个文件对应一个标题和链接地址，然后通过分词技术对每个文件中的标题进行分词，分词后建立倒排索引以此来实现搜索引擎的功能，建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解首先要自己写一个网络爬虫由于我开始写爬虫的时候

2017-04-01 18:09:54 518

转载基于Hadoop 的分布式网络爬虫技术学习笔记

基于Hadoop 的分布式网络爬虫技术学习笔记一、网络爬虫原理Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统，比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外，还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断

2017-03-31 18:26:10 2385

转载 URL，URLConnection，HttPURLConnection的使用

URLConnection与HttPURLConnection都是抽象类，无法直接实例化对象。其对象主要通过URL的openconnection方法获得。值得注意的是：1.openConnection方法只创建URLConnection或者HttPURLConnection实例，但是并不进行真正的连接操作。并且，每次openConnection都将创建一个新的实例。2.open

2017-03-31 12:12:40 535

原创 centos 7下定时执行php脚本

1.vi /var/spool/cron/root打开root文件输入以下内容：59 23 * * * /usr/local/php/bin/php /home/wwwroot/phpscripht/test.php >> /home/wwwroot/phpscripht/log上面的意思就是每天23：59开始执行test.php./usr/local/php/bin/php 为ph

2017-03-29 09:47:36 3036

转载 PHP零基础遍历查询数据库结果集

使用mysql的方式访问$link = mysql_connect("localhost","root","snowdi");mysql_select_db("数据库");mysql_query("set names 操作数据库字符集");$result = mysql_query("select * from 表名");while($msg = mysql

2017-03-28 17:49:39 8742

转载 mahout vector 的产生方式

根据wiki mahout 产生 vector 的方式有2种： #1 from lucene index to vector Java代码 $MAHOUT_HOME/bin/mahout lucene.vector \ --output --field --dictOut > = 0}> > #2 from

2017-03-24 18:39:43 618

转载一个基于Mahout与hadoop的聚类搭建

mahout是基于hadoop的数据挖掘工具，因为有了hadoop，所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R，所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你，如何使用hadoop + mahout搭出一个简易的聚类工具。第一步：搭建hadoop平台。我使用的是ubuntu 11.04，如果没有ubuntu的开发环境，就参考我的帖子《U

2017-03-24 18:38:34 461

转载最最最简单的URL聚类

我们要发现一个富文本中的http链接，发现一些群体行为，获取URL 第一步：提取http链接使用 Jsoup 来做 Java代码 Document doc = Jsoup.parse(stream.getText()) Elements links = doc.select("a[href]") for (Element element:

2017-03-24 18:33:59 1185

转载用户查询日志(SogouQ)之查询词WordCount

输入数据来源, 用户查询日志(SogouQ), 感谢搜狗实验室! 此次选择的是精简版(一天数据, 63MB, 解压后145MB), PS1: 日志原格式是GB2312编码, 一定要记得转成UTF-8PS2: 日志格式和格式说明: // 搜狗实验室的官方说明访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL, 这个格

2017-03-24 13:12:39 2162 5

转载日志分析 mapreduce sogou

数据来源：SogouQ统计信息：对每个查询中的查询词的数目进行统计代码如下：package Sogou;import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.*;import org.apache.hadoop.conf.*;import o

2017-03-24 11:30:59 816

转载 Hive基于搜狗搜索的用户日志行为分析

问题导读1.本文是如何学习大数据的？2.用户查询中包含的中文、英文字数的平均个数,本文提出哪两个思路？3.用户访问应用的时间特点如何使用hive实现统计的？前言”大数据时代“，“大数据/云计算”，“大数据平台”，每天听到太多的大数据相关的词语，好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的。可能这与整个IT圈子的炒作也有关联，某一个方面来看其实就是一营销术语。很多

2017-03-21 16:35:29 3513 1

原创 hadoop的WordCount按照value降序排序

package org.apache.hadoop.examples;import java.io.IOException;import java.util.Random;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs

2017-03-20 18:29:27 3410 1

转载全文检索引擎Solr系列—–全文检索基本原理

场景：小时候我们都使用过新华字典，妈妈叫你翻开第38页，找到“坑爹”所在的位置，此时你会怎么查呢？毫无疑问，你的眼睛会从38页的第一个字开始从头至尾地扫描，直到找到“坑爹”二字为止。这种搜索方法叫做顺序扫描法。对于少量的数据，使用顺序扫描是够用的。但是妈妈叫你查出坑爹的“坑”字在哪一页时，你要是从第一页的第一个字逐个的扫描下去，那你真的是被坑了。此时你就需要用到索引。索引记录了“坑”字在哪一页，你

2017-03-16 12:15:18 272

原创 hadoop中reduce input records不为0，而reduce output records却为0

可能由于在执行reducer之前，执行力combinie，combine的本质就是reduce。

2017-03-15 20:21:19 2046

原创 hadoop读取hdfs文件中的中文乱码解决办法

FileSystem fs = FileSystem.get(conf);Path file = new Path("hdfs://localhost:9000/wordcount/data/word.txt");FSDataInputStream inStream = fs.open(file);BufferedReader bf=new BufferedReader(new Inp

2017-03-15 20:19:35 15077

原创 hadoop中在map和reduce方法中调试代码

Counter countPrint = context.getCounter("map方法--------------------------------------",str_name);

2017-03-15 20:14:26 616

原创 apache所有软件以及版本下载地址

http://archive.apache.org/dist/

2017-03-08 13:22:27 900

转载 MongoDB数据表基本操作

查看全部数据表> use ChatRoomswitched to db ChatRoom> show collectionsAccountChatsystem.indexessystem.users 创建数据表> db.createCollection("Account"){"ok":1} > db

2017-03-06 17:46:57 311

原创 mysql日期自动加1天

UPDATE `mytable` SET time2 = DATE_ADD(time1,INTERVAL 1 DAY) WHERE status=1

2017-03-06 15:18:11 35118 1

原创 Java中mysql拼接单引号和变量

UPDATE `mytable` SET status= "+status+" , completetime = '"+df.format(new Date())+"' WHERE Id="+Id;

2017-03-06 15:16:17 3198

转载 Navicat for MySQL使用手记(下）--实现自动备份数据库

五、备份和还原MySQL数据库在数据库的管理中，备份和还原是必须做认真做的事情，如果疏忽或者做粗糙了，那么一旦数据库故障后果不堪设想，所以Navicat同样也有备份和还原的功能，相比较创建功能，其备份功能则非常的简单。1、备份数据库在主视图窗口中选择【备份】功能按钮后，在下面的导航栏中点击【新建备份】弹出其提示窗口，在提示窗口中点击【开始】按钮执行备份命令。

2017-03-06 09:41:00 308

转载 nutch 抓取流程解析

本次笔记主要对抓取的过程进行说明。首先这里简要列下抓取命令常用参数：参数：-dir dir 指定用于存放抓取文件的目录名称。-threads threads 决定将会在获取是并行的线程数。-depth depth 表明从根网页开始那应该被抓取的链接深度。-topN N 决定在每一深度将会被取回的网页的最大数目。我们之前的抓取命令中：nohup ./bin/nutch

2017-03-03 18:20:08 936

转载 Nutch抓取流程

nutch抓取流程注入起始url(inject)、生成爬取列表(generate)、爬取(fetch)、解析网页内容(parse)、更新url数据库(updatedb)1:注入起始url(inject)org.apache.nutch.crawl.Injector注入待抓取URL,因为Nutch的抓取程序要抓取网页，肯定需要有一个或者多个入口url。nutch会按照广度优先策略

2017-03-03 17:52:01 646

转载 Nutch 快速入门(Nutch 2.2.1)

Nutch 2.x 与 Nutch 1.x 相比，剥离出了存储层，放到了gora中，可以使用多种数据库，例如Hbase, Cassandra, MySQL来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1. 安装并运行HBase为了简单起见，使用Standalone模式，参考 HBase Quick start1.1 下载，解压wget htt

2017-03-03 13:36:09 785

转载 solr unknown field报错

Solr 中添加fieldType出错在schema.xml中，我添加了一个然后我创建了一个field，使用该fieldType。然后我写了一个my.xml，内容： lawrenst lawrenst(256 MB) wang wu 执行 ja

2017-03-03 12:42:12 6300 1

数据结构中图的拓扑排序

空空如也