自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邹中凡

Focus on Bigdata

  • 博客(47)
  • 收藏
  • 关注

原创 Mysql常用

1,Mysql 安装yum install mysql mysql-server mysql-devel -yyum install mysql-connector-java2,启动service mysqld start3,修改root密码mysql -u rootuse mysql;update user set password = passwor

2017-05-17 15:26:30 641

原创 安装配置HTTP Server

1,下载httpd的必须依赖包:http://apr.apache.org/download.cgi  下载 apr-1.5.2.tar.gz、apr-util-1.5.4.tar.gzhttp://sourceforge.net/projects/pcre/files/latest/download 下载pcre2-10.23.zip2,下载httpd包http://ht

2017-02-16 19:43:37 846

原创 Oracle数据库修改字符集

Oracle数据集修改字符集

2017-02-07 20:01:19 959

原创 ClouderaManager修改集群的IP

方法的主要思想是:由于cloudera-manager在安装的时候,会配置相应的数据库,该数据库是用来存储集群的所有的配置信息。 cloudera-mamanger每次启动的时候,都会从数据库中读取这些配置信息,因此想修改主机的ip,只需要修改存在数据库中的主机的ip即可。 具体方法 (1)首先在安装cloudera-manager的主机上,停止所有的cloudera管理进程   servi

2016-08-15 22:44:10 1843

原创 Linux之SSH登录密码验证很慢

编辑/etc/ssh/sshd_config,禁用登陆时dns反向解析。vi /etc/ssh/sshd_config将#UseDNS yesn 改为: UseDNS no

2015-11-20 15:53:35 1438

原创 Sqoop全量和增量导入数据到Oracle数据库

1,全量导入 示例: –全量导入 sqoop import –connect jdbc:oracle:thin:@10.51.103.29:1521:DW –username FMIS9999 –password=FMIS9999 –table T_EMP –num-mappers 10 –hive-import –hive-database GRC_BIGDATA –hive-table

2015-11-13 11:54:03 5860

原创 Hive数据备份和恢复

本文说明如何通过把Hive中的数据备份到磁盘中,并从磁盘中恢复到Hive中。1,把Hive中的表数据备份到磁盘中。 备份示例:use GRC_BIGDATA;insert overwrite local directory '/root/grc_bigdata/backup/src_companyinfo' ROW FORMAT DELIMITED FIELDS TERMINATED BY '|

2015-11-13 11:46:17 12473

原创 Cloudera Manager5常见问题汇总

1,在Cloudera Manager5中安装CDH时报如下错: 查看旁边的“详细信息”链接,可以发现在“正在启动 Cloudera Manager Agent…”环节有如下错误:>>IOError: [Errno 13] Permission denied: '/var/log/cloudera-scm-agent/cloudera-scm-agent.log' >>error: [Errno

2015-11-13 09:45:35 15914 1

转载 JVM的相关知识整理和学习

JVM是虚拟机,也是一种规范,他遵循着冯·诺依曼体系结构的设计原理。冯·诺依曼体系结构中,指出计算机处理的数据和指令都是二进制数,采用存储程序方式不加区分的存储在同一个存储器里,并且顺序执行,指令由操作码和地址码组成,操作码决定了操作类型和所操作的数的数字类型,地址码则指出地址码和操作数。从dos到window8,从unix到ubuntu和CentOS,还有MAC OS等等,不同的操作系统指令集以

2015-10-23 09:42:52 437

转载 Apache的MaxClients参数详解及其在Tomcat执行FullGC时的影响

这是“成为Java GC专家系列文章”的第四篇。在第一篇文章 成为JavaGC专家Part I — 深入浅出Java垃圾回收机制 中我们学习了不同GC算法的执行过程,GC如何工作,新生代及老年代的基本概念,在JDK7中你应该了解的5种GC类型以及他们的性能如何。在第二篇文章 成为JavaGC专家Part II — 如何监控Java垃圾回收机制 中我们学到了JVM到底是如何执行垃圾回

2015-10-21 20:20:07 587

转载 如何优化Java垃圾回收机制3

本文是成为Java GC专家系列文章的第三篇。在第一篇《成为JavaGC专家Part I — 深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了解的JDK7中的5种GC类型,以及这5种类型对于应用性能的影响。在第二篇《成为JavaGC专家Part II — 如何监控Java垃圾回收机制》,我解释了JVM实际上是如何执行垃圾回收

2015-10-21 20:18:07 1153

转载 如何监控Java垃圾回收机制2

本文是成为Java GC专家系列文章的第二篇。在第一篇《深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了解的JDK7中的5种GC类型,以及这5种类型对于应用性能的影响。在本文中,我将解释JVM到底是如何执行垃圾回收处理的。什么是GC监控?垃圾回收收集监控指的是搞清楚JVM如何执行GC的过程,例如,我们可以查明

2015-10-21 20:14:36 442

转载 深入浅出Java垃圾回收机制1

本文章转载至:http://www.importnew.com/1993.html对于Java开发人员来说,了解垃圾回收机制(GC)有哪些好处呢?首先可以满足作为一名软件工程师的求知欲,其次,深入了解GC如何工作可以帮你写出更好的Java应用。这仅仅代表我个人的意见,但我坚信一个精通GC的人往往是一个好的Java开发者。如果你对GC的处理过程感兴趣,说明你已经具备较大规模应用的开发

2015-10-21 19:07:42 492

转载 Kmeans聚类算法-二维度数组(Java实现)

本文章转载至:http://blog.csdn.net/cyxlzzs/article/details/7416491源码Kmeans.java文件源码如下:package com.bigdata.ml.cluster;import java.util.ArrayList;import java.util.Random;/** * 聚类算法通常用于数据挖掘,将相似的数组进行

2015-09-30 14:55:16 4237

原创 基于密度的局部离群点检测(lof算法) (Java 实现)

算法:基于密度的局部离群点检测(lof算法)输入:样本集合D,正整数K(用于计算第K距离)输出:各样本点的局部离群点因子过程:1,    计算每个对象与其他对象的欧几里得距离2,    对欧几里得距离进行排序,计算第k距离以及第K领域3,    计算每个对象的可达密度4,    计算每个对象的局部离群点因子5,    对每个点的局部离群点因子进行排序,输出。

2015-09-30 14:48:41 12668 9

原创 Oracle常用查询

1,查询表空间使用情况 select b.file_id 文件ID号, b.tablespace_name 表空间名, b.bytes/1024/1024||’M’字节数, (b.bytes-sum(nvl(a.bytes,0)))/1024/1024||’M’ 已使用, sum(nvl(a.bytes,0))/1024/1024||’M’ 剩余空间, 100 - sum(

2015-09-25 13:46:50 444

原创 Impala之概念及架构

Impala服务器是一个分布式,大规模并行处理(MPP)数据库引擎。它包括运行在CDH集群主机上的不同后台进程。Impala DaemonImpala Daemon进程是运行在集群每个节点上的守护进程,是Impala的核心组件之一。每个节点上这个进程名称为impalad。impalad 负责读写数据文件,接受来自impala-shell、Hue、JDBC或者ODBC的查询请求,与集

2015-09-22 10:45:12 4969

原创 Linux之cron任务

一.  Crontab 介绍 crontab命令的功能是在一定的时间间隔调度一些命令的执行。1.1 /etc/crontab 文件在/etc目录下有一个crontab文件,这里存放有系统运行的一些调度程序。每个用户可以建立自己的调度crontab。[root@cdh-node3 etc]# cat /etc/crontab SHELL=/bin/bashPA

2015-09-15 10:22:56 641

原创 Hadoop常见错误之HDFS

下面小编整理在工作中遇到的问题,以及解决方法。 1,Datanode启动失败错误 现象 在启动Datanode时,/var/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-cdh-node12.grc.log.out日志文件中有如下错误:Caught exception while scanning /data/dfs/dn/current. Will thr

2015-08-13 14:26:48 12170 1

原创 Centos6.6 安装Oracle 11g

一,安装环境 硬件:物理机 操作系统:Centos 6.6 64位 IP:10.51.120.12 主机名:grc-cdh03二,用root用户修改Linux的配置 1,yum安装依赖包。 yum -y install binutils compat-libcap1 compat-libstdc++.i686 compat-libstdc++.x86_64 elfutils-

2015-07-30 16:18:53 1823

原创 Linux基础命令

1,查看某个端口被哪个进程占用lsof -i : 端口号# lsof -i:22COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAMEsshd 1646 root 3u IPv4 10862 0t0 TCP *:ssh (LISTEN)# lsof -i:21050COMMAND PID USER FD TYPE DEVICE SIZE/OFF N

2015-07-30 16:03:44 2089

转载 RAID详解[RAID0/RAID1/RAID10/RAID5]

文章转载至:http://blog.chinaunix.net/uid-639516-id-2692517.html一.RAID定义RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)技术是加州大学伯克利分校1987年提出,最初是为了组合小的廉价磁盘来代替大的昂贵磁盘,同时希望磁盘失效时不会使对数据的访问受损 失而开发出一定水平的数据保护

2015-07-28 10:14:08 983

转载 Linux忘记root密码的解决办法

转载至:http://jingyan.baidu.com/article/7e440953f87f4a2fc0e2ef90.htmlLinux忘记 root密码的解决办法?这种情况虽然不是很常见,但是有些粗心的管理员长时间没有登录系统,还真会忘记密码。这时候,如果是远程管理,那就真没辙了。如果linux主机就在你身边,那还是有救的。只要你按以下步骤来操作:解

2015-07-15 09:17:01 443

转载 开源大数据查询分析引擎现状

注:此文章转载至http://www.36dsj.com/archives/30017原文如下:引言大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigt

2015-07-13 14:56:33 1118

原创 Cloudera Manager5问题之NTP问题

按照Cloudera 的官方建议,所有的CDH节点和Cloudea Manager节点都需要启动ntpd服务。要不然会报如下错误: 1)此角色的主机的运行状况为不良。 以下运行状况测试不良: 时钟偏差. 2)The host’s NTP service is not synchronized to any remote server.解决方法如下: 先配置一台NTP服务,然后所有的CDH节点都

2015-07-01 14:49:33 19838

原创 Linux基础之dd命令

1,测试写 time dd if=/dev/zero of=/tmp/iotest bs=8k count=1000000[root@grc-cdh03 ~]# time dd if=/dev/zero of=/tmp/iotest bs=8k count=1000000记录了1000000+0 的读入记录了1000000+0 的写出8192000000字节(8.2 GB)已复制,11.75

2015-06-19 15:10:34 527

原创 Linux 基础之查看CPU信息

1.查看物理cpu个数 grep ‘physical id’ /proc/cpuinfo | sort -u | wc -l2.查看核心数量 grep ‘core id’ /proc/cpuinfo | sort -u | wc -l3.查看线程数 grep ‘processor’ /proc/cpuinfo | sort -u | wc -l4.查看cpu型号 dmidecode -s p

2015-06-19 11:45:32 725

原创 Cloudera Manager5配置管理之安装Spark的Standalone

此文章介绍Cloudera Manager安装Spark的Standalone模式 1,环境信息 2,安装Spark的Standalone1,环境信息 基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2,安装Spark的Standalone模式 2.1 在Cloudera Manager中,点击“添加服务”。 2.2,添加服务向导-选择您要添加的服务类型。选

2015-06-04 11:11:24 6463 1

原创 Cloudera Manager5配置管理之配置Namenode 的HA

此文章介绍Cloudera Manager配置Hive Metastore 1,环境信息 2,配置Namenode 的HA1,环境信息 基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2,配置Namenode 的HA 2.1,进入HDFS界面,点击“启用High Availability” 2.2,输入NameService名称,这里设置为:nameserv

2015-06-04 10:52:05 11709

原创 CDH5.3.2中配置运行Spark SQL的Thrift Server

一,环境信息 CDH集群,Cloudera Manager5安装部署CDH5.X详细请见:http://blog.csdn.net/freedomboy319/article/details/44804721二,在CDH5.3.2中配置运行Spark SQL的Thrift Server 1,root用户登录CDH5.3.2集群中的某一个节点2,cd /opt/cloudera/parcels/C

2015-06-02 16:45:42 10549 3

原创 Oracle常见错误

问题说明: 目标端数据库imp之后查询相关表,报 ORA-28100。 原因: 在exp的源端有vpd策略,目标端删除vpd策略即可执行如下语句既可删除制定用户的VPD。declare str_schema varchar2(20) := 'user_name'; str_obj_name varchar2(200) ; str_group_name varchar2(20

2015-05-07 10:38:05 511

原创 Hive常见问题汇总

这里小编汇集,使用Hive时遇到的常见问题。 1,执行#hive命令进入Hive CLI时报如下错误:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHi

2015-04-02 09:58:49 51673

原创 Cloudera Manager5之安装部署CDH5.X

本文章结束安装Cloudera Manager,并部署CDH5.X。主要分如下章节介绍。1,安装准备 2,安装Clouder Manager 3,部署CDH5.X 1,安装准备 1.1 安装物理部署图 物理机硬件信息 2台HP ProLiant DL388 Gen9服务器。每台服务器的配置信息如下: - 服务器型号:HP ProLiant DL388 Gen9 - CPU

2015-04-01 11:41:59 8463

原创 Linux分区和挂载

一,环境信息 硬件:虚拟机 操作系统:Centos 6.6 64位 安装用户:root二,Parted分区工具 fsdisk不支持对2TB的磁盘做分区。如果分区大于2TB,需要使用parted工具。 parted使用: 1,输入parted,进入parted命令控制台,输入help即可看到所有的parted子命令。输入select /dev/sdb切换到/dev/sdb磁盘。

2015-03-30 15:56:29 651

原创 VirtualBox安装Centos6.6

一,环境信息 硬件:虚拟机 操作系统:Centos 6.6 64位 安装用户:root VirtualBox:Oracle VM VirtualBox Manager 4.3.26,Virtualbox的安装请见:http://blog.csdn.net/freedomboy319/article/details/44650175 安装Centos6.6。二,创建VM 1,启动Vi

2015-03-26 16:43:28 3650

原创 Centos6.6安装Virtualbox

一,环境信息 硬件:虚拟机 操作系统:Centos 6.6 64位 安装用户:root二,安装步骤 启动VNCServer,用vncviewer连接VNCServer。 1,安装关联的package#yum install kernel kernel-headers kernel-devel gcc make2,查看下载的内核代码版本# ls /usr/src/kernels/2.

2015-03-26 15:06:45 7113

转载 一文读懂机器学习,大数据/自然语言处理/算法全有了

转载至:http://www.cnblogs.com/subconscious/p/4107357.html在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。

2015-03-16 14:28:58 1385 2

原创 Hbase入门

一,安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root 需要安装JDK1.6或者以上版本。 这里安装的JDK为jdk1.7.0_75,并配置好了环境变量。二,安装Hbase 1,到http://archive.apache.org/dist/hbase/ 下载对应版本的Hbase。这

2015-03-12 08:36:57 1419

原创 Nutch2.3中的crawl和Nutch命令初探

一,环境信息 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root Nutch:Nutch2.3,安装路径:/root/nutch/apache-nutch-2.3 Hbase:Hbase0.94.14,安装路径:/root/hadoop/hbase-0.94.14 Solr:solr-4.

2015-03-10 17:26:06 5661

原创 Nutch2.3+Hbase0.94+Solr4.10.3单机集成配置安装

Nutch起源于ApacheLucene项目,是一个可扩展和可伸缩的开源网络爬虫软件项目,包括两个版本的代码库,即: 1,Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。 2,Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,

2015-03-10 14:11:11 4976 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除