邹中凡-CSDN博客

原创 Mysql常用

1,Mysql 安装yum install mysql mysql-server mysql-devel -yyum install mysql-connector-java2,启动service mysqld start3，修改root密码mysql -u rootuse mysql;update user set password = passwor

2017-05-17 15:26:30 641

原创安装配置HTTP Server

1，下载httpd的必须依赖包：http://apr.apache.org/download.cgi 下载 apr-1.5.2.tar.gz、apr-util-1.5.4.tar.gzhttp://sourceforge.net/projects/pcre/files/latest/download 下载pcre2-10.23.zip2，下载httpd包http://ht

2017-02-16 19:43:37 846

原创 ClouderaManager修改集群的IP

方法的主要思想是：由于cloudera-manager在安装的时候，会配置相应的数据库，该数据库是用来存储集群的所有的配置信息。 cloudera-mamanger每次启动的时候，都会从数据库中读取这些配置信息，因此想修改主机的ip，只需要修改存在数据库中的主机的ip即可。具体方法（1）首先在安装cloudera-manager的主机上，停止所有的cloudera管理进程　　servi

2016-08-15 22:44:10 1843

原创 Linux之SSH登录密码验证很慢

编辑/etc/ssh/sshd_config，禁用登陆时dns反向解析。vi /etc/ssh/sshd_config将#UseDNS yesn 改为： UseDNS no

2015-11-20 15:53:35 1438

原创 Sqoop全量和增量导入数据到Oracle数据库

1，全量导入示例： –全量导入 sqoop import –connect jdbc:oracle:thin:@10.51.103.29:1521:DW –username FMIS9999 –password=FMIS9999 –table T_EMP –num-mappers 10 –hive-import –hive-database GRC_BIGDATA –hive-table

2015-11-13 11:54:03 5860

原创 Hive数据备份和恢复

本文说明如何通过把Hive中的数据备份到磁盘中，并从磁盘中恢复到Hive中。1，把Hive中的表数据备份到磁盘中。备份示例：use GRC_BIGDATA;insert overwrite local directory '/root/grc_bigdata/backup/src_companyinfo' ROW FORMAT DELIMITED FIELDS TERMINATED BY '|

2015-11-13 11:46:17 12473

原创 Cloudera Manager5常见问题汇总

1，在Cloudera Manager5中安装CDH时报如下错：查看旁边的“详细信息”链接，可以发现在“正在启动 Cloudera Manager Agent…”环节有如下错误：>>IOError: [Errno 13] Permission denied: '/var/log/cloudera-scm-agent/cloudera-scm-agent.log' >>error: [Errno

2015-11-13 09:45:35 15914 1

JVM是虚拟机，也是一种规范，他遵循着冯·诺依曼体系结构的设计原理。冯·诺依曼体系结构中，指出计算机处理的数据和指令都是二进制数，采用存储程序方式不加区分的存储在同一个存储器里，并且顺序执行，指令由操作码和地址码组成，操作码决定了操作类型和所操作的数的数字类型，地址码则指出地址码和操作数。从dos到window8，从unix到ubuntu和CentOS，还有MAC OS等等，不同的操作系统指令集以

2015-10-23 09:42:52 437

转载 Apache的MaxClients参数详解及其在Tomcat执行FullGC时的影响

这是“成为Java GC专家系列文章”的第四篇。在第一篇文章成为JavaGC专家Part I — 深入浅出Java垃圾回收机制中我们学习了不同GC算法的执行过程，GC如何工作，新生代及老年代的基本概念，在JDK7中你应该了解的5种GC类型以及他们的性能如何。在第二篇文章成为JavaGC专家Part II — 如何监控Java垃圾回收机制中我们学到了JVM到底是如何执行垃圾回

2015-10-21 20:20:07 587

转载如何优化Java垃圾回收机制3

本文是成为Java GC专家系列文章的第三篇。在第一篇《成为JavaGC专家Part I — 深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程，GC是如何工作的，什么是新生代和老年代，你应该了解的JDK7中的5种GC类型，以及这5种类型对于应用性能的影响。在第二篇《成为JavaGC专家Part II — 如何监控Java垃圾回收机制》，我解释了JVM实际上是如何执行垃圾回收

2015-10-21 20:18:07 1153

转载如何监控Java垃圾回收机制2

本文是成为Java GC专家系列文章的第二篇。在第一篇《深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程，GC是如何工作的，什么是新生代和老年代，你应该了解的JDK7中的5种GC类型，以及这5种类型对于应用性能的影响。在本文中，我将解释JVM到底是如何执行垃圾回收处理的。什么是GC监控？垃圾回收收集监控指的是搞清楚JVM如何执行GC的过程，例如，我们可以查明

2015-10-21 20:14:36 442

转载深入浅出Java垃圾回收机制1

本文章转载至：http://www.importnew.com/1993.html对于Java开发人员来说，了解垃圾回收机制（GC）有哪些好处呢？首先可以满足作为一名软件工程师的求知欲，其次，深入了解GC如何工作可以帮你写出更好的Java应用。这仅仅代表我个人的意见，但我坚信一个精通GC的人往往是一个好的Java开发者。如果你对GC的处理过程感兴趣，说明你已经具备较大规模应用的开发

2015-10-21 19:07:42 492

转载 Kmeans聚类算法-二维度数组（Java实现）

本文章转载至：http://blog.csdn.net/cyxlzzs/article/details/7416491源码Kmeans.java文件源码如下：package com.bigdata.ml.cluster;import java.util.ArrayList;import java.util.Random;/** * 聚类算法通常用于数据挖掘，将相似的数组进行

2015-09-30 14:55:16 4237

原创基于密度的局部离群点检测（lof算法）（Java 实现）

算法：基于密度的局部离群点检测（lof算法）输入：样本集合D，正整数K（用于计算第K距离）输出：各样本点的局部离群点因子过程：1，计算每个对象与其他对象的欧几里得距离2，对欧几里得距离进行排序，计算第k距离以及第K领域3，计算每个对象的可达密度4，计算每个对象的局部离群点因子5，对每个点的局部离群点因子进行排序，输出。

2015-09-30 14:48:41 12668 9

原创 Oracle常用查询

1，查询表空间使用情况 select b.file_id 文件ID号, b.tablespace_name 表空间名, b.bytes/1024/1024||’M’字节数, (b.bytes-sum(nvl(a.bytes,0)))/1024/1024||’M’ 已使用, sum(nvl(a.bytes,0))/1024/1024||’M’ 剩余空间, 100 - sum(

2015-09-25 13:46:50 444

原创 Impala之概念及架构

Impala服务器是一个分布式，大规模并行处理（MPP）数据库引擎。它包括运行在CDH集群主机上的不同后台进程。Impala DaemonImpala Daemon进程是运行在集群每个节点上的守护进程，是Impala的核心组件之一。每个节点上这个进程名称为impalad。impalad 负责读写数据文件，接受来自impala-shell、Hue、JDBC或者ODBC的查询请求，与集

2015-09-22 10:45:12 4969

原创 Linux之cron任务

一. Crontab 介绍 crontab命令的功能是在一定的时间间隔调度一些命令的执行。1.1 /etc/crontab 文件在/etc目录下有一个crontab文件，这里存放有系统运行的一些调度程序。每个用户可以建立自己的调度crontab。[root@cdh-node3 etc]# cat /etc/crontab SHELL=/bin/bashPA

2015-09-15 10:22:56 641

原创 Hadoop常见错误之HDFS

下面小编整理在工作中遇到的问题，以及解决方法。 1，Datanode启动失败错误现象在启动Datanode时，/var/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-cdh-node12.grc.log.out日志文件中有如下错误：Caught exception while scanning /data/dfs/dn/current. Will thr

2015-08-13 14:26:48 12170 1

原创 Centos6.6 安装Oracle 11g

一，安装环境硬件：物理机操作系统：Centos 6.6 64位 IP：10.51.120.12 主机名：grc-cdh03二，用root用户修改Linux的配置 1，yum安装依赖包。 yum -y install binutils compat-libcap1 compat-libstdc++.i686 compat-libstdc++.x86_64 elfutils-

2015-07-30 16:18:53 1823

原创 Linux基础命令

1，查看某个端口被哪个进程占用lsof -i : 端口号# lsof -i:22COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAMEsshd 1646 root 3u IPv4 10862 0t0 TCP *:ssh (LISTEN)# lsof -i:21050COMMAND PID USER FD TYPE DEVICE SIZE/OFF N

2015-07-30 16:03:44 2089

转载 RAID详解[RAID0/RAID1/RAID10/RAID5]

文章转载至:http://blog.chinaunix.net/uid-639516-id-2692517.html一．RAID定义RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)技术是加州大学伯克利分校1987年提出，最初是为了组合小的廉价磁盘来代替大的昂贵磁盘，同时希望磁盘失效时不会使对数据的访问受损失而开发出一定水平的数据保护

2015-07-28 10:14:08 983

转载 Linux忘记root密码的解决办法

转载至：http://jingyan.baidu.com/article/7e440953f87f4a2fc0e2ef90.htmlLinux忘记 root密码的解决办法？这种情况虽然不是很常见，但是有些粗心的管理员长时间没有登录系统，还真会忘记密码。这时候，如果是远程管理，那就真没辙了。如果linux主机就在你身边，那还是有救的。只要你按以下步骤来操作：解

2015-07-15 09:17:01 443

转载开源大数据查询分析引擎现状

注：此文章转载至http://www.36dsj.com/archives/30017原文如下：引言大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigt

2015-07-13 14:56:33 1118

原创 Cloudera Manager5问题之NTP问题

按照Cloudera 的官方建议，所有的CDH节点和Cloudea Manager节点都需要启动ntpd服务。要不然会报如下错误： 1）此角色的主机的运行状况为不良。以下运行状况测试不良：时钟偏差. 2）The host’s NTP service is not synchronized to any remote server.解决方法如下：先配置一台NTP服务，然后所有的CDH节点都

2015-07-01 14:49:33 19838

原创 Linux基础之dd命令

1，测试写 time dd if=/dev/zero of=/tmp/iotest bs=8k count=1000000[root@grc-cdh03 ~]# time dd if=/dev/zero of=/tmp/iotest bs=8k count=1000000记录了1000000+0 的读入记录了1000000+0 的写出8192000000字节(8.2 GB)已复制，11.75

2015-06-19 15:10:34 527

原创 Linux 基础之查看CPU信息

2015-06-19 11:45:32 725

原创 Cloudera Manager5配置管理之安装Spark的Standalone

此文章介绍Cloudera Manager安装Spark的Standalone模式 1，环境信息 2，安装Spark的Standalone1，环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2，安装Spark的Standalone模式 2.1 在Cloudera Manager中，点击“添加服务”。 2.2，添加服务向导-选择您要添加的服务类型。选

2015-06-04 11:11:24 6463 1

原创 Cloudera Manager5配置管理之配置Namenode 的HA

此文章介绍Cloudera Manager配置Hive Metastore 1，环境信息 2，配置Namenode 的HA1，环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2，配置Namenode 的HA 2.1，进入HDFS界面，点击“启用High Availability” 2.2，输入NameService名称，这里设置为：nameserv

2015-06-04 10:52:05 11709

原创 CDH5.3.2中配置运行Spark SQL的Thrift Server

一，环境信息 CDH集群，Cloudera Manager5安装部署CDH5.X详细请见：http://blog.csdn.net/freedomboy319/article/details/44804721二，在CDH5.3.2中配置运行Spark SQL的Thrift Server 1，root用户登录CDH5.3.2集群中的某一个节点2，cd /opt/cloudera/parcels/C

2015-06-02 16:45:42 10549 3

原创 Oracle常见错误

问题说明：目标端数据库imp之后查询相关表，报 ORA-28100。原因：在exp的源端有vpd策略，目标端删除vpd策略即可执行如下语句既可删除制定用户的VPD。declare str_schema varchar2(20) := 'user_name'; str_obj_name varchar2(200) ; str_group_name varchar2(20

2015-05-07 10:38:05 511

原创 Hive常见问题汇总

这里小编汇集，使用Hive时遇到的常见问题。 1，执行#hive命令进入Hive CLI时报如下错误：Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHi

2015-04-02 09:58:49 51673

原创 Cloudera Manager5之安装部署CDH5.X

本文章结束安装Cloudera Manager，并部署CDH5.X。主要分如下章节介绍。1，安装准备 2，安装Clouder Manager 3，部署CDH5.X 1，安装准备 1.1 安装物理部署图物理机硬件信息 2台HP ProLiant DL388 Gen9服务器。每台服务器的配置信息如下： - 服务器型号：HP ProLiant DL388 Gen9 - CPU

2015-04-01 11:41:59 8463

原创 Linux分区和挂载

一，环境信息硬件：虚拟机操作系统：Centos 6.6 64位安装用户：root二，Parted分区工具 fsdisk不支持对2TB的磁盘做分区。如果分区大于2TB，需要使用parted工具。 parted使用： 1，输入parted，进入parted命令控制台，输入help即可看到所有的parted子命令。输入select /dev/sdb切换到/dev/sdb磁盘。

2015-03-30 15:56:29 651

原创 VirtualBox安装Centos6.6

一，环境信息硬件：虚拟机操作系统：Centos 6.6 64位安装用户：root VirtualBox：Oracle VM VirtualBox Manager 4.3.26，Virtualbox的安装请见：http://blog.csdn.net/freedomboy319/article/details/44650175 安装Centos6.6。二，创建VM 1，启动Vi

2015-03-26 16:43:28 3650

原创 Centos6.6安装Virtualbox

一，环境信息硬件：虚拟机操作系统：Centos 6.6 64位安装用户：root二，安装步骤启动VNCServer，用vncviewer连接VNCServer。 1，安装关联的package#yum install kernel kernel-headers kernel-devel gcc make2，查看下载的内核代码版本# ls /usr/src/kernels/2.

2015-03-26 15:06:45 7113

转载一文读懂机器学习，大数据/自然语言处理/算法全有了

转载至：http://www.cnblogs.com/subconscious/p/4107357.html在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。

2015-03-16 14:28:58 1385 2

原创 Hbase入门

一，安装环境硬件：虚拟机操作系统：Centos 6.4 64位 IP：10.51.121.10 主机名：datanode-4 安装用户：root 需要安装JDK1.6或者以上版本。这里安装的JDK为jdk1.7.0_75，并配置好了环境变量。二，安装Hbase 1，到http://archive.apache.org/dist/hbase/ 下载对应版本的Hbase。这

2015-03-12 08:36:57 1419

原创 Nutch2.3中的crawl和Nutch命令初探

一，环境信息硬件：虚拟机操作系统：Centos 6.4 64位 IP：10.51.121.10 主机名：datanode-4 安装用户：root Nutch：Nutch2.3，安装路径：/root/nutch/apache-nutch-2.3 Hbase：Hbase0.94.14，安装路径：/root/hadoop/hbase-0.94.14 Solr：solr-4.

2015-03-10 17:26:06 5661

原创 Nutch2.3+Hbase0.94+Solr4.10.3单机集成配置安装

Nutch起源于ApacheLucene项目，是一个可扩展和可伸缩的开源网络爬虫软件项目，包括两个版本的代码库，即： 1，Nutch1.x版本：一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构，并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。 2，Nutch2.x的版本：一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同，

2015-03-10 14:11:11 4976 2

空空如也

空空如也