sun_shang-CSDN博客

原创 hive与hbase区别

hive与hbase的区别： hive 核心将sql转换为MapReduce 将存储在hdfs上的结构化的数据映射成一张数据库表，并提供类sql语句进行查询hive的特点：高延迟存储的是结构化的数据 hive是面向分析，使用的hql语言hive不能接入业务使用 hive是面向行存储的数据仓库工具，是一种纯逻辑表 hive本身不存储数据和计算数

2017-09-14 19:41:30 2376

原创 hive数据倾斜优化

关于hive的优化一、创建表时候的优化a) 大表拆分为小表b) 如果使用外部分区表的话，要注意多级分区，比如以天为分区的话，每天为分区，以小时为分区的话，要以小时为二级分区。c) 数据存储：更改存储格式、数据压缩。二、对表数据查询的优化a) Sql语句的优化：尽可能的加入合理的过滤语句，使查询到的数据更合理、更少而有效；对于分

2017-09-10 23:20:06 1753

原创 SparkCore程序可能遇到的异常

Windows上IDEA中运行SparkCore程序可能遇到的异常 -1. null/bin/winutils.exe 原因是：windows上配置配置好hadoop的环境解决方案：按照文档进行配置("Windows环境中MR任务的三种运行方式.zip")，重启IDEA及电脑即可 -2. Exception in thread "main" org.apache.spa

2017-10-21 21:26:21 590 1

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随

2017-10-21 21:24:00 499

原创 Device not managed by NetworkManager or unavailable解决方法

原因：今天打开虚拟机，发现xshell连接不上Linux，通过主机ping 虚拟机的Ip地址，也失败。在虚拟机界面，发现虚拟机不能联网，但是主机映射，网卡配置都是正确的。在网上看到的重启网卡服务：service network restart等等，会出现如下问题：Device not managed by NetworkManager or unavailable通过网上查

2017-10-11 10:51:23 4862 1

转载 HBase常用的内置过滤器

HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时间戳定位）。通常来说，通过行键，值来筛选数据的应用场景较多。1. RowFilter：筛选出匹配的所有的行，对于这个过滤器的应用场景，是非常直观的：使用BinaryComparator可以

2017-10-08 22:54:52 625

转载 spring配置文件最全面的详解

转自： http://book.51cto.com/art/201004/193743.htm此处详细的为我们讲解了spring2.5的实现原理，感觉非常有用 Spring配置文件是用于指导Spring工厂进行Bean生产、依赖关系注入（装配）及Bean实例分发的”图纸”。Java EE程序员必须学会并灵活应用这份”图纸”准确地表达自己的”生产意图”。Spring配置文件是

2017-10-08 22:43:11 1005 1

原创 Python函数

元组字典集合列表Java中的数组[]或List()增删改、切片元组Java中的不可变数组()切片，不可更改字符串Java中的字符串‘ ‘

2017-10-02 23:58:42 356

原创 Python数据结构

python中数据结构列表元组字典集合列表Java中的数组[]或List()增删改、切片

2017-10-02 23:57:02 313

原创升级Python版本后不能使用yum命令

在Linux中升级Python后不能使用yum命令在Python命令中不能使用方向键更改命令问题：在Linux中安装Python之后，由于在xshell中使用Python命令的是不能使用方向键？答案：安装redaline库使用如下命令： #yum -y install readline-devel.* 重新编译安装Pytho

2017-09-29 21:16:41 1383

原创 sqoop数据导入与数据导出

sqoopSqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import data from a relationaldatabase management system (RDBMS) such as MySQL or Oracle in

2017-09-29 00:42:47 1096

转载 Nginx+tomcat配置集群负载均衡

转载自http://blog.csdn.net/bruce_6/article/details/38228299相信很多人都听过nginx，这个小巧的东西慢慢地在吞食apache和IIS的份额。那究竟它有什么作用呢？可能很多人未必了解。说到反向代理，可能很多人都听说，但具体什么是反向代理，很多人估计就不清楚了。摘一段百度百科上的描述：反向代理（Reverse Proxy）方式是指以代理服务器来

2017-09-27 22:11:50 284

原创 hadoop shell命令详解

hadoop的shell命令分为两种：一种是启动命令：位于sbin目录下面一种是控制/操作命令（HDFS+MapReduce+yarn），主要位于bin目录下面，其实最终的启动命令也是调用了控制命令来进行机器服务的启动，区别在于启动命令中需要使用ssh的相关命令来控制其他机器启动服务，而控制/操作命令主要是直接调用了hadoop体统的服务了接口。hadoop配置信息：hadoo

2017-09-26 00:08:42 3027

原创 nginx服务器启动失败

重启Nginx服务器的命令# service nginx restart 但是显示：env: /etc/init.d/nginx: No such file or directory经过查找发现：使用notepad++连接Linux文件系统更改文件内容的时候，右下角显示文件系统为Dos\Windows，应该设置为unix/linux格式。再次输入该命令：显示en

2017-09-25 19:18:56 2184

原创 HDFS文件系统和元数据合并流程以及namenode启动流程

一、HDFS文件系统（重要）1、namenode:接收用户操作请求；维护文件系统的目录结构；管理文件与block之间的关系、block与datanode的关系，只存储元数据。 namenode管理：namenode支持对HDFS中的目录、文件和块block做出类似文件系统的创建、修改、删除、列出文件和目录等基本操作。块存储管理在整个HDFS集

2017-09-25 00:19:20 1965

原创 HDFS 常用shell命令

hdfs命令：sbin/start-dfs.sh开启HDFSbin/hdfs bin/hdfs -help查看hdfs帮助信息bin/hdfs namenode -h查看namenode等帮助信息bin/hdfs dfs -help cp查看带有例子的帮助信息

2017-09-25 00:14:08 1066

转载 mySql中Truncate的用法

转自：http://www.studyofnet.com/news/555.html本文导读：删除表中的数据的方法有delete,truncate, 其中TRUNCATE TABLE用于删除表中的所有行，而不记录单个行删除操作。TRUNCATE TABLE 与没有 WHERE 子句的 DELETE 语句类似；但是，TRUNCATE TABLE 速度更快，使用的系统资源和事务日志资源更少。下面介绍S

2017-09-22 16:19:42 104630 3

转载 hadoop 2.x常用端口及查看方法

一、常用端口组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口，用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp服务的端口HDFSDataNode50475dfs.datanode.https.addresshttps服务的端口H

2017-09-21 14:56:01 1672 2

原创 Hbase数据存储图解与数据检索流程

Hbase数据存储图解与流程一、Hbase数据存储图解二、hbase表数据的检索流程图（读和写的流程）1、hbase在Hadoop集群中的物理架构由图中可以看出，存储模块主要包括了ZooKeeper集群、HMaster、HRegionServer。ZooKeeper： Hbase是强依赖于ZooKeeper，我们读或写一个表的数据，都会

2017-09-17 19:35:54 5129 1

原创 hive数据倾斜解决方法

Hive倾斜—不患寡而患不均一、数据倾斜的原因Hive倾斜的原因很大部分是由于sql中的join语句与group by语句。原因：对于普通的join操作，会在map端根据key的hash值，shuffle到某一个reduce上去，在reduce端做join连接操作，内存中缓存join左边的表，遍历右边的表，依次做join操作。所以在做join操作时候，将数据量多的表放在join的右边。

2017-09-10 23:54:14 5870

原创配置hive以及自定义版本MySQL

Hive的配置前言：hive作为Hadoop的数据仓库工具，将结构化的数据映射成一张表格，提供了类SQL查询语句，底层可以转化为MapReduce去执行。一、hive体系1、用户接口a) CLI command Lineb) Java JDBC/CDBCc) WEB UI 浏览器

2017-09-04 20:31:36 2816

原创 zookeepr集群的搭建

本文中我们先搭建一台，在用这一台将配置信息发送到第二台、第三台。由于zookeeper集群中挂掉一个节点，会有新的节点代替，被选举的leader也是如此。因此我们尝试一下搭建zookeeper集群，当然在最后我们也会测试效果如何。（一）伪分布式##安装ZooKeeper$ tar -zxf /opt/software/zookeeper-3.4.5.tar.gz -C /o

2017-09-03 17:02:30 1140

原创 (配置Hadoop2.x 环境搭建)完全分布式集群

完全分布式的安装一、集群规划组件PC1PC2PC3HDFSNamenodeSecondaryNamenode DatanodeDatanodeDatanodeYarn

2017-08-29 21:08:58 917

原创 VMware中克隆虚拟机

克隆虚拟机1.关闭Linux系统2. 虚拟机--》快照管理器--克隆虚拟机--》管理 --》克隆-》使用现有的快照选择完整克隆而非克隆链接3.克隆出来的虚拟机要修改主机名还有ip地址，关键是要修改网卡信息4. # vi /etc/sysconfig/network 修改主机名个人的配置为：apache(原)--》apche clone（克隆）

2017-08-27 14:46:56 502

原创 Hadoop 2.x环境搭建之单机运行模式配置

今天将5月份的Hadoop进行整理，以后争取每周一到两篇博客。

2017-08-25 20:10:09 537

sun_shang的博客