自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (1)
  • 收藏
  • 关注

原创 Navicat for MySQL 12.0安装包

废话不多说!Navicat for MySQL 12.0 安装包及详细破解教程,仅供学习使用。链接: https://pan.baidu.com/s/17cnF3nqdAUqNp6YvbWlSGQ提取码: ddy6有什么不明白可留言

2020-07-11 10:26:38 993 1

原创 论软连接的作用

搭建一个Hadoop集群,为了方便就随手写了一个一键操作集群脚本如下:#!/bin/bashpcount=$#if((pcount==0));thenecho no args;exit;fiecho -------------localhost----------params=$@host=1for((host=1; host<=3; host++)); doecho ...

2019-04-22 09:18:24 2287

原创 Hive插入数据报错(解决)

1.报错如下:2.问题原因刚看到这个错误的,还以为语法有错误,后来发现原因竟然是末尾多了个双引号。 特写一篇博客,警醒自己要细心,细心,再细心3.解决办法删除末尾引号即可。...

2019-01-10 20:02:11 4766

原创 Hive表中通过查询插入数据错误(解决!)

1.报错如下:2.错误原因:表中字段太多,为了简便使用了 select *,导致查询结果中的列数不匹配。3.解决办法:将 select * 改为需要的字段即可。

2019-01-08 21:05:41 2549

原创 Sqoop创建job成功,执行报错(解决!)

Sqoop创建job成功,但执行失败,报错如下:2.解决办法:尝试更换 job,执行成功!

2019-01-07 22:12:11 1554

原创 Hive中删除表失败问题(已解决!)

1.Hive删除表失败,查看logs报错如下:2.问题原因:Hive元数据有错,在Mysql中删除原先Hive元数据库,重新创建3.重启Hive,测试成功如下:

2019-01-07 18:08:26 3391

原创 Hbase十种优化

一、内存优化HBase 操作过程中需要大量的内存开销,毕竟 Table 是可以缓存在内存中的,一般会分配整个可用内存的 70%给 HBase 的 Java 堆。但是不建议分配非常大的堆内存,因为 GC 过程持续太久会导致 RegionServer 处于长期不可用状态,一般 16~48G 内存就可以了,如果因为框架占用内存过高导致系统内存不足,框架一样会被系统服务拖死。二、允许在 HDFS 的文...

2019-01-05 09:29:53 412

原创 Hive优化的十条详细策略(下)

继续我们前面地内容:上篇:https://blog.csdn.net/Forever_ck/article/details/85777938中篇:https://blog.csdn.net/Forever_ck/article/details/85780280五、并行执行Hive 会将一个查询转化成一个或者多个阶段。这样的阶段可以是 MapReduce 阶段、抽样阶段、合并阶段、limit...

2019-01-04 16:26:12 259

原创 Hive优化的十条详细策略(中)

话不多说,我们继续我们的Hive优化,上篇地址:https://blog.csdn.net/Forever_ck/article/details/857779383.6 笛卡儿积:尽量避免笛卡尔积,join 的时候不加 on 条件,或者无效的 on 条件,Hive 只能使用 1个 reducer 来完成笛卡尔积。3.7 行列过滤列处理:在 SELECT 中,只拿需要的列,如果有,尽量使用...

2019-01-04 15:48:36 413

原创 Hive优化的十条详细策略(上)

一、Fetch抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走mapreduce。配...

2019-01-04 15:16:27 630

原创 python3.7.2 安装pip报错(已解决!)

报错如下:错误原因:因为python3.7.2需要手动安装pip,正常情况下找到pip解压目录下执行上图命令即可,但是缺少 setuptools 包!解决办法:手动下载 setuotools安装包下载路径: https://pypi.org/project/setuptools/#files在解压目录下,执行 python setup.py build重新进入pip安装目录执行...

2019-01-02 10:51:54 11084

原创 MySQL约束中最好玩的一种,没有之一

顾名思义,约束就是限制。MySQL中常用的约束有很多的,比如主键约束、非空约束、自增约束等等,但我一直觉得外键约束才是其中最好玩的,接下来我们便来聊聊说它是最好玩的原因。一、外键简介 (支持数据引擎为InnoDB) 如果公共关键字在一个关系中是主关键字,那么这个公共关键字被称为另一个关系的外键。由此可见,外键表示了两个关系之间的相关联系。以另一个关系的外键作主关键字的表被称为主表,具有此外键...

2018-12-28 20:45:53 247

原创 可能只需要花费你一分钟就能掌握的 Mysql 主键约束!

今天来介绍两种Mysql中的主键约束。一、主键定义键是表的标识列,关系数据库依赖于主键,它是数据库物理模式的基石。主键不唯一,可以使用主键组。二、 主键的用途1. 唯一的表示一行记录。2. 作为一个可以被外键引用的有效对象。三、 如何设置主键在创建表的同时设置主键,可以放在单字段后,也可以放在表的末尾 alter table 表名 modify 字段名 字段类型 primar...

2018-12-28 19:31:48 241

原创 大数据可视化工具之----Zeepelin

一、概述Zeppelin是基于 Notebook技术开发的大数据交互分析服务软件,可以基于Web界面组合多个大数据分析引擎的处理能力,并内置提供了基于Web的可视化界面,可以连接几乎所有的Apache大数据处理服务系统。二、功能Zeppelin可以满足你的数据接入、数据挖掘、数据分析、数据可视化及协同开发的需求。如:数据可视化、数据透视表、动态表单等等。三、支持语言Zeppelin in...

2018-12-27 20:21:20 1172

原创 Hadoop集群启动报错(已解决!)

在Hadoop集群启动时,报错如下:错误原因:Kafka 中莫名出现大量日志文件,导致磁盘空间不足解决办法:查找日志过大文件,删除重启即可。查找大于 200M的日志文件命令find / -size +200M -exec du -h {} \;...

2018-12-27 19:59:17 982

原创 Hive常用函数总结(下)

这篇继续我们介绍我们的函数,上篇链接:https://blog.csdn.net/Forever_ck/article/details/85268145闲话少叙,开整:current_date 获取当前日期rtrim 去除字符串右边空格split 将字符串按照指定字符切割,返回一个数组upper 和 ucase 两个函数都可以将小写字母转为大写repeat(字符...

2018-12-26 21:03:12 692

原创 Hive常用函数总结(上)

在我们开发数仓项目的过程中,我们常常需要写一些复杂的 hql 语句来完成我们的业务逻辑,今天我们就来聊聊那些Hive中自带的常用函数。一、Hive中内置函数图解二、常用函数总结:(常用的数学和日期函数)round() 四舍五入取值 floor 向下取整 ceil 向上取整sqrt 求平方根abs 求绝对值greatest 求一组数据中的最大值...

2018-12-26 20:20:15 776

原创 Hive启动报错(已解决!)

今天在测试的时候发现这样一个小错误,分享如下:错误原因:因为Hive中的真实数据是存储在Hdfs上的,所以在启动Hive前,需要先启动Hadoop集群,在启动Hadoop集群的时候,我同时启动了Hive,导致集群进入了安全模式。解决办法:第一种方法:稍等一点时间,重新启动Hive。(当然电脑配置越高,所需时间就越短)第二种方法:执行如下命令退出安全模式即可。hadoop dfsadm...

2018-12-26 19:32:53 7371

原创 Hive表关联错误(已解决!)

在Hive表中关联数据时报错如下:问题原因:两表关联时相同字段列名也相同,导致关联报错!解决方法:指定字段所属表即可!

2018-12-25 21:43:00 1730

原创 Cookie与Session的简单对比

在对比它们俩之前,我们首先先来聊聊什么是Cookie,什么又是Session?一、CookieCookie 是在 HTTP 协议下,服务器或脚本可以维护客户工作站上信息的一种方式。Cookie 是由 Web 服务器保存在用户浏览器(客户端)上的小文本文件,它可以包含有关用户的信息。无论何时用户链接到服务器,Web 站点都可以访问 Cookie 信息。 有些 Cookie 是临时的,有些则是持...

2018-12-25 09:11:17 256

原创 任务调度之Oozie简介

一、Oozie 简介Oozie 英文翻译为:驯象人。一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给Apache,提供对 Hadoop Mapreduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。二、Oozie 的功能模块介绍2.1、模块Workflow顺...

2018-12-24 22:55:08 658

原创 ES启动时报错(已解决!)

1.root 权限下,配置ES,启动报错如下:解决办法: 切换到非root用户启动!2. 切换到非root用户启动:问题原因:es文件所属用户为root解决办法:修改文件用户组 chown -R 非root用户:非root用户 文件名重新启动成功:...

2018-12-24 12:01:51 3123

原创 Flume配置文件简单整理

各配置文件信息如下:一、Flume监控Hive日志信息并上传到Hdfs:# Name the components on this agent a2.sources = r2a2.sinks = k2 a2.channels = c2# Describe/configure the source a2.sources.r2.type = execa2.sources.r2.command...

2018-12-21 20:59:35 394

原创 Sqoop各种执行命令总结(详细!可直接用!)

闲话少叙,直接上命令:一、将Mysql表数据导入hdfs(可加过滤条件)./sqoop import --connect jdbc:mysql://**Mysql安装的主机IP(或映射)**:3306/数据库名 --username 用户名 --password 密码 --table 表名 --target-dir 存储在hdfs上的表名 --delete-target-dir --m 1...

2018-12-21 20:41:07 3341

原创 Hive多窗口启动异常(已解决!)

Hive安装完成后,因为默认其元数据Metastore是存储在自带的derby数据库中,所以在多窗口启动的时候会报如下异常:解决办法:配置Hive元数据存储地址为Mysql,重启Hive,问题解决,如果在重启Hive时出现异常,可尝试重启虚拟机!...

2018-12-19 19:41:38 792

原创 三分钟带你解析Hive中的json字符串(详细!)

很多时候,我们会在解析hive的时候,见到json的身影,那么今天我们就来聊聊hive中是如何解析json数据的,分析如下:创建json格式表:(我们的目的是为了解析json数据,所以就简单建一个表) create table t1(json string);如果报错,参看上篇错误!https://blog.csdn.net/Forever_ck/article/details/8505...

2018-12-18 11:50:42 9980

原创 Hive创建json格式表时报错问题(已解决!!!)

hive 创建 json格式表报错如下:日志信息:问题原因:缺少对应版本的 hive.hcatalog-core jar包,下载对应版本的jar包,导入hive安装目录下的 lib 目录下,问题解决如下:jar下载地址:https://www.mvnjar.com/org.apache.hive.hcatalog/hive-hcatalog-core/1.2.1/detail.html...

2018-12-17 20:47:55 850

原创 sqoop各参数详解(全)

Apache Sqoop™是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。各参数详解如下:

2018-12-11 21:18:19 4576

原创 好玩又好用的Ganglia简单介绍

如果想要了解一个新概念,我觉得最快的方式,就是明白以下几个问题:一问:它(Ganglia)是什么?Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。二问:它(Ganglia)有什么作用?Ganglia主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资...

2018-12-06 23:04:08 437

原创 Kafka Streams ----- 一个功能强大又易于使用的库

一、 Kafka Streams 简介Kafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大,易于使用的库。用于在Kafka上构建高可分布式、拓展性,容错的应用程序。二、 Kafka Streams 特点功能强大高扩展性,弹性,容错轻量级无需专门的集群一个库,而不是框架完全集成100%的Kafka 0.10.0版本兼容易于集成到现有的应用程...

2018-12-06 19:37:10 461

原创 Kafka producer拦截器(interceptor)详解

一、 拦截器原理Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,producer允许用户指定多个interceptor按序作用于同一条消息从而形成一个拦截链(in...

2018-12-06 19:21:05 1066

原创 JVM详解

目录:一、JVM 概述二、原理三、规格四、体系结构五、运行时数据区解析六、JRE和JVM的区别一、JVM 概述1.1 JVM是Java Virtual Machine(即Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。1.2 Java语言一个非常重要的特点就是与平台的无关性,而实现这个特点的关...

2018-12-05 16:21:50 196

原创 MapReduce调优

一、在调优之前,我们需要清楚以下两个问题:MapReduce为什么跑的慢?MapReduce程序的瓶颈是什么?二、MapReduce程序效率的瓶颈可以概括为以下两点:2.1:计算机性能(即硬件)CPU、内存、磁盘健康、网络状况2.2:I/O操作优化1. 数据倾斜2. map和reduce数设置不合理3. map运行时间太长,导致reduce等待时间过长4. 小文件过多5....

2018-12-04 21:40:06 366

原创 深入浅出大数据之HBase

一、HBase概述HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBa...

2018-12-03 18:00:33 324

原创 超详细的 Hadoop集群时间同步

电脑重装了系统,需要重新搭建一个Hadoop集群,就在时间同步的时候,发现网上很多关于时间同步的步骤都不能用,就自己整理了一份,特来分享给大家:一、同步互联网时间,并修改时区依次执行如下命令; 1.1 ntpdate.ntp.api.bz 1.2 tzselect 1.3 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 1.4 ...

2018-12-03 12:23:12 1867 1

原创 你不能错过的机器学习之 Mahout介绍

一、Mahout概述1.1 Mahout是什么?Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。1.2 Mahout能干嘛?Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现...

2018-12-02 20:19:04 825

原创 Zookeeper 集群一键启动、关闭脚本

不得不说,懒在某方面也促进了人类技术的发展。。。由于测试集群的时候,Zookeeper 集群启动非常不方便,所以就简单写了个脚本,上篇还写了一个Kafka集群的脚本,想了解的朋友可以去看看:https://blog.csdn.net/Forever_ck/article/details/84677819这里把zk脚本分享给大家:因为是简单测试,所以就随便搭了三台服务器的,大家根据自己的情况...

2018-12-01 22:14:52 734

原创 分布式消息中间件之Kafka(含一键启动,关闭Kafka集群)

在了解kafka前,我们首先要了解一个问题:什么叫做消息中间件?消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型,它可以在分布式环境下扩展进程间的通信。了解了什么叫做消息中间件之后,我们再来看下Kafka:一 Kafka概述1.1 Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm或者Sp...

2018-12-01 19:56:36 1053

原创 日志收集之 Flume 详细介绍

今天给大家介绍个日志处理的工具。一、Flume简介Flume 提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume 只能在 Unix 环境下运行。Flume 基于流式架构,容错性强,也很灵活简单。Flume、Kafka 用来实时进行数据收集,Spark、Storm 用来实时处理数据,impala 用来实时查询。二、Flume中的角色2....

2018-11-30 19:01:34 195

原创 Java代码 随机获取时间

因为一些测试需要获取时间,就写了一下代码,给大家分享一下:package Demo01;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;public class test03 { public static void main(String[] args...

2018-11-30 15:42:13 3205

大数据Hadoop核心之MapReduce详解

大数据Hadoop核心模块之MapReduce,文档有概念、案例、代码,Mapreduce中,不可多得文档!

2019-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除