Forever_ck-CSDN博客

原创 Navicat for MySQL 12.0安装包

废话不多说！Navicat for MySQL 12.0 安装包及详细破解教程，仅供学习使用。链接: https://pan.baidu.com/s/17cnF3nqdAUqNp6YvbWlSGQ提取码: ddy6有什么不明白可留言

2020-07-11 10:26:38 993 1

原创论软连接的作用

搭建一个Hadoop集群，为了方便就随手写了一个一键操作集群脚本如下：#!/bin/bashpcount=$#if((pcount==0));thenecho no args;exit;fiecho -------------localhost----------params=$@host=1for((host=1; host<=3; host++)); doecho ...

2019-04-22 09:18:24 2287

原创 Hive插入数据报错（解决）

1.报错如下：2.问题原因刚看到这个错误的，还以为语法有错误，后来发现原因竟然是末尾多了个双引号。特写一篇博客，警醒自己要细心，细心，再细心3.解决办法删除末尾引号即可。...

2019-01-10 20:02:11 4766

原创 Hive表中通过查询插入数据错误（解决！）

1.报错如下：2.错误原因：表中字段太多，为了简便使用了 select *，导致查询结果中的列数不匹配。3.解决办法：将 select * 改为需要的字段即可。

2019-01-08 21:05:41 2549

原创 Sqoop创建job成功，执行报错（解决！）

Sqoop创建job成功，但执行失败，报错如下：2.解决办法：尝试更换 job，执行成功！

2019-01-07 22:12:11 1554

原创 Hive中删除表失败问题（已解决！）

1.Hive删除表失败，查看logs报错如下：2.问题原因：Hive元数据有错，在Mysql中删除原先Hive元数据库，重新创建3.重启Hive，测试成功如下：

2019-01-07 18:08:26 3391

一、内存优化HBase 操作过程中需要大量的内存开销，毕竟 Table 是可以缓存在内存中的，一般会分配整个可用内存的 70%给 HBase 的 Java 堆。但是不建议分配非常大的堆内存，因为 GC 过程持续太久会导致 RegionServer 处于长期不可用状态，一般 16~48G 内存就可以了，如果因为框架占用内存过高导致系统内存不足，框架一样会被系统服务拖死。二、允许在 HDFS 的文...

2019-01-05 09:29:53 412

原创 Hive优化的十条详细策略（下）

继续我们前面地内容：上篇：https://blog.csdn.net/Forever_ck/article/details/85777938中篇：https://blog.csdn.net/Forever_ck/article/details/85780280五、并行执行Hive 会将一个查询转化成一个或者多个阶段。这样的阶段可以是 MapReduce 阶段、抽样阶段、合并阶段、limit...

2019-01-04 16:26:12 259

原创 Hive优化的十条详细策略（中）

话不多说，我们继续我们的Hive优化，上篇地址：https://blog.csdn.net/Forever_ck/article/details/857779383.6 笛卡儿积：尽量避免笛卡尔积，join 的时候不加 on 条件，或者无效的 on 条件，Hive 只能使用 1个 reducer 来完成笛卡尔积。3.7 行列过滤列处理：在 SELECT 中，只拿需要的列，如果有，尽量使用...

2019-01-04 15:48:36 413

原创 Hive优化的十条详细策略（上）

一、Fetch抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走mapreduce。配...

2019-01-04 15:16:27 630

原创 python3.7.2 安装pip报错（已解决！）

报错如下：错误原因：因为python3.7.2需要手动安装pip，正常情况下找到pip解压目录下执行上图命令即可，但是缺少 setuptools 包！解决办法：手动下载 setuotools安装包下载路径： https://pypi.org/project/setuptools/#files在解压目录下，执行 python setup.py build重新进入pip安装目录执行...

2019-01-02 10:51:54 11084

原创 MySQL约束中最好玩的一种，没有之一

顾名思义，约束就是限制。MySQL中常用的约束有很多的，比如主键约束、非空约束、自增约束等等，但我一直觉得外键约束才是其中最好玩的，接下来我们便来聊聊说它是最好玩的原因。一、外键简介（支持数据引擎为InnoDB）如果公共关键字在一个关系中是主关键字，那么这个公共关键字被称为另一个关系的外键。由此可见，外键表示了两个关系之间的相关联系。以另一个关系的外键作主关键字的表被称为主表，具有此外键...

2018-12-28 20:45:53 247

原创可能只需要花费你一分钟就能掌握的 Mysql 主键约束！

今天来介绍两种Mysql中的主键约束。一、主键定义键是表的标识列，关系数据库依赖于主键，它是数据库物理模式的基石。主键不唯一，可以使用主键组。二、主键的用途1. 唯一的表示一行记录。2. 作为一个可以被外键引用的有效对象。三、如何设置主键在创建表的同时设置主键，可以放在单字段后，也可以放在表的末尾 alter table 表名 modify 字段名字段类型 primar...

2018-12-28 19:31:48 241

原创大数据可视化工具之----Zeepelin

一、概述Zeppelin是基于 Notebook技术开发的大数据交互分析服务软件,可以基于Web界面组合多个大数据分析引擎的处理能力,并内置提供了基于Web的可视化界面,可以连接几乎所有的Apache大数据处理服务系统。二、功能Zeppelin可以满足你的数据接入、数据挖掘、数据分析、数据可视化及协同开发的需求。如：数据可视化、数据透视表、动态表单等等。三、支持语言Zeppelin in...

2018-12-27 20:21:20 1172

原创 Hadoop集群启动报错（已解决！）

在Hadoop集群启动时，报错如下：错误原因：Kafka 中莫名出现大量日志文件，导致磁盘空间不足解决办法：查找日志过大文件，删除重启即可。查找大于 200M的日志文件命令find / -size +200M -exec du -h {} \;...

2018-12-27 19:59:17 982

原创 Hive常用函数总结（下）

这篇继续我们介绍我们的函数，上篇链接：https://blog.csdn.net/Forever_ck/article/details/85268145闲话少叙，开整：current_date 获取当前日期rtrim 去除字符串右边空格split 将字符串按照指定字符切割，返回一个数组upper 和 ucase 两个函数都可以将小写字母转为大写repeat（字符...

2018-12-26 21:03:12 692

原创 Hive常用函数总结（上）

在我们开发数仓项目的过程中，我们常常需要写一些复杂的 hql 语句来完成我们的业务逻辑，今天我们就来聊聊那些Hive中自带的常用函数。一、Hive中内置函数图解二、常用函数总结：（常用的数学和日期函数）round（）四舍五入取值 floor 向下取整 ceil 向上取整sqrt 求平方根abs 求绝对值greatest 求一组数据中的最大值...

2018-12-26 20:20:15 776

原创 Hive启动报错（已解决！）

今天在测试的时候发现这样一个小错误，分享如下：错误原因：因为Hive中的真实数据是存储在Hdfs上的，所以在启动Hive前，需要先启动Hadoop集群，在启动Hadoop集群的时候，我同时启动了Hive，导致集群进入了安全模式。解决办法：第一种方法：稍等一点时间，重新启动Hive。（当然电脑配置越高，所需时间就越短）第二种方法：执行如下命令退出安全模式即可。hadoop dfsadm...

2018-12-26 19:32:53 7371

原创 Hive表关联错误（已解决！）

在Hive表中关联数据时报错如下：问题原因：两表关联时相同字段列名也相同，导致关联报错！解决方法：指定字段所属表即可！

2018-12-25 21:43:00 1730

原创 Cookie与Session的简单对比

在对比它们俩之前，我们首先先来聊聊什么是Cookie，什么又是Session？一、CookieCookie 是在 HTTP 协议下，服务器或脚本可以维护客户工作站上信息的一种方式。Cookie 是由 Web 服务器保存在用户浏览器（客户端）上的小文本文件，它可以包含有关用户的信息。无论何时用户链接到服务器，Web 站点都可以访问 Cookie 信息。有些 Cookie 是临时的，有些则是持...

2018-12-25 09:11:17 256

原创任务调度之Oozie简介

一、Oozie 简介Oozie 英文翻译为：驯象人。一个基于工作流引擎的开源框架，由 Cloudera 公司贡献给Apache，提供对 Hadoop Mapreduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。二、Oozie 的功能模块介绍2.1、模块Workflow顺...

2018-12-24 22:55:08 658

原创 ES启动时报错（已解决！）

1.root 权限下，配置ES，启动报错如下:解决办法：切换到非root用户启动！2. 切换到非root用户启动：问题原因：es文件所属用户为root解决办法：修改文件用户组 chown -R 非root用户:非root用户文件名重新启动成功：...

2018-12-24 12:01:51 3123

原创 Flume配置文件简单整理

各配置文件信息如下：一、Flume监控Hive日志信息并上传到Hdfs：# Name the components on this agent a2.sources = r2a2.sinks = k2 a2.channels = c2# Describe/configure the source a2.sources.r2.type = execa2.sources.r2.command...

2018-12-21 20:59:35 394

原创 Sqoop各种执行命令总结（详细！可直接用！）

闲话少叙，直接上命令：一、将Mysql表数据导入hdfs（可加过滤条件）./sqoop import --connect jdbc:mysql://**Mysql安装的主机IP（或映射）**:3306/数据库名 --username 用户名 --password 密码 --table 表名 --target-dir 存储在hdfs上的表名 --delete-target-dir --m 1...

2018-12-21 20:41:07 3341

原创 Hive多窗口启动异常（已解决！）

Hive安装完成后，因为默认其元数据Metastore是存储在自带的derby数据库中，所以在多窗口启动的时候会报如下异常：解决办法：配置Hive元数据存储地址为Mysql，重启Hive，问题解决，如果在重启Hive时出现异常，可尝试重启虚拟机！...

2018-12-19 19:41:38 792

原创三分钟带你解析Hive中的json字符串（详细！）

很多时候，我们会在解析hive的时候，见到json的身影，那么今天我们就来聊聊hive中是如何解析json数据的，分析如下：创建json格式表：（我们的目的是为了解析json数据，所以就简单建一个表） create table t1(json string);如果报错，参看上篇错误！https://blog.csdn.net/Forever_ck/article/details/8505...

2018-12-18 11:50:42 9980

原创 Hive创建json格式表时报错问题（已解决！！！）

hive 创建 json格式表报错如下：日志信息：问题原因：缺少对应版本的 hive.hcatalog-core jar包，下载对应版本的jar包，导入hive安装目录下的 lib 目录下，问题解决如下：jar下载地址：https://www.mvnjar.com/org.apache.hive.hcatalog/hive-hcatalog-core/1.2.1/detail.html...

2018-12-17 20:47:55 850

原创 sqoop各参数详解（全）

Apache Sqoop™是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。各参数详解如下：

2018-12-11 21:18:19 4576

原创好玩又好用的Ganglia简单介绍

如果想要了解一个新概念，我觉得最快的方式，就是明白以下几个问题：一问：它（Ganglia）是什么？Ganglia是UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。二问：它（Ganglia）有什么作用？Ganglia主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资...

2018-12-06 23:04:08 437

原创 Kafka Streams ----- 一个功能强大又易于使用的库

一、 Kafka Streams 简介Kafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大，易于使用的库。用于在Kafka上构建高可分布式、拓展性，容错的应用程序。二、 Kafka Streams 特点功能强大高扩展性，弹性，容错轻量级无需专门的集群一个库，而不是框架完全集成100%的Kafka 0.10.0版本兼容易于集成到现有的应用程...

2018-12-06 19:37:10 461

原创 Kafka producer拦截器（interceptor）详解

一、拦截器原理Producer拦截器(interceptor)是在Kafka 0.10版本被引入的，主要用于实现clients端的定制化控制逻辑。对于producer而言，interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时，producer允许用户指定多个interceptor按序作用于同一条消息从而形成一个拦截链(in...

2018-12-06 19:21:05 1066

原创 JVM详解

目录：一、JVM 概述二、原理三、规格四、体系结构五、运行时数据区解析六、JRE和JVM的区别一、JVM 概述1.1 JVM是Java Virtual Machine（即Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。1.2 Java语言一个非常重要的特点就是与平台的无关性，而实现这个特点的关...

2018-12-05 16:21:50 196

原创 MapReduce调优

一、在调优之前，我们需要清楚以下两个问题：MapReduce为什么跑的慢？MapReduce程序的瓶颈是什么？二、MapReduce程序效率的瓶颈可以概括为以下两点：2.1：计算机性能（即硬件）CPU、内存、磁盘健康、网络状况2.2：I/O操作优化1. 数据倾斜2. map和reduce数设置不合理3. map运行时间太长，导致reduce等待时间过长4. 小文件过多5....

2018-12-04 21:40:06 366

原创深入浅出大数据之HBase

一、HBase概述HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBa...

2018-12-03 18:00:33 324

原创超详细的 Hadoop集群时间同步

电脑重装了系统，需要重新搭建一个Hadoop集群，就在时间同步的时候，发现网上很多关于时间同步的步骤都不能用，就自己整理了一份，特来分享给大家：一、同步互联网时间，并修改时区依次执行如下命令; 1.1 ntpdate.ntp.api.bz 1.2 tzselect 1.3 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 1.4 ...

2018-12-03 12:23:12 1867 1

原创你不能错过的机器学习之 Mahout介绍

一、Mahout概述1.1 Mahout是什么？Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。1.2 Mahout能干嘛？Mahout 是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现...

2018-12-02 20:19:04 825

原创 Zookeeper 集群一键启动、关闭脚本

不得不说，懒在某方面也促进了人类技术的发展。。。由于测试集群的时候，Zookeeper 集群启动非常不方便，所以就简单写了个脚本，上篇还写了一个Kafka集群的脚本，想了解的朋友可以去看看：https://blog.csdn.net/Forever_ck/article/details/84677819这里把zk脚本分享给大家：因为是简单测试，所以就随便搭了三台服务器的，大家根据自己的情况...

2018-12-01 22:14:52 734

原创分布式消息中间件之Kafka（含一键启动，关闭Kafka集群）

在了解kafka前，我们首先要了解一个问题：什么叫做消息中间件？消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流，并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型，它可以在分布式环境下扩展进程间的通信。了解了什么叫做消息中间件之后，我们再来看下Kafka：一 Kafka概述1.1 Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm或者Sp...

2018-12-01 19:56:36 1053

原创日志收集之 Flume 详细介绍

今天给大家介绍个日志处理的工具。一、Flume简介Flume 提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume 只能在 Unix 环境下运行。Flume 基于流式架构，容错性强，也很灵活简单。Flume、Kafka 用来实时进行数据收集，Spark、Storm 用来实时处理数据，impala 用来实时查询。二、Flume中的角色2....

2018-11-30 19:01:34 195

原创 Java代码随机获取时间

因为一些测试需要获取时间，就写了一下代码，给大家分享一下：package Demo01;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;public class test03 { public static void main(String[] args...

2018-11-30 15:42:13 3205

大数据Hadoop核心之MapReduce详解

空空如也