时空鱼-CSDN博客

原创总结日常暴躁

细节，空格，永远和空格，还有重开软件就好的bug势不两立

2021-08-04 17:20:21 126

在创建maven项目的时候报了一个错，卡了我好久，重装了idea和maven都不行，最后同学帮忙找出来是jdk的问题，在这里把这个bug修改的发一下，解决一下出同一个bug的朋友的问题报错：Could not transfer artifact org.springframework.boot:spring-boot-starter-actuator:pom:2.1.9.RELEASE from/to central (https://repo.maven.apache.org/maven2): su

2020-08-05 07:53:54 1784

原创 3、Spring MVC项目，测试报错

junit单元测试报错错误：java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:763) at java.security.SecureClassLoader.defineClass(SecureClassLoader

2020-07-21 08:08:35 1576

原创 4、千亿级数仓项目（二）拉链表--增量数据

周末在更新

2020-05-22 11:33:46 2359

原创 1、Kylin安装和环境配置

提醒：为了节省时间安装kylin的配置文件就不写第二遍了，直接把写好的笔记分享出来01、安装Hbase1.1.1版本(一)https://app.yinxiang.com/fx/b6fbc5ff-4eac-4d86-aa6a-ad5b237b7fb202、Kylin（二）环境搭建（安装、整合Spark引擎）https://app.yinxiang.com/fx/c60e086d-64c5-48f0-a6c9-a7dd7d02b17902、kylin.properties文件https://app

2020-05-13 19:51:10 1789

原创 3、千亿级数仓项目（一）在mysql建表通过kettle把数据导入到hive表中

导出parquet输出文件1、在mysql创建10张表，并且导入数据2、在hive中创建10张表（注意表是否分区）3、使用kettle把mysql的数据导入到hive中使用到的组件表输入、字段选择、parquet output流程图1、表输入配置2、字段选择注意：字段选择的字段顺序和字段类型要和创建的表一致字段选择指定日期格式3、Parquet output注意...

2020-05-05 20:27:19 3071

原创 2、用Kettle生成日期维度数据（一）使用kettle生成2019年日期文件保存到hive表中

1、2、需要生成的字段名类型示例值中文名date_key string 20000101 代理键date_value string 2000-01-01 年-月-日day_in_year string 1 当年的第几天day_in_month string 1 当月的第几天is_f...

2020-05-04 17:13:05 4661 1

原创 1、Kettle题目（一）多行转一行，一列转多行（一）

1、多行转一行自定义常量数据Integer 类型的id ，String类型的nameid name1 a1 b1 c2 d2 e2 f2、一列转多行自定义常量数据Integer 类型的id ，String类型的nameid name1 a,b,c2 e,g第一步：转换图如下第二步：部署数据和字段设置自定义数据列分隔符和新字段名设置日志输出字段最后运行...

2020-05-03 18:01:15 3848

原创 anxiao的HBase和Mapreduce

14、HBase与MapReduce的集成HBase当中的数据最终都是存储在HDFS上面的，HBase天生的支持MR的操作，我们可以通过MR直接处理HBase当中的数据，并且MR可以将处理后的结果直接存储到HBase当中去需求：读取HBase当中一张表的数据，然后将数据写入到HBase当中的另外一张表当中去。注意：我们可以使用TableMapper与TableReducer来实现从HBase当...

2020-01-07 08:47:33 1503

原创 anxiao的HBase的API

HBase的java代码开发熟练掌握通过使用java代码实现HBase数据库当中的数据增删改查的操作，特别是各种查询，熟练运用第二步：开发javaAPI操作HBase表数据1、创建表myuserpublic static void createTable() throws IOException { Configuration conf =new Configuration(...

2020-01-06 10:41:06 1537

原创 anxiao的学习HDFS的API

package com.czxy.demo02;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;im...

2020-01-06 10:23:29 1528 1

原创 05.Apache Hbase介绍和使用

hbase 的安装部署1、软件包上传解压2、配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-masters6、拷...

2019-12-13 20:19:48 2054 2

原创 04、Apache Hue与软件的集成

1、Hue集成HDFS注意:修改完HDFS相关配置之后，需要把配置scp给集群中每台集群，重启hdfs集群第一步：修改core-site.xml配置添加下面代码cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim core-site.xml<prop...

2019-12-10 20:00:57 1477 2

原创 03、Apache Flume简单案例

案例一：接收telent数据使用网络telent命令向一台机器发送一些网络数据，然后通过flume采集网络端口数据第一步：开发配置文件根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)配置我们的网络收集的配置文件在flume的conf目录下新建一个配置文件（采集方案）vim /export/servers/apache-flume-1.8.0-bin/conf/...

2019-12-06 20:44:34 1464 3

原创 02、Apache Flume概念和安装

一、Apache Flume1、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件Flume的核心把数据从数据源(Source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在数据送到目的地(sink)后，flume在删除主键缓存的数据。2、运行机制Flume系统中核心的角色是agent，agent本...

2019-12-05 09:32:31 1412 1

原创 01、Sqoop的介绍和安装

1.Sqoop安装安装sqoop的前提是已经具备java和hadoop的环境。第一步：上传压缩包解压tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha -C /export/servers第二步：在文件里面添加配置cd /export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/confmv sqo...

2019-11-28 14:43:53 1442 3

原创 02.Hive的特点和基本操作

Hive的访问方式1、在Hive客户端，配置hive到环境变量的前提下，在节点的任意位置直接数据hive + 回车2、启动hiveserver2 服务在节点上写入下面命令开启服务hive --service hiveserver2输入命令之后第一个窗口呈现加载状态开启新窗口进行连接进入beelin的shell窗口：cd /export/servers/hive-1.1.0-c...

2019-11-20 16:21:22 1900 2

原创 01.Hive安装和环境准备

Hive基本概念是一个基于Hadoop的数据仓库工具，可以将结构化数据映射成一张数据表，并提供类SQL的查询功能安装Hive1、derby版hive直接使用：1、上传Hive包到/export/softwares解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C /export/servers/...

2019-11-19 18:32:57 1490 3

原创 14.Hadoop之MapReduce（二）

Shuffle(混洗)shuffle 输入是key value的 listshuffle 输出是key value的listMapReduce计算任务的步骤第1步：InputFormatInputFormat 到hdfs上读取数据将数据传给Split第2步：Split Split将数据进行逻辑切分将数据传给RR第3步：RRRR:将传入的数据转换成一行一行的数据，输出行首字母偏移...

2019-11-18 21:01:57 1493 3

原创 13.Hadoop之MapReduce（一）计算框架

计算框架：MapReduce计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。并行计算框架一个大的任务拆分成多个小任务，将多个小任务分布到多个节点上。每个节点同时计算Hadoop为什么比传统技术方案快1.分布式存储2.分布式并行计算3.节点横向扩展4.移动程序到数据端5.多个数据副本MapReduce核心思想分而治之，先分后和：将一个大的、复杂的工资或...

2019-11-12 22:00:35 1465 3

原创 12.DataNode多目录配置，开启HDFS权限，小文件合并，HDFS快照

Datanode多目录配置大数据节点数据硬盘的配置方法：多个硬盘。每个硬盘独立挂载硬盘1 /mnt/disk1硬盘2 /mnt/disk2硬盘3 /mnt/disk3硬盘4 /mnt/disk4dfs.datanode.data.dir/mnt/disk1/datanodeDatas，/mnt/disk2/datanodeDatas，/mnt/disk3/datanodeDa...

2019-11-12 11:17:28 1568 1

原创 02.Wordcount跑代码ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java

错误：ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException出现原因：在windows中没有配置hadoop环境变量解决办法：第一步：安装hadoop到windows中比如安装：D:\dev\source\hadoop\hadoop-2.7.4...

2019-11-12 11:13:42 1575 1

转载 05.cap 原则面试加分项

CAP原则又称CAP定理，指的是在一个分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（Partition tolerance）。CAP 原则指的是，这三个要素最多只能同时实现两点，三者不能同时实现，同时P（分区容错性）必须实现。一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）可用性（...

2019-11-07 21:35:16 1499 2

原创 10.Hadoop使用SNN的FSimage和Edits还原Namenode

1.关闭集群切换目录[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0关闭集群[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/stop-all.sh2.删除日志Fsimage 和edits删除editsrm -rf /export/servers/hadoop-2.6.0-cdh...

2019-11-06 17:16:38 1504 2

原创 11.Hadoop之HDFS新增节点与删除节点（六）重点

HDFS新增节点第一步：由纯净（没有进行过太多操作的）的虚拟机克隆出一台新的虚拟机，作为新的节点第二步：修改新节点的mac地址和ip地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修改ip地址删除mac地址行vim /etc/sysconfig/network-scripts/ifcfg-eth0第三步：关闭...

2019-11-06 17:14:09 1566 1

原创 09.Hadoop之HDFS的Fsimage，Edits和SecondaryNameNode工作原理（五）重点

Fsimage，Edits fsimage记录HDFS文件系统的镜像或快照（周期性记录）（此文件相对较小）Edits 记录客户端对集群进行所有的增、删、改、追加等操作（没有使用Secondary NameNode之前，不是周期性生成）（此文件相对较大）Fsimage Edits作用：用于还原集群上次关闭时的状态。还原时将两个文件加载到内存，检查，合并最终生成一个新的Fsimage。原本的E...

2019-11-05 20:35:05 1455

原创 08.Hadoop之HDFS的特征，缺点，高级命令和安全模式（四）重点

HDFS特性 1、海量数据的存储：HDFS可横向扩展，其存储的文件可以支持PB级别的数据 2、高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动恢复 3、大文件存储：HDFS采用数据块的方式存储数据，将一个大文件切分成一个小文件，分布存储HDFS缺点1、不能做低延迟数据访问：HDFS针对一次性读取大量数据继续了优化，牺牲了延迟性2、不适合大量的小文件存储： ...

2019-11-05 15:08:57 1460 1

原创 07.Hadoop之HDFS的Shell命令操作（三）

（1）-help：输出这个命令参数bin/hdfs dfs -help rm（2）-ls: 显示目录信息hdfs dfs -ls /（3）-mkdir：在hdfs上创建目录hdfs dfs -mkdir -p /aaa/bbb/cc/dd（4）-moveFromLocal从本地剪切粘贴到hdfshdfs dfs -moveFromLocal /home/Hadoop/a.t...

2019-11-05 15:07:02 1443

原创 06.Hadoop之HDFS文件读写流程（二）小白必看

HDFS文件读写流程（重点）1、Client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否存在，父目录是否存在，返回是否可以上传2、Client请求第一个block该传输到哪些DataNode服务器上3、NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：A,B,C4、Client请求3台...

2019-11-04 20:54:00 1482

原创 05.Hadoop之HDFS基本介绍（一）小白必看

HDFS是什么？1：是Hadoop Distribut File System的简称2：是hadoop分布式文件系统3：是hadoop核心组件之一，作为最底层的分布式存储服务而存在分布式文件系统解决大数据存储问题。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。HDFS使用Master和Slave结构对集群...

2019-11-04 20:51:34 1483

原创 04.大数据集群安装部署 (二 ) 安装hadoop 小白必看

(友情提示以下下面创建的路径跟我写的一样操作起来更便捷,同时主机名设置成node01,node02,node03)第一步:上传压缩包并解压文件创建一个文件存放压缩包：mkdir -p /export/soft创建一个文件夹存放解压包：mkdir -p /export/servers解压文件到指定文件中tar -zxvf hadoop-2.6.0-cdh5.14.0.tar....

2019-11-04 09:43:23 1485 3

原创 03.大数据集群安装部署(一) linux环境安装小白必看

准备一台服务器进行下面操作之后再克隆或者克隆之后进行下面操作然后把相对应的文件远程连接复制到其他服务器中（拷贝多个的时候 scp -r）注意：ip和主机名之后再设置更这个配置里面一样就行了第一步：准备一台服务器克隆第二步：远程连接打开selinux文件vim /etc/selinux/config第三步：关闭防火墙，设置开启不自启/etc/init.d/iptables sto...

2019-10-31 21:12:45 1480 5

原创 02.大数据为什么快

大数据比传统数据快大数据比传统数据快的原因图形介绍：1.传统数据纵向扩展服务器数量不变，配置越来越高（发生变化，配置有上限）大数据横向扩展配置不变，服务器数量越来越多（发生变化，服务器数量有钱就无上限） 2.传统数据资源（cpu/内存/硬盘）集中大数据资源（cpu/内存/硬盘）分布(前提：同等配置下) 3.传统数据单份...

2019-10-31 21:05:39 1593 1

原创 13.linux多台服务器快速免密互相登录

多台服务器快速免密互相登录使用scp远程拷贝1.在第一台服务器下面生成公钥私钥免密登录本机2.把.ssh这个文件拷贝到其他主机上面去scp .ssh 主机名:这样每个主机的密钥是相同的就能互相免密登录对方了...

2019-10-29 16:16:30 1531 1

原创 01.大数据入门知识

大数据：指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。大数据的主要特点：海量化TB到PB级别多样化非结构化，半结构化，结构化.. 快速化处理速度快高价值快速分析下发挥更高的数据价值大数据能做什么:1.海量数据快速查询2.海量数据的存储(数据量大,单个大文件)3.海量数据快速计算...

2019-10-25 14:42:28 1403 1

原创 01.mysql报1045错误进行修改详细步骤

问题mysql 1045错误解决方案打开mysql错误如下第一步:找到c盘下面的my.ini文件(新一点的版本应该是my-default.ini文件)第二步：在文件的[mysqld]前面添加 skip-grant-tables(添加这个可以不用输入用户的密码)然后去服务里面重启一下mysql(注意版本不同名字不同)第三步：打开cmd输入mysql -uroot -p出现Ent...

2019-10-24 19:57:43 1478 1

原创 12.Liunx的yum局域网络实现超详细

网络yum源实现方式（注意至少开启两个服务器）角色1 yum的服务器角色2 普通服务器1.检查yum的服务器的httpd服务是否安装 rpm -qa | grep httpd2.在yum的服务器上配置本地yum源 (跟之前yum配置操作一样)3.设置软链接在 /var/www/html目录下可以找到yum 源的数据列如:ln -s /mnt/cdrom /var/www/html/cd...

2019-10-22 11:41:17 1453 1

原创 11.linux 虚拟机三台集群搭建CentOS 超详细

1.在虚拟机中实例三个虚拟机主机，三个虚拟主机配置ip，两两之间可以ping通2.关闭防火墙（需要在所有的主机中进行设置）/etc/init.d/iptables stopchkconfig iptables off3.关闭selinux（需要在所有的主机中进行设置）编辑文件 vim /etc/selinux/config修改成 SELINUX=disabled5.配置主机与ip的对...

2019-10-21 17:24:21 2105 1

原创 06.Linux安装JDK,tomcat,和mysql安装和乱码修改小白都能看懂

source 让我们配置的环境变量重新生效JDK安装1.创建文件夹mkdir -p /export/softmkdir -p /export/install切换目录[root@node01 /]# cd /export/soft[root@node01 install]# rz然后找到存放在目录下的两个文件上传上传之后用 ll 查看如下效果把jak压缩包解压到 /export/...

2019-10-18 20:19:13 1401 1

原创 05.Linux中挂载CentOS镜像以及配置本地yum源超详细小白都能看懂

1.5 挂载 ios持有系统镜像光驱因为 linux系统镜像中包含了常用的软件包, 就不用从网上下载了所以需要挂载持有系统镜像的光驱第一种挂载方法1.5.1操作步骤1.点击设置进入到图片下面然后勾选框框里面的最后确定2.创建目录/mnt/cdrom输入lsblk -f查看是否查找sr0如果存在说明系统镜像在光驱中了进行下一个操作3.通过mount /dev/sr0 /...

2019-10-17 20:52:24 4142

空空如也

空空如也