谁的青春是一朵花？-CSDN博客

原创 ParserError(‘Error tokenizing data. C error: Expected 7 fields in line 12881, saw 8\n‘,)

ParserError(‘Error tokenizing data. C error: Expected 7 fields in line 12881, saw 8\n’,)原因是读取csv文件时，默认分隔符是’,’，但是字段中存在’,’，导致python分列时多分了，我的办法是将这些数据过滤掉。pd.read_csv(csv_file_path,error_bad_lines=False)...

2021-10-27 19:09:47 1134

原创 FileBeat: error loading config file: yaml: did not find expected key

在运行./filebeat时报出error错误：Exiting: error loading config file: yaml: line 197: did not find expected key发现是格式错误，空格多了，去除点多余的空格#============================== Kafka Output ===============================output.kafka: # initial brokers for reading cluster

2020-12-30 09:35:51 7985

原创 Hbase中的LSM树原理

前言在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。本文先由B+树来引出对LSM树的介绍，然后说明HBase中是如何运用LSM树的。回顾B+树为什么在RDBMS中我们需要B+树（或者广义地说，索引）？一句话：减少寻道时

2020-12-14 14:42:53 896

原创 Scala 隐式转换

隐式转换的定义当编译器第一次编译失败的时候，会在当前的环境中查找能让代码编译通过的方法，用于将类型进行转换，实现二次编译隐式转换的作用隐式转换可以在不需改任何代码的情况下，扩展某个类的功能。隐式解析机制1）说明（1）首先会在当前代码作用域下查找隐式实体（隐式方法、隐式类、隐式对象）。（一般是这种情况）（2）如果第一条规则查找隐式实体失败，会继续在隐式参数的类型的作用域里查找。类型的作用域是指与该类型相关联的全部伴生对象以及该类型所在包的包对象。什么时候用到隐式转换当我知道这个类中一定存在对

2020-12-06 15:55:11 115

原创 Spark源码分析+图解过程

本次以我们开发过程中最常用到的yarn-cluster模式为例，深度解读spark作业提交全流程、以及在不同节点上的通信机制，深入细致解读spark任务切分的机制，及后期分配任务的过程。资料来源于公众号大数据那些事YarnCluster模式提交流程全流程大致如此，其中，Driver端和Executor端的通信机制设计巧妙，它保证了分布式计算节点一致性，是一大亮点在资源分配的同时，另一条主线任务切分同等重要，在spark提交过程中最为细致和复杂。...

2020-12-06 13:03:41 293 1

原创 Kylin架构原理及构建过程

所有维度组合的Cuboid作为一个整体，称为Cube。Kylin架构从hive中获取元数据信息，通过cube构建引擎将一个个key、value数据存入hbase中。1）REST ServerREST Server是一套面向应用程序开发的入口点，旨在实现针对Kylin平台的应用开发工作。此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Restful接口实现SQL查询。2）查询引擎（Query Engine）当cube准备就绪后，查询引擎就能

2020-12-06 12:27:09 417

原创 Kylin Cube构建优化

在优化过程中，我们应该在两个方面去考虑，cube构建+查询速率，接下来我也是通过两方面去概述。1.使用衍生维度（derived dimension）：衍生维度用于在有效维度内将维度表上的非主键维度排除掉，并使用维度表的主键（其实是事实表上相应的外键）来替代它们。Kylin会在底层记录维度表主键与维度表其他维度之间的映射关系，以便在查询时能够动态地将维度表的主键“翻译”成这些非主键维度，并进行实时聚合。将维度表上的非主键排除，在使用时用维度表主键来代替（其实是事实表上相应外键）,不过kylin会在底层

2020-12-06 12:21:00 119

原创优化

Hadoop调优2.3 常用的调优参数1）资源相关参数（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明mapreduce.map.memory.mb一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。mapreduce.reduce.memory.mb一个ReduceTask可使用的资源上限（单位:MB），默认为1024。如果Redu

2020-11-03 21:07:59 69

原创电商数仓细节点

电商数仓1.1为什么选择 flume-kafka-flume如果直接用taildir source-kafka channel - hdfs sink 会产生大量网络IO，效率并不高1.2如何同步时间1.2.1 修改系统时间，修改日志时间。但不严谨，前一天的数据有可能被存到下一天1.2.2 给每条数据head头加上时间戳，从body中获取，按照head分区，使用interceptor拦截器1.3目标数据1.3.1页面1.3.2事件1.3.3曝光1.3.4启动1.3.5错误1.4数据上

2020-11-03 10:11:38 461

原创 Utils工具类+配置文件

体系图中涉及的技术名词解释如下：1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySql）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；3）Kafka：Kafka是一种高吞吐量的分布式发

2020-11-03 10:08:42 431

原创 Hadoop的shell脚本文件

jpsall#!/bin/bashfor i in hadoop102 hadoop103 hadoop104do echo ===================== $i ===================== ssh $i "jps $@ | grep -v Jps"donemyhadoop.sh#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in"st

2020-08-26 19:03:57 353

原创 Zookeeper

Zookeeper = 文件系统 + 通知机制Zookeeper内部原理监听器原理（面试重点）选举机制（面试重点）（1）半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。（2）Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。（3）以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zook

2020-08-16 16:36:38 82

原创我的参数调优

1.资源相关参数（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明mapreduce.map.memory.mb一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。mapreduce.reduce.memory.mb一个ReduceTask可使用的资源上限（单位:MB），默认为1024。如果ReduceTask实际使用的资源量超过该值，则会

2020-08-14 17:49:46 254 1

原创 HDFS+YARN

1.HDFS组成架构HDFS文件上传下载删除更名移动@Testpublic void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration(); configuration.set("dfs.replication", "2"); FileSy

2020-08-12 18:42:21 174

原创 MapReduce工作机制+Shuffle机制

分为Map和Reduce阶段map阶段分为五个阶段：Read阶段、Map阶段、Collect阶段、溢写阶段、Merge阶段其中Read阶段：先对目标文件进行信息的获取，job通过提交job.split、wc.jar和job.xml给Yarn Resource Manager，形成一个Mr app Master计算出Map Task数量，启动相应的MapTask,MapTask通过InputFormat获得RecordReader方法,从输入InputSplit中解析出一个个key/value。Map

2020-08-12 17:30:00 176

weixin_42476127的博客