下山化缘的DJ-CSDN博客

原创 mysql时间类型

mysql时间类型：datetime，timestamp，date，time，year几种时间类型比较如下：1.datetimeDATETIME 用于表示年月日时分秒,是 DATE 和 TIME 的组合,并且记录的年份（见上表）比较长久。如果实际应用中有这样的需求,就可以使用 DATETIME类型。2.timestampTIMESTAMP 用于表示年月日时分秒,但是记录的年份（见上表）比较短暂。TIMESTAMP 和时区相关,更能反映当前时间。当插入日期时,会先转换为本地时区后再存

2022-01-14 14:47:29 5398 1

原创 yarn队列设置

yarn队列设置

2022-01-06 18:23:22 671 1

转载 python 进行 etl

#python语言import pandas as pdimport timedata = pd.read_excel('ETL_数据清洗挑战.xlsx','测试数据',dtype=str)#读取数据data_dict = data.to_dict(orient = 'dict')#将数据转换为字典#print(data['CHECK_POINT'])listDate = []#创建列表并初始化for cell in data_dict['CHECK_POINT'].values():#遍

2021-12-24 17:52:12 1593

原创数据仓库模型

https://zhuanlan.zhihu.com/p/137454121

2021-12-24 17:37:48 387

原创 hive行转列，列转行函数使用说明

hive,concat_ws(),collect_set(),collect_list(), LATERAL VIEW explode

2021-12-16 18:53:19 1495

原创 hive时间函数的使用

时间函数的变形select day -- 时间 ,date_add(day,1 - dayofweek(day)) as week_first_day -- 本周第一天_周日 ,date

2021-12-15 18:13:22 4495

原创 Sqoop基本使用

sqoop，它是一款开源的工具，主要用于实现关系型数据库与hadoop中hdfs之间的数据传递，其中用的最多的就是import，export了。sqoop的安装配置也是非常简单的，这里就不说明了，本文主要针对如何使用sqoop实现oracle到hive(hdfs)的数据传递进行试验。对于比较全的参数使用，可以到sqoop的官方文档http://sqoop.apache.org/docs/ 查看，以下是这次会用到的一些参数讲解：-m N ：开启N个map来导入数据–query ：从查询结果导入数据，

2021-12-08 19:00:57 1401

原创 linux(Centos7)——单机部署 Clickhouse

这里仅仅介绍离线 rpm安装1.首先下载安装包第三方：https://packagecloud.io/Altinity/clickhouse/官方：https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/2.上传linux 某个目录下：3.安装：只需4个包就行，尽量按照以下顺序sudo rpm -ivh clickhouse-common-static-20.8.3.18-1.el7.x86_64.rpmsudo rpm -ivh clic

2021-07-28 17:43:51 356

原创用scala 写冒泡排序

排序原理：第一轮排序，会拿第一个数去和后面n-1 个数进行比较，直至将最小的数排到第一位；第二轮会拿第二个数和后面的n-2个数进行比较，直至将 n-2个数中最小的数排到第二位第三轮依次类推。。。代码实现：bject function_01 { def main(args: Array[String]): Unit = { val array=Array(10,9,8,7) bSort(array) }def bSort(arr: Array[Int]): Unit

2021-07-16 14:25:47 452

原创 idea中scala代码自动补全

IDE是IDEA，scala中，在new一个对象时，通过快捷键ctrl + Alt + V自动补全变量，但是我还想自动补全变量的类型，就像图中所示，在Specify type前面自动帮你打勾。

2021-07-15 10:52:23 2150

原创调度器 XXL(X)和 Dolphin(D)的对比

XXL(X)和 Dolphin(D)的对比1、定位： X是一个轻量级分布式的任务调度框架； D是解决数据处理流程中错综复杂的依赖关系的框架。2、可视化流程定义： x：无，可配置任务级联触发; D：有,所有流定时操作都是可视化的，通过拖拽模块来绘制DAG,配置数据源及资源，同时对于第三方系统，提供api方式的操作。3、任务监控支持： x: 无； D：任务状态、任务类型、重试次数、任务运行机器、可视化变量等关键信息一目了然,可实时可视化监控任务的运行状态。4、自定义

2021-07-14 15:03:51 1991

原创 docker的权限问题：Got permission denied while trying to connect to the Docker daemon socket....

在普通用户权限下运行docker 命令是需要加上 sudo 不然出现以下问题：原因：一般普通用户没有权限启动docker服务，只能通过sudo来通过root用户权限来启动docker；解决办法：把普通用户加入到docker组中，除root用户外都是普通用户。步骤： # 添加docker用户组$ sudo groupadd docker #将登陆用户加入到docker用户组中$ sudo gpasswd -a $USER docker #更新用户组$ newgrp

2021-07-05 15:27:49 652

原创 python解析地址

根据已有地址，解析出具体的省市区import requestsimport jsonimport pandas as pdfrom pyhive import hiveimport os#ak 高德，百度，腾讯都可以申请ak = '你的ak'##获取经纬度def get_lat(address): if len(address) < 2: print('输入地址不合法') return 0,0 else: url = '

2021-06-22 15:08:15 1156

原创 pyhton创建目录的方法

#创建目录方法def mkdir(path): # 去除首位空格 path=path.strip() # 去除尾部 \ 符号 path=path.rstrip("/") # 判断路径是否存在 isExists=os.path.exists(path) # 判断结果 if not isExists: os.makedirs(path) print('成功创建目录:'+path)...

2021-06-22 14:45:46 391

原创 HDFS中小文件产生的原因以及解决

小文件产生的原因： 1、实时处理：比如我们使用 Spark Streaming 从外部数据源接收数据，然后经过 ETL 处理之后存储到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。 2、hive中对表执行insert操作，每次插入都在表目录下形成一个小文件,这个小文件就是MR任务reduce端的输出文件。解决：insert overwrite table t_new as select * from t_old; 3、hive中执行简

2021-06-14 19:12:09 2183 2

原创 hive正则表达清洗

regexp_replace(trim(e.cat_id),"[@^…?-`’"",*./ \，❌✘⏰。〞ヽ :\]”、\[ +]",’’)splid的用法：语法：split(str string, regex string) -- 使用 regex 分割字符串 str返回值是一个数组。连接

2021-03-04 17:43:54 212 1

转载 fink 初相识

一、 flink从开发步骤的角度来讲，主要有四大部分1.环境：EnvironmentFlink Job在提交执行计算时，需要首先建立和Flink框架之间的联系，也就指的是当前的flink运行环境，只有获取了环境信息，才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单。// 批处理环境val env = ExecutionEnvironment.getExecutionEnvironment// 流式数据处理环境val env = StreamExecut

2021-02-25 10:56:51 125

转载数据结构解（链表）、数组只详解

数据结构基础

2020-12-04 17:55:32 61

转载 hive部分优化

hive部分优化

2020-12-01 14:01:42 53

原创正则表达式全集

链接正则表达式全集https://tool.oschina.net/uploads/apidocs/jquery/regexp.html

2020-11-30 17:57:04 152

原创 hive中＜＞和！= 的区别

hive中 <> 和！= 的区别以前在建设数据仓库，处理数据的过程中，经常反复使用hive的HQL语句，尽管HQL和SQL语言有很多相同之处，但也并不是说HQL就能通用SQL的语法。在使用过程中要尤为注意。事情经过是这样的，我在把业务系统数据同步到数仓(数据存储在Hive)中时，在数据汇总层(DWS)，对数据进行汇总处理时，发现有数据丢失的问题，经过排查，发现是在使用 <> 引发的坑。Hive 中 != 或 <> 致命陷阱业务场景：把业务数据抽到ODS层(原始数据

2020-10-12 16:02:41 7484

原创 left join 、right join中 on后面加条件where和 and的区别

left join 中 on后面加条件where和 and的区别on条件是在生成临时表时使用的条件，它不管and中的条件是否为真，都会返回左边表中的所有记录。所以说 and后加左表的条件对左表无影响。and后的条件只对右表产生影响where条件是在临时表生成好后，再对临时表进行过滤的条件。这时已经没有left join的含义（必须返回左表的记录）了，条件不为真的就全部过滤掉。即对 join后的数据再进行过滤，过滤出只符合where后的条件。如图所示图片来源于网络...

2020-09-29 15:42:41 1272

转载数据结构常见问题以及数据库底层算法

数据结构常见问题1、数组和链表的区别。从逻辑结构上来看，数组必须实现定于固定的长度，不能适应数据动态增减的情况，即数组的大小一旦定义就不能改变。当数据增加是，可能超过原先定义的元素的个数；当数据减少时，造成内存浪费；链表动态进行存储分配，可以适应数据动态地增减的情况，且可以方便地插入、删除数据项。从内存存储的角度看；数组从栈中分配空间（用new则在堆上创建），对程序员方便快速，但是自由度小；链表从堆中分配空间，自由度大但是申请管理比较麻烦。从访问方式类看，数组在内存中是连续的存储，因此可以利用下标索

2020-09-26 10:55:56 319

原创 Kafka总结Isr，分区总结

1.前言消息队列的性能好坏，其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一。下面将从Kafka文件存储机制和物理结构角度，分析Kafka是如何实现高效文件存储，及实际应用效果。1.1 Kafka的特性:高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。可扩展性：kafka集群支持热扩展持久性、可靠性：消息被持久化到本地磁盘，并且支

2020-08-14 09:46:06 1097

原创 Spark任务的提交流程

Spark任务的提交流程(1)、首先将程序打成 jar 包(2)、使用spark-submit 脚本提交任务到集群上运行(3)、运行 sparkSubmit 的 main 方法，在这个方法中通过反射的方式创建我们编写的主类的实例对象，然后调用 main 方法，开始执行我们的代码（注意，我们的 spark 程序中的 driver就运行在 sparkSubmit 进程中）(4)、当代码运行到创建 SparkContext 对象时，那就开始初始化 SparkContext 对象了(5)、在初始化 Spa

2020-07-16 12:01:57 400

原创窗口函数的定义、分类及用法

开窗函数的使用定义：开窗函数也叫分析函数，有两类：一类是聚合开窗函数，一类是排序开窗函数。格式：函数名(列) OVER(partition by 列名 order by列名)使用：一般和聚合函数使用，组成开窗函数，常用聚合函数：count()求个数sum() 求和avg()求平均数bai min()最小值max()最大值这些函数常与group by子句连用。除了 COUNT 以外，聚合函数忽略空值。2 .OVER 关键字：OVER 关键字表示把函

2020-07-16 11:51:57 2087

下山化缘的DJ