自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (5)
  • 收藏
  • 关注

原创 spark处理数据倾斜、小文件问题操作手册

spark经验总结

2022-07-21 18:26:42 559

原创 hive、sparksql行转列 列转行详解

行转列、列转行详解

2022-07-01 18:28:30 1015

原创 python3的安装(踩坑版,解决ssl问题,解决pip3无法使用的问题)

目前python的使用范围越来越广了,某些技术框架都要依赖于python才能安装,今天忙里偷闲,把python3在linux上安装了一下,并顺便记录了一下其中的坑。过程稍微有点曲折,刚开始觉得python3很好装,官网下载tar包,yum安装相关依赖,在linux上解压、编译、安装就可以了;我就按照这个步骤开始走了cd /usr/local/python3./configuremake && make install然后建立软连接ln -s /usr/local/python3

2021-11-16 18:25:00 7487 4

原创 centos6无法使用yum的问题解决

**2020年12月2日下架了包括官方所有的CentOS6源(包括国内的镜像站)**centos6的下架使得centos6的yum无法直接再下载安装软件。目前需要更新为下面两个源:#阿里云http://mirrors.aliyun.com/centos-vault/#官方https://vault.centos.org/#阿里云和官方的任选其一即可具体操作如下:第一步修改base源:vi /etc/yum.repos.d/CentOS-Base.repo# CentOS-Base

2021-10-27 17:49:05 901 2

原创 使用企业微信的微信机器人发送消息

右键群——》新建机器人就可以新增一个机器人,记下机器人的WebHook,它是机器人的唯一标识。之后使用CURL的指令方式就可以发东西到群里了。注意点:每分钟发送消息不超过20条。特点:可以发送图片、@别人、文件(要求文件大小在5B~20M之间)、字体颜色、curl ‘https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=180-bcdc-40b9-adf9-ffa4’ -H ‘Content-Type: application/json’

2021-08-06 14:49:23 1675

原创 hive窗口函数详解窗口长度设置(详细,干货满满)

窗口函数是一种不需要使用group by也能进行聚合计算的强大分析函数以下是经过自己使用的一些感悟:1),窗口函数不是某个函数,它是 “一批” 的函数的总称2),窗口函数适用于增量写入的计算场景3),窗口函数适用于“组内排名”的计算场景4),窗口函数可用于非null判断的循环查找场景…常用的窗口函数简介:1)、窗口聚合计算函数sum(col) over() : 分组对col累计求和,count(col) over() : 分组对col累计,min(col) over() : 分组对c

2021-02-02 16:34:53 735

原创 shell脚本常用内容(干货)

1、时间的获取current_date=date "+%Y%m%d%H%M"last_date=date -d "1 day ago" "+%Y%m%d"获取指定时间的前一天last_date2=date -d "$current_date -1 day" +"%Y%m%d"获取指定时间的后一天next_date=date -d "$current_date 1 day" +"%Y%m%d"(持续更新中。。。)...

2021-01-07 17:05:48 175

原创 linux多机器时间同步(1分钟完成同步,简易版)

1、确认时区为中国上海tzselect选择时区一次选择亚洲、中国上海、确认,2、编辑时区配置文件vi /etc/sysconfig/clockZONE=“Asia/Shanghai”3、使用ntpdate同步一次时间ntpdate time.windows.com再查看一下时间,时间就同步且正确了!(简易版时间同步)...

2020-11-13 15:54:52 199

原创 azkaban使用详解(实际场景运用,多flow之间配置依赖)

azkaban是一个使用起来很方便的调度框架azkaban如何配置多个flow?多flow之间如何依赖? 如何设置通用参数?常用job参数如何设置?本文章为你解答。(1):azkaban如何配置多个flow多flow配置要这样配:把多个flow放到一起打成zip包就可以了,之后在azkaban的web界面上upload即可。(2):设置通用参数通用参数这样配:其中test1下的conf.properties文件中设置的属性只在test1下有效,test2下的conf.properties

2020-11-12 16:11:57 3231

原创 redshift开发udf

redshift开发需要使用python代码来实现具体功能,下面是一个hmac_sha256加密算法的实现:create or replace function encrypt_kms (mes VARCHAR) returns VARCHARstable as $$import hmacimport hashlibsecretkey=''message=mes.encode('utf-8')return hmac.new(secretkey.encode('utf-8'), message,

2020-11-04 14:28:36 230

原创 hive安装过程及采坑

安装先下载hive包,在官网下载即可安装hive前提:成功安装mysql。这是我的另一篇安装mysql的文章:https://blog.csdn.net/qq_39719415/article/details/109390697上传安装包到linux后解压、重命名即可cd /usr/local/hive/confcp hive-default.xml.template hive-site.xml修改hive-site.xml配置配置mysqljavax.jdo.option.Connec

2020-10-30 18:53:52 260

原创 linux安装mysql过程及采坑日记

1、首先要明确自己想安装的mysql版本是多少,如果是自己测试用无所谓那么就要看你的linux机器的glibc都支持哪些版本查看glibc版本:strings /lib64/libc.so.6 |grep GLIBC确认自己glibc的版本很重要,如果自己机器的glibc版本不支持,那么就会安装失败。如果一定要安装某个mysql版本,而自己的机器又不支持对应的glibc,那么就只能升级linux底层的glibc版本了(谨记,有些风险,glibc升级失败可能会导致无法使用linux指令)可以到这里

2020-10-30 18:43:13 147

原创 jdk安装,jdk配置path无效

jdk配置path无效之前都是用的jdk1.7,现在项目升级了需要用到jdk1.8,安装了jdk配置好java_home和path之后发现java -version失败,仔细找了原因发现jdk1.8安装好之后会默认向path变量中写入一个openjdk的路径变量,需要删除掉它,之后再正常配置即可。步骤如下:1、jdk安装后会默认往path路径下写入一个openjdk的路径,删掉它!2、新建JAVA_HOME变量变量值为:D:\jdk\bin3、新建CLASSPATH变量变量值为是.;%JAVA_

2020-10-27 17:16:06 1073

原创 常见算法简介及实现

1、选择排序选择排序是一种基础、稳定的排序算法,用第一个元素V1和其他所有元素一个一个对比,比较出最小的元素Vmin,再把V1与Vmin的数组下标位置交换;之后第二个再和剩下的所有元素比较 …,这样一直循环比较整个数组,即可得到一个有序的数组。时间复杂度为n的2次方。实现代码(java): public static void xuanze_sort(){ int data []={1,3,2,22,33,4,6,5}; for(int i=0;i<data

2020-08-10 16:59:00 1389

原创 spark的分区器hashpartitioner、RangePartitioner,分布式排序原理

spark大多数算子使用的都是默认分区器HashPartitioner,HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中,这样能较为平衡的分配数据到partition。RangePartitioner:它是在排序算子中会用到的分区器,比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样,来估算Key的分布,然后按照指定的排序切分range,尽量让每个partition对应的

2020-08-06 17:08:02 807

原创 flink架构原理探索

经过flink源码及其相关组件,绘制出下图flink执行图

2020-08-05 17:28:08 118

原创 常用调度工具Oozie、Azkaban、Airflow总结

调度的意义:调度时一个项目中必不可少的,项目中一般都会包括程序、hive脚本等多任务,我们一般把任务写到shell脚本中,最后通过调度工具把所有的任务串起来。airflow是一个可编程的工作流调度、监控平台。可分布式部署调用,基于DAG(本身没有队列功能,需要使用第三方组件,比如redis、rabbitMQ),airflow用python进行编程开发,可以进行丰富的任务处理,包括bash命令的执行、python代码调用、发送邮件、发送Http请求等。airflow websever -D启动airf

2020-06-04 15:18:39 6919

原创 hive动态分区,分区数据的几种插入方式,hive常用优化

首先列举下hive分区插入的方式:1:从文件导入数据到hive指定分区方式load data local inpath ‘filepath’ into table tableName partition(partitionColumn=’’);2:先创建分区,再把文件通过任何别的方式把数据已对应格式(列分隔符可以是’\t’,’\001’等)放到对应hdfs路径下。手动创建分区alter ...

2019-11-21 16:18:39 9174 1

原创 本地IDEA远程连接hive的问题解决

1:首先创建好一个maven项目,创建项目这一步我就不说了,如果不会的话请看我的另一篇博客,完成后在porm.xml中加入依赖,这里需要注意要有hadoop-client,且不使用默认的hhadoop-client版本。<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spar...

2019-08-19 17:02:59 1940

原创 idea Maven项目报错Error:java: Compilation failed: internal java compiler error

Error:java: Compilation failed: internal java compiler error,这个错在maven项目中是比较常见的java编译器等级过低的原因,有的人会说:不对呀,我在项目中明明调的不低呀,且听我慢慢讲来:首先点击左上角file->project structure这些是最简单的修改,每次出错先看这里。下面还有一个地方:file-&gt...

2019-07-22 10:43:25 1546

原创 大数据开发面试经验及知识面的总结

大数据的面试也有一段时间了,现在工作也找到了,感觉需要总结一波经验给广大网友做参考了。面试的公司实力大大小小参差不齐,在面试一些小公司的时候他们一般会问的东西很全面,我记得有1家小公司从计算机网络原理、到数据结构、到java基础(集合、多线程juc、cas、unsafe等)、到javaWeb(前后端,js、css、spring boot、springmvc、mybatis、连接池等等)问完这些之...

2019-07-19 17:06:50 417

原创 linux上外部执行sql语句,并把结果重定向到文件

在项目中在spark处理过数据之后把结果写到mysql中,需要使用到把结果表结果输出到文件中,我懒得再写java程序,想着mysql能不能有这种类似的功能支持,结果发现还是有的,下面我找到的一些方式:1:mysql -h 主机 -u账号 -p’密码’ -e “select * from 数据库表” > 结果文件路径,下面是一个demo,大家可以直接copy改:mysql -h local...

2019-07-18 14:36:18 2274

原创 sparksql table not found错误

一般情况下可以先去看看是不是自己的表名写错了,当然我遇到的一种情况是下面这样的:使用hiveContext读取一张表,并注册为一张临时表(dataFrame.registerTemptable()),使用sqlContext读取另一张表,并注册为临时表,随后我再使用sqlContext.sql(“两表关联sql语句”),运行报错"table not found",仔细研究之下突然想到了一个知...

2019-07-18 11:22:12 2231

原创 python pip的问题

1、今天去用pip下载python部分模块时突然不行了,报错ModuleNotFoundError: No module named ‘pip’,很郁闷啊,明明我是有pip的,看了下环境变量也是好好的,无奈直接来个暴力的方式,把pip卸掉再重装,反正也就是几秒钟的事,指令如下:首先执行 python -m ensurepip 然后执行 python -m pip install --upgr...

2019-07-16 10:47:41 125

原创 前端页面模板

在网上找了半天,找到了几个还行的前端模板,点击这里进行跳转下载源码

2019-07-02 15:25:59 1429

原创 spring boot问题集锦

1、由于spring boot 内置已经有了tomcat,因此不需要额外再配置tomcat,只需要运行启动类即可,那么这个启动类需要注意一些地方,启动类的位置一定要特别注意,springboot在运行时只识别启动类所在的包及其子包下的代码,因此哪怕只是个demo项目,建包也不能太随意喽,否则等待你的就是访问404或者代码编译不通过。可以参考我下面的demo项目的逻辑结构(为了测试我把Dao与Se...

2019-07-02 14:23:11 106

原创 springBoot项目demo中遇到的一些小问题

1、创建项目时选择project -> springInitializr(如果没有的话可以在plugins中搜索并安装spring Boot),随后写项目名,一路next、finish即可。2、创建完毕项目之后springboot默认识别的jsp目录需要配置下,否则访问jsp会404失败,springboot不需要web.xml文件,在main目录下创建webApp目录,点击file-&...

2019-07-01 16:25:56 206

原创 sparkstreaming的状态定时清除

两种方式:sparkStreaming一般都是部署在linux上的,且7*24运行,如果不去清除状态信息,内部数据会非常大,checkpoint也会越来越慢。一般对于一天一统计的业务可以去定时清除。1:可以写shell脚本去重启spark任务,通过ps指令找到spark-submit的进程号,kill -9强制结束进程,然后再重启即可。2:利用spark的特殊方法去定时结束sparkStre...

2019-05-27 11:06:00 957 3

原创 snappy的安装

hive经常使用snappy的压缩格式,但是hadoop本身是并不支持snappy格式的压缩的(可以通过hadoop checknative指令查看),想要hadoop支持snappy类型的压缩则需要编译hadoop对应版本的源码,编译成功后把native文件copy到hadoop的目录下,重启hadoop即可。想象的挺好的,but正在的大坑在编译的阶段,弄了两天才弄好下面是我的一些总结:编译h...

2019-05-26 17:16:20 1567

原创 基于hadoop、hive的离线数据分析问题集锦

1、小文件合并。nginx+flume+hdfs的架构采集、存储日志,但是flume采集的日志最终会有很多的小文件存储到hdfs,令人难受的是hdfs并不适用于处理大量小文件,但是好在hadoop的mapreduce提供了可以批量合并小文件的方式,这里直接上干货代码:在这里插入代码片package baobei.data.etl;import java.io.IOException;im...

2019-05-24 21:17:54 622

原创 spark的问题集锦

和小伙伴们一起做这个项目好久了,中间也是遇到了许多问题,这里自我总结下,防止下次再犯!项目在开发方面主要是基于spark开发的,里面使用到了spark core、spark sql、spark Streaming去进行编程,项目中有多个模块,像用户session分析模块、单条转换率模块、各区域热门商品模块、广告实时点击流统计模块等。项目中遇到的问题:1、classNotFound问题使用m...

2019-05-23 21:25:15 368 2

jdk1.8下载 windows

jdk作为许多开源框架的运行基础,是学习java、hadoop等必备资源,先安装jdk,jdk安装需要配置环境变量java_home,配置path,jdk1.8下载安装即可使用。

2020-10-27

oozie控制台ext jar包.zip

oozie web控制台jar包,上传至linux,使用unzip指令解压即可,再次访问oozie的11000端口就会显示出控制台页面。

2019-11-21

javaWeb后台管理系统模板(仅含前台所有模板,超详细)

这是一个后台管理系统的模板,显示出了所有的前端页面并实现了部分功能;使用css、js、Highcharts等一些技术实现显示框拉缩,管理分类、报表等功能

2018-10-07

jdk1.7、jre1.7下载

我们搭建javaEE、javaSE所有的java项目所必须导入的API资源,这里直接解压后修改jdk路径即可

2018-10-07

ssh整合所需所有jar包及相关重要文档

整合了struts2+hibernate4+spring4所需要的所有jar包,内部还有一些ssh整合所需要的所有配置文件

2018-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除