请叫我超哥-CSDN博客

原创 python3的安装（踩坑版，解决ssl问题，解决pip3无法使用的问题）

目前python的使用范围越来越广了，某些技术框架都要依赖于python才能安装，今天忙里偷闲，把python3在linux上安装了一下，并顺便记录了一下其中的坑。过程稍微有点曲折，刚开始觉得python3很好装，官网下载tar包，yum安装相关依赖，在linux上解压、编译、安装就可以了；我就按照这个步骤开始走了cd /usr/local/python3./configuremake && make install然后建立软连接ln -s /usr/local/python3

2021-11-16 18:25:00 7487 4

原创 centos6无法使用yum的问题解决

**2020年12月2日下架了包括官方所有的CentOS6源（包括国内的镜像站）**centos6的下架使得centos6的yum无法直接再下载安装软件。目前需要更新为下面两个源：#阿里云http://mirrors.aliyun.com/centos-vault/#官方https://vault.centos.org/#阿里云和官方的任选其一即可具体操作如下：第一步修改base源：vi /etc/yum.repos.d/CentOS-Base.repo# CentOS-Base

2021-10-27 17:49:05 901 2

原创使用企业微信的微信机器人发送消息

右键群——》新建机器人就可以新增一个机器人，记下机器人的WebHook，它是机器人的唯一标识。之后使用CURL的指令方式就可以发东西到群里了。注意点：每分钟发送消息不超过20条。特点：可以发送图片、@别人、文件（要求文件大小在5B~20M之间）、字体颜色、curl ‘https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=180-bcdc-40b9-adf9-ffa4’ -H ‘Content-Type: application/json’

2021-08-06 14:49:23 1675

原创 hive窗口函数详解窗口长度设置（详细，干货满满）

窗口函数是一种不需要使用group by也能进行聚合计算的强大分析函数以下是经过自己使用的一些感悟：1），窗口函数不是某个函数，它是 “一批” 的函数的总称2），窗口函数适用于增量写入的计算场景3），窗口函数适用于“组内排名”的计算场景4），窗口函数可用于非null判断的循环查找场景…常用的窗口函数简介：1）、窗口聚合计算函数sum(col) over() : 分组对col累计求和，count(col) over() : 分组对col累计，min(col) over() : 分组对c

2021-02-02 16:34:53 735

原创 shell脚本常用内容（干货）

1、时间的获取current_date=date "+%Y%m%d%H%M"last_date=date -d "1 day ago" "+%Y%m%d"获取指定时间的前一天last_date2=date -d "$current_date -1 day" +"%Y%m%d"获取指定时间的后一天next_date=date -d "$current_date 1 day" +"%Y%m%d"（持续更新中。。。）...

2021-01-07 17:05:48 175

原创 linux多机器时间同步（1分钟完成同步，简易版）

1、确认时区为中国上海tzselect选择时区一次选择亚洲、中国上海、确认，2、编辑时区配置文件vi /etc/sysconfig/clockZONE=“Asia/Shanghai”3、使用ntpdate同步一次时间ntpdate time.windows.com再查看一下时间，时间就同步且正确了！（简易版时间同步）...

2020-11-13 15:54:52 199

原创 azkaban使用详解（实际场景运用，多flow之间配置依赖）

azkaban是一个使用起来很方便的调度框架azkaban如何配置多个flow？多flow之间如何依赖? 如何设置通用参数？常用job参数如何设置？本文章为你解答。（1）:azkaban如何配置多个flow多flow配置要这样配：把多个flow放到一起打成zip包就可以了，之后在azkaban的web界面上upload即可。（2）：设置通用参数通用参数这样配：其中test1下的conf.properties文件中设置的属性只在test1下有效，test2下的conf.properties

2020-11-12 16:11:57 3231

原创 redshift开发udf

redshift开发需要使用python代码来实现具体功能，下面是一个hmac_sha256加密算法的实现：create or replace function encrypt_kms (mes VARCHAR) returns VARCHARstable as $$import hmacimport hashlibsecretkey=''message=mes.encode('utf-8')return hmac.new(secretkey.encode('utf-8'), message,

2020-11-04 14:28:36 230

原创 hive安装过程及采坑

安装先下载hive包，在官网下载即可安装hive前提：成功安装mysql。这是我的另一篇安装mysql的文章：https://blog.csdn.net/qq_39719415/article/details/109390697上传安装包到linux后解压、重命名即可cd /usr/local/hive/confcp hive-default.xml.template hive-site.xml修改hive-site.xml配置配置mysqljavax.jdo.option.Connec

2020-10-30 18:53:52 260

原创 linux安装mysql过程及采坑日记

1、首先要明确自己想安装的mysql版本是多少，如果是自己测试用无所谓那么就要看你的linux机器的glibc都支持哪些版本查看glibc版本：strings /lib64/libc.so.6 |grep GLIBC确认自己glibc的版本很重要，如果自己机器的glibc版本不支持，那么就会安装失败。如果一定要安装某个mysql版本，而自己的机器又不支持对应的glibc，那么就只能升级linux底层的glibc版本了（谨记，有些风险，glibc升级失败可能会导致无法使用linux指令）可以到这里

2020-10-30 18:43:13 147

原创 jdk安装，jdk配置path无效

jdk配置path无效之前都是用的jdk1.7，现在项目升级了需要用到jdk1.8，安装了jdk配置好java_home和path之后发现java -version失败，仔细找了原因发现jdk1.8安装好之后会默认向path变量中写入一个openjdk的路径变量，需要删除掉它，之后再正常配置即可。步骤如下：1、jdk安装后会默认往path路径下写入一个openjdk的路径，删掉它！2、新建JAVA_HOME变量变量值为：D:\jdk\bin3、新建CLASSPATH变量变量值为是.;%JAVA_

2020-10-27 17:16:06 1073

原创常见算法简介及实现

1、选择排序选择排序是一种基础、稳定的排序算法，用第一个元素V1和其他所有元素一个一个对比，比较出最小的元素Vmin，再把V1与Vmin的数组下标位置交换；之后第二个再和剩下的所有元素比较 …，这样一直循环比较整个数组，即可得到一个有序的数组。时间复杂度为n的2次方。实现代码（java）： public static void xuanze_sort(){ int data []={1,3,2,22,33,4,6,5}; for(int i=0;i<data

2020-08-10 16:59:00 1389

原创 spark的分区器hashpartitioner、RangePartitioner，分布式排序原理

spark大多数算子使用的都是默认分区器HashPartitioner，HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中，这样能较为平衡的分配数据到partition。RangePartitioner：它是在排序算子中会用到的分区器，比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样，来估算Key的分布，然后按照指定的排序切分range，尽量让每个partition对应的

2020-08-06 17:08:02 807

原创 flink架构原理探索

经过flink源码及其相关组件，绘制出下图flink执行图

2020-08-05 17:28:08 118

原创常用调度工具Oozie、Azkaban、Airflow总结

调度的意义：调度时一个项目中必不可少的，项目中一般都会包括程序、hive脚本等多任务，我们一般把任务写到shell脚本中，最后通过调度工具把所有的任务串起来。airflow是一个可编程的工作流调度、监控平台。可分布式部署调用，基于DAG（本身没有队列功能，需要使用第三方组件，比如redis、rabbitMQ）,airflow用python进行编程开发，可以进行丰富的任务处理，包括bash命令的执行、python代码调用、发送邮件、发送Http请求等。airflow websever -D启动airf

2020-06-04 15:18:39 6919

原创 hive动态分区，分区数据的几种插入方式，hive常用优化

首先列举下hive分区插入的方式：1：从文件导入数据到hive指定分区方式load data local inpath ‘filepath’ into table tableName partition(partitionColumn=’’);2：先创建分区，再把文件通过任何别的方式把数据已对应格式(列分隔符可以是’\t’,’\001’等)放到对应hdfs路径下。手动创建分区alter ...

2019-11-21 16:18:39 9174 1

原创本地IDEA远程连接hive的问题解决

1：首先创建好一个maven项目，创建项目这一步我就不说了，如果不会的话请看我的另一篇博客，完成后在porm.xml中加入依赖，这里需要注意要有hadoop-client，且不使用默认的hhadoop-client版本。<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spar...

2019-08-19 17:02:59 1940

原创 idea Maven项目报错Error:java: Compilation failed: internal java compiler error

Error:java: Compilation failed: internal java compiler error，这个错在maven项目中是比较常见的java编译器等级过低的原因，有的人会说：不对呀，我在项目中明明调的不低呀，且听我慢慢讲来：首先点击左上角file->project structure这些是最简单的修改，每次出错先看这里。下面还有一个地方：file-&gt...

2019-07-22 10:43:25 1546

原创大数据开发面试经验及知识面的总结

大数据的面试也有一段时间了，现在工作也找到了，感觉需要总结一波经验给广大网友做参考了。面试的公司实力大大小小参差不齐，在面试一些小公司的时候他们一般会问的东西很全面，我记得有1家小公司从计算机网络原理、到数据结构、到java基础（集合、多线程juc、cas、unsafe等）、到javaWeb（前后端，js、css、spring boot、springmvc、mybatis、连接池等等）问完这些之...

2019-07-19 17:06:50 417

原创 linux上外部执行sql语句，并把结果重定向到文件

在项目中在spark处理过数据之后把结果写到mysql中，需要使用到把结果表结果输出到文件中，我懒得再写java程序，想着mysql能不能有这种类似的功能支持，结果发现还是有的，下面我找到的一些方式：1：mysql -h 主机 -u账号 -p’密码’ -e “select * from 数据库表” > 结果文件路径，下面是一个demo，大家可以直接copy改：mysql -h local...

2019-07-18 14:36:18 2274

原创 sparksql table not found错误

一般情况下可以先去看看是不是自己的表名写错了，当然我遇到的一种情况是下面这样的：使用hiveContext读取一张表，并注册为一张临时表（dataFrame.registerTemptable()），使用sqlContext读取另一张表，并注册为临时表，随后我再使用sqlContext.sql(“两表关联sql语句”)，运行报错"table not found",仔细研究之下突然想到了一个知...

2019-07-18 11:22:12 2231

原创 python pip的问题

1、今天去用pip下载python部分模块时突然不行了，报错ModuleNotFoundError: No module named ‘pip’，很郁闷啊，明明我是有pip的，看了下环境变量也是好好的，无奈直接来个暴力的方式，把pip卸掉再重装，反正也就是几秒钟的事，指令如下：首先执行 python -m ensurepip 然后执行 python -m pip install --upgr...

2019-07-16 10:47:41 125

原创前端页面模板

在网上找了半天，找到了几个还行的前端模板，点击这里进行跳转下载源码

2019-07-02 15:25:59 1429

原创 spring boot问题集锦

1、由于spring boot 内置已经有了tomcat，因此不需要额外再配置tomcat，只需要运行启动类即可，那么这个启动类需要注意一些地方，启动类的位置一定要特别注意，springboot在运行时只识别启动类所在的包及其子包下的代码，因此哪怕只是个demo项目，建包也不能太随意喽，否则等待你的就是访问404或者代码编译不通过。可以参考我下面的demo项目的逻辑结构（为了测试我把Dao与Se...

2019-07-02 14:23:11 106

原创 springBoot项目demo中遇到的一些小问题

1、创建项目时选择project -> springInitializr（如果没有的话可以在plugins中搜索并安装spring Boot）,随后写项目名，一路next、finish即可。2、创建完毕项目之后springboot默认识别的jsp目录需要配置下，否则访问jsp会404失败，springboot不需要web.xml文件，在main目录下创建webApp目录，点击file-&...

2019-07-01 16:25:56 206

原创 sparkstreaming的状态定时清除

两种方式：sparkStreaming一般都是部署在linux上的，且7*24运行，如果不去清除状态信息，内部数据会非常大，checkpoint也会越来越慢。一般对于一天一统计的业务可以去定时清除。1：可以写shell脚本去重启spark任务，通过ps指令找到spark-submit的进程号，kill -9强制结束进程，然后再重启即可。2：利用spark的特殊方法去定时结束sparkStre...

2019-05-27 11:06:00 957 3

原创 snappy的安装

hive经常使用snappy的压缩格式，但是hadoop本身是并不支持snappy格式的压缩的（可以通过hadoop checknative指令查看），想要hadoop支持snappy类型的压缩则需要编译hadoop对应版本的源码，编译成功后把native文件copy到hadoop的目录下，重启hadoop即可。想象的挺好的，but正在的大坑在编译的阶段，弄了两天才弄好下面是我的一些总结：编译h...

2019-05-26 17:16:20 1567

原创基于hadoop、hive的离线数据分析问题集锦

1、小文件合并。nginx+flume+hdfs的架构采集、存储日志，但是flume采集的日志最终会有很多的小文件存储到hdfs，令人难受的是hdfs并不适用于处理大量小文件，但是好在hadoop的mapreduce提供了可以批量合并小文件的方式，这里直接上干货代码：在这里插入代码片package baobei.data.etl;import java.io.IOException;im...

2019-05-24 21:17:54 622

原创 spark的问题集锦

和小伙伴们一起做这个项目好久了，中间也是遇到了许多问题，这里自我总结下，防止下次再犯！项目在开发方面主要是基于spark开发的，里面使用到了spark core、spark sql、spark Streaming去进行编程，项目中有多个模块，像用户session分析模块、单条转换率模块、各区域热门商品模块、广告实时点击流统计模块等。项目中遇到的问题：1、classNotFound问题使用m...

2019-05-23 21:25:15 368 2

jdk1.8下载 windows

jdk作为许多开源框架的运行基础，是学习java、hadoop等必备资源，先安装jdk，jdk安装需要配置环境变量java_home，配置path，jdk1.8下载安装即可使用。

2020-10-27

oozie控制台ext jar包.zip

oozie web控制台jar包，上传至linux，使用unzip指令解压即可，再次访问oozie的11000端口就会显示出控制台页面。

2019-11-21

javaWeb后台管理系统模板（仅含前台所有模板，超详细）

这是一个后台管理系统的模板，显示出了所有的前端页面并实现了部分功能；使用css、js、Highcharts等一些技术实现显示框拉缩，管理分类、报表等功能

2018-10-07

jdk1.7、jre1.7下载

我们搭建javaEE、javaSE所有的java项目所必须导入的API资源，这里直接解压后修改jdk路径即可

2018-10-07

ssh整合所需所有jar包及相关重要文档

整合了struts2+hibernate4+spring4所需要的所有jar包，内部还有一些ssh整合所需要的所有配置文件

2018-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_39719415的博客

原创 spark处理数据倾斜、小文件问题操作手册

原创 hive、sparksql行转列列转行详解

原创 python3的安装（踩坑版，解决ssl问题，解决pip3无法使用的问题）

原创 centos6无法使用yum的问题解决

原创使用企业微信的微信机器人发送消息

原创 hive窗口函数详解窗口长度设置（详细，干货满满）

原创 shell脚本常用内容（干货）

原创 linux多机器时间同步（1分钟完成同步，简易版）

原创 azkaban使用详解（实际场景运用，多flow之间配置依赖）

原创 redshift开发udf

原创 hive安装过程及采坑

原创 linux安装mysql过程及采坑日记

原创 jdk安装，jdk配置path无效

原创常见算法简介及实现

原创 spark的分区器hashpartitioner、RangePartitioner，分布式排序原理

原创 flink架构原理探索

原创常用调度工具Oozie、Azkaban、Airflow总结

原创 hive动态分区，分区数据的几种插入方式，hive常用优化

原创本地IDEA远程连接hive的问题解决

原创 idea Maven项目报错Error:java: Compilation failed: internal java compiler error

原创大数据开发面试经验及知识面的总结

原创 linux上外部执行sql语句，并把结果重定向到文件

原创 sparksql table not found错误

原创 python pip的问题

原创前端页面模板

原创 spring boot问题集锦

原创 springBoot项目demo中遇到的一些小问题

原创 sparkstreaming的状态定时清除

原创 snappy的安装

原创基于hadoop、hive的离线数据分析问题集锦

原创 spark的问题集锦

jdk1.8下载 windows

oozie控制台ext jar包.zip

javaWeb后台管理系统模板（仅含前台所有模板，超详细）

jdk1.7、jre1.7下载

ssh整合所需所有jar包及相关重要文档

空空如也