自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(127)
  • 收藏
  • 关注

原创 SPARK基本编程

SPARK基本编程

2022-08-16 09:16:54 3422

原创 spark任务依赖与集群依赖环境不一致解决

spark报错java.lang.NoClassDefFoundError一般为spark任务依赖与集群依赖环境不一致导致,为了快速解决该问题

2022-08-12 15:57:25 747 1

原创 HIVE使用regexp_replace替换string特殊字符

HIVE使用regexp_replace替换string特殊字符

2022-08-05 09:59:40 3246

原创 JAVA中unicode特殊字符转换普通文本

JAVA中unicode特殊字符转换普通文本。

2022-08-05 09:52:19 481

原创 Sqoop导入导出时数据内存溢出

Sqoop导入导出时数据内存溢出。

2022-07-28 09:53:56 607

原创 hive对数据进行随机取样

hive对数据进行随机取样。

2022-07-26 18:10:51 402

原创 HIVE数据导入ES并避免字段空值占用空间

详细介绍hive数据导入es的两种不同方案

2022-07-20 22:24:51 1584

原创 用户连续登陆(允许中断)查询sql

selectuser_id,max(days)from ( select user_id, f, count(1) days from ( select user_id, login_time, sum(if(flag > 2 , 1, 0)) over (par...

2022-05-05 16:32:13 242

原创 ES操作命令

#全局操作#查看集群健康状况GET /_cat/health?v#查看节点情况GET /_cat/nodes?v#查看各个索引状态GET /_cat/indices?v#创建索引 PUT 索引名?prettyPUT /movie_index#删除索引DELETE /movie_index#查看某索引的分片情况GET /_cat/shards/movie_index#创建文档PUT /movie_index/movie/1{ "id":100, "name":"o.

2022-01-05 22:44:49 1054

原创 mysql修改函数权限未生效

mysql修改函数权限后未生效,仍报错:execute command denied to user 'test'@'%' for routine 'tospur_house_user.function1'修改执行权限sql即可:GRANT EXECUTE ON FUNCTION lw.historynextval TO ‘UserA’@’192.168.10.61’flush privileges...

2021-11-10 15:25:50 563

原创 Git操作命令

1.1本地库初始化 git init1.2设置签名项目级别/仓库级别:仅在当前本地库范围内有效git config user.name tom_progit config user.email [email protected]信息保存位置:./.git/config 文件系统用户级别:登录当前操作系统的用户范围git config --global use...

2021-09-06 22:36:58 200

原创 Python使用第三方 SMTP 服务发送(QQ)

# -*- coding: UTF-8 -*-import smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrmy_sender = '[email protected]' # 发件人邮箱账号my_pass = 'XXXXX' # 发件人邮箱密码(即授权码)my_user = '[email protected]' # 收件人邮箱账号,我这边发送给自己def mail(.

2021-08-18 15:41:54 1164

原创 mysql根据中文字段首字母排序

SELECT * FROM student_info ORDER BY CONVERT(TRIM(name) USING gbk) ASC

2021-08-16 13:43:27 277

原创 第一个FLINK程序之WordCount

package com.atguigu.day1import org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.windowing.time.Time/** * @author :ZCB * @date :Created in 2021/8/10 23:01 * @desc: */object WordCountFromSocket { case class WordWithCou.

2021-08-15 21:37:25 109

原创 Scala之二流程控制

1、分支控制if-else样例:需求1:需求:输入年龄,如果年龄小于18岁,则输出“童年”。如果年龄大于等于18且小于等于30,则输出“中年”,否则,输出“老年”object TestIfElse { def main(args: Array[String]): Unit = { println("input age") var age = StdIn.readInt() if (age < 18){ pr

2021-08-09 22:42:27 175

原创 Scala之一变量和数据类型

1、字符串输出(1)字符串,通过+号连接(2)printf用法:字符串,通过%传值。(3)字符串模板(插值字符串):通过$获取变量值package com.atguigu.chapter02object TestCharType { def main(args: Array[String]): Unit = { var name: String = "jinlian" var age: Int = 18 //(1)字符串,通

2021-08-09 22:24:45 133

原创 mysqldump批量导出mysql建表语句

mysqldump -h ip -uuser_name -p'password' --databases --no-data dbname > getddl.sql

2021-05-14 16:10:06 1255

原创 mysql免密登录设置

mysql有时会忘记root密码,免密登录设置如下1、在/etc/my.cnf中修改在[mysqld]最后添加:skip-grant-tables2、重启mysqlservice mysql restart3、免密登录直接输入mysql进入数据库4、修改密码use mysql;update user set authentication_string=password(“admin12345”) where user=“root”;FLUSH PRIVILEGES;

2021-05-12 18:48:45 5786 1

原创 mysql树形结构递归查询

oracle支持树形递归查询start with ... connect by,但mysql不支持,不过可以通过创建函数来实现递归查询。创建函数DELIMITER //DROP FUNCTION IF EXISTS f_get_suborg;CREATE FUNCTION f_get_suborg(parentId VARCHAR(5000))RETURNS VARCHAR(5000)BEGIN DECLARE oTemp VARCHAR(5000); DECLARE o.

2021-05-08 15:39:45 619

原创 notepad++背景颜色调整选项中文释义

Indent guideline style 缩进参考线的颜色Brace highlight style 鼠标指针在框架左右时框架的颜色(如css中{} js中的())Bad brace color 错误的框架的颜色(如js中{}里面有错误,这个{}的颜色)Current line background colour 鼠标指向的当前行的背景颜色Selected text colour 选中文本的颜色Caret colour 鼠标指针的颜色Line number margin 行号...

2021-04-29 10:28:32 197

原创 shell取某一时间范围内月份

#!/bin/shif [ -n "$1" ] ;then db_date=$1else db_date=`date -d "-1 day" +%Y%m%d`fiend_date="20180101"while [[ $db_date > $end_date ]]doecho ${db_date:0:6}db_date=`date -d "-1 month $db_date" +%Y%m%d`done

2021-03-25 09:03:47 541

原创 按照日期进行累加sql

样例数据:uid,dt,cntguid01,2018-02-28,1guid01,2018-03-01,2guid01,2018-03-02,2guid01,2018-03-04,0guid01,2018-03-05,0guid01,2018-03-06,2guid01,2018-03-07,3guid02,2018-03-01,4guid02,2018-03-02,1guid02,2018-03-03,0guid02,2018-03-06,2结果要求:对用户每天金额进行累加,

2021-02-23 20:51:57 4339

原创 sql实现连续登陆7天以上用户统计

测试数据:用户ID、登入日期uid,dtguid01,2018-02-28guid01,2018-03-01guid01,2018-03-02guid01,2018-03-04guid01,2018-03-05guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-02guid02,2018-03-03guid02,2018-03-06步骤:*操作步骤: * 1、我将用户分组,日期排序【升序】打上标

2021-02-23 20:31:14 2904

原创 hive解析json格式数据

get_json_object函数使用1)数据xjson[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]2)取出第一个json对象select get_json_object('[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]','$[0]');结果是:{"name":"大郎","sex":"男".

2021-02-02 20:56:41 1184

原创 Yarn容量调度器设置

1)增加hive队列默认Yarn的配置下,容量调度器只有一条Default队列。在capacity-scheduler.xml中可以配置多条队列,修改以下属性,增加hive队列。<property> <name>yarn.scheduler.capacity.root.queues</name> <value>default,hive</value> <description> Th...

2021-02-01 22:08:01 669

原创 hadoop集群间数据拷贝

hadoop distcp -i -m 1000 hdfs://10.161.25.210:8020/user/hive/warehouse/source.db/user_base_info_test_${month_id}/* hdfs://10.162.4.36:8020/user/hive/warehouse/zcb.db/user_base_info_test_${month_id}

2021-01-29 21:37:35 167

原创 shell脚本采集ftp数据样例

#!/bin/bash#author zcb# *************************************# 功能描述:# 检查从ftp 下载数据情况# 输出文件:# remain_${month_id}_no_uploaded.txt 未上传到ftp列表# remain_head.txt 未上传到ftp列表-表头# remain_${month_id}.txt 未下载或者未下载到本地列表# **********************************.

2021-01-29 11:15:03 340

原创 sqoop采集mysql to HDFS样例shell脚本

#! /bin/bashsqoop=/opt/module/sqoop/bin/sqoopdo_date=`date -d '-1 day' +%F`if [[ -n "$2" ]]; then do_date=$2fiimport_data(){$sqoop import \--connect jdbc:mysql://hadoop102:3306/gmall \--username root \--password 000000 \--target-dir /orig...

2021-01-29 11:09:25 216

原创 flume初始化内存优化

1)问题描述:如果启动消费Flume抛出如下异常ERROR hdfs.HDFSEventSink: process failedjava.lang.OutOfMemoryError: GC overhead limit exceeded2)解决方案步骤:(1)在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management

2021-01-27 21:42:35 376

原创 flume消费kafka数据配置

(1)在hadoop104的/opt/module/flume/conf目录下创建kafka-flume-hdfs.conf文件[mars@hadoop104 conf]$ vim kafka-flume-hdfs.conf在文件配置如下内容## 组件a1.sources=r1 r2a1.channels=c1 c2a1.sinks=k1 k2## source1##类型为kafkaa1.sources.r1.type = org.apache.flume.sou..

2021-01-27 21:37:15 1296

原创 Kafka压测

1)Kafka压测用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh2)Kafka Producer压力测试(1)在/opt/module/kafka/bin目录下面有这两个文件。我们来测试一下说明:[mars@hadoop102 kafka]$ bin/kafka-prod

2021-01-26 22:08:48 241

原创 Kafka部署与监控

kafka简介:kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线

2021-01-26 21:23:08 607

原创 flume组件的选择&配置

Flume组件的选择1)Source(1)Taildir Source相比Exec Source、Spooling Directory Source的优势TailDir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传(优选选择)。Exec Source可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。Spooling Directory Source监控目录,不支持断点续传。(2)b

2021-01-26 20:51:26 637

原创 hadoop集群所有进程查看脚本

1)在/home/mars/bin目录下创建脚本xcall.sh[mars@hadoop102 bin]$ vim xcall.sh2)在脚本中编写如下内容#! /bin/bashfor i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"done3)修改脚本执行权限[mars@hadoop102 bin]$ chmod 777 xcall.sh...

2021-01-25 20:40:38 280

原创 hadoop实用组件启停脚本

1)在hadoop102的/home/mars/bin目录下创建脚本[mars@hadoop102 bin]$ vim zk.sh 在脚本中编写如下内容#!/bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do echo "------------- $i -------------" ssh $i "/opt/module/zoo...

2021-01-24 11:09:12 144

原创 hadoop安装完成后基准测试

1) 测试HDFS写性能 测试内容:向HDFS集群写10个128M的文件[mars@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB2020-04-16 13:41:24,724 ...

2021-01-24 10:31:34 181

原创 NTP服务器时间同步设置

1)时间服务器配置(必须root用户)(1)在所有节点关闭ntp服务和自启动sudo systemctl stop ntpdsudo systemctl disable ntpd(2)修改ntp配置文件vim /etc/ntp.conf修改内容如下a)修改1(授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间)#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

2021-01-24 10:19:46 3709

原创 xsync集群分发脚本

xsync集群分发脚本(1)需求:循环复制文件到所有节点的相同目录下(2)需求分析: (a)rsync命令原始拷贝:rsync -av /opt/module root@hadoop103:/opt/ (b)期望脚本: xsync要同步的文件名称 (c)说明:在用户家目录/bin这个目录下存放的脚本,用户可以在系统任何地方直接执行。(3)脚本实现 (a)在用户家目录下创建bin文件夹 mkdir bin (b)在...

2021-01-24 10:02:21 386

原创 pandas练习题

导入 Pandas 库并简写为pd,并输出版本号>>> import pandas as pd>>> pd.__version__'1.1.4'2.从列表创建series>>> data = [1,2,3,4,5,6]>>> frame = pd.Series(data, index = ['A','B','C','D','E','F'])>>> frameA 1B 2C .

2020-12-02 22:23:15 3405

原创 Pandas-DataFrame

1、DataFrame的创建DataFrame是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。DataFrame既有行索引,也有列索引,它可以看作是由Series组成的字典,不过这些Series公用一个索引。DataFrame的创建有多种方式,不过最重要的还是根据dict进行创建,以及读取csv或者txt文件来创建。这里主要介绍这两种方式。根据字段创建>>> data = { 'state':['Ohio','Ohio','Ohio','Nevada'

2020-12-01 22:14:09 157

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除