重生之我在异世界打工-CSDN博客

原创快学——docker安装和使用

安装docker环境centeros7#1 卸载之前的dockersudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \

2020-07-09 09:58:16 217

原创条件触发定时任务的开始和停止

条件触发定时任务的开始和停止业务需求：答题游戏开始后，每5s统计一次结果。答题答完10次后，停止定时任务。第一步：springBoot启动类的设置@SpringBootApplication@EnableSchedulingpublic class App { // 线程存储器 public static ConcurrentHashMap<String, Sch...

2019-11-08 19:47:28 2725

原创 flink消费kafka限制消费速率

flink消费kafka限制消费速率

2023-11-27 16:51:00 894 1

原创记一次python使用request 请求proxy的问题

参考文章 https://zhuanlan.zhihu.com/p/350015032。有问题换多个版本网上查一下问题，不要想当然的认为不行。

2023-06-20 21:16:02 115

原创 flink 解决udf重复调用的问题（亲测有效）

udf会被调用4次，如果udf是计算型的，后果很严重。接下来介绍一下解决的办法。

2023-05-25 09:58:38 333

原创 flink1.12配置滚动日志（超详细）

flink 1.12 配置滚动日志

2023-05-11 15:39:06 603

原创 [FLINK] flink checkpoitn和kafka offset commit的关系

flink checkpoitn和kafka offset commit的关系

2022-11-16 17:01:39 447

原创 Flink动态业务规则的实现

在不停止flink任务的情况下，在外部通过配置，来达到修改flink输出特征逻辑的变化、新增和删除。

2022-08-18 16:48:35 1258

原创在zeppelin中pyspark使用java的sparkudf

zeppelin pyspark java sparkudf

2022-06-16 15:44:34 217 2

1.官网https://natapp.cn/2.购买隧道（免费）3.我的隧道->配置->复制auth token4.下载windows / linux客户端 https://natapp.cn/#download5.配置本地ini文件#将本文件放置于natapp同级目录程序将读取 [default] 段#在命令行参数模式如 natapp -authtoken=xxx 等相同参数将会覆盖掉此配置#命令行参数 -config= 可以指定任意config.ini文件[default

2022-05-23 14:26:21 282

原创 flinksql基础知识

文章目录Table的转换DataStream转换成表创建临时视图输出connector输出到文件输出到kafka输出到ES输出到mysql更新模式追加模式（append mode）撤回模式（retract mode）Upsert（更新插入）模式时间特性处理时间在 DataStream 转化时直接指定在schema中指定在DDL语句中指定事件事件在 DataStream 转化时直接指定定义 Table Schema 时指定创建DDL时指定窗口分组窗口（Group Windows）over window（hiv

2022-05-23 10:33:27 156

原创 flink sql指定rowtime和proctime的几种方式

flink sql 中的rowtime 和proctime参考文章 https://blog.csdn.net/spring0666/article/details/116994928event time1.sql中创建CREATE TABLE tt_stream ( a VARCHAR, b VARCHAR, ts TIMESTAMP, WATERMARK wk1 FOR ts as withOffset (ts, 1000) --Watermark计算方法。) WITH ();

2022-05-09 12:24:07 1781

原创 flink实时计算uv，并每天使用离线数据更正计算结果

文章目录flink实时计算uv，并每天使用离线数据更正计算结果需求思考1.怎么在flink中判断是新用户？2.flink怎么获取离线数据的结果？3.kafka join hive的字段？4.使用常量字段join，后续处理？5.开窗口6.ds1 interval join ds27.后续处理8.夸一下自己代码flink实时计算uv，并每天使用离线数据更正计算结果需求数据一部分发到kafka实时计算，一部分存到hive离线计算。每天用hive计算的结果更正实时计算的结果。比如hive在2022-05-0

2022-05-08 11:40:25 801

原创 [pyspark]输出多份csv文件

参考文章https://zhuanlan.zhihu.com/p/363821317代码df.repartition(5).write.csv(path,overwrite)

2022-04-14 09:46:35 307

原创 flink写入带kerberos认证的kudu connector

文章目录前言一、介绍二、先来看kudu java api认证kerberos1.首先需要进行kerberos的验证（需要将相应用户的keytab文件引入本地）2.依赖3.引入hadoop 配置文件4.获取客户端5.增删改查三、修改flink-kudu connector支持kerberos1.先从github 下载源码2.修改四、修改后的代码分享前言找了半天网上一点资料都没有，还是得靠自己。一、介绍flink官方并没有flink-kudu connector，可以用这个第三方的，地址如下https

2022-03-24 09:45:23 2811 1

原创记一次spark两个大表join数据倾斜调优

a表7亿条b表1亿条a表aid c1 c2 c3b表bid bvalue需求：分别用a表的c1 c2 c3与b表的bid关联（left join），获取bvalue 来扩充a表1.直接写三个left join 发现数据倾斜2.c1 c2 c3 只关联一次如下，进行查看，发现不会出现数据倾斜 df1=spark.sql("select * from b") df2=spark.sql("select * from a") df3=df2.join(df1,df2.c1=df1.bi

2022-03-18 15:06:33 2655 1

原创 spark读csv文件转成map

代码scala> val a=spark.read.csv("/user/flink/qinghua/myconf.txt").rdd.map(x=> x.getString(0)->x.getString(1)).collectAsMap()a: scala.collection.Map[String,String] = Map(date -> 20220103, name -> haha) scala> a("date")res13: String =

2022-03-10 16:13:42 2050

原创 java写好的spark udf 怎么用spark shell 测试

启动的时候spark2-shell --jars hdfs:///xxx/a.jar进入shellimport org.apache.spark.sql.types.StringType;import com.test.udf.MyUdf;spark.sqlContext.udf.register("addressUdf", new MyUdf(),StringType);val a=spark.sql("select addressUdf('xxxx')");a.show();.

2022-03-07 18:53:37 1895

原创 hive udf 遇到的序列化问题

hive udf 序列化问题报错Exception in thread "main" org.apache.hive.com.esotericsoftware.kryo.KryoException: java.lang.UnsupportedOperationException解决 implementing DoNothingSerializerhttps://issues.apache.org/jira/browse/HIVE-7711报错java.io.InvalidClassExcep

2022-03-03 09:45:17 1884

原创记一次【该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系】修复过程

1.检查ntp服务，巧了真的是这个问题原因是ntp服务挂掉了，重新启动后，等10分钟左右再启动所有角色。我启动kudu的时候报错，无法同步还是因时钟同步问题，所以等10分钟左右再启动。2.检查agent server 是否启动(先启动server再启动agent)/opt/cm-5.15.1/etc/init.d/cloudera-scm-agent status (start)server机器: /opt/cm-5.15.1/etc/init.d/cloudera-scm-server st

2022-02-22 17:32:16 1224

原创记一次封装superset打docker镜像的过程

1.拉取镜像docker pull centos:centos72.运行docker run -itd --name mysuperset centos:centos73.进入容器docker exec -it mysuperset /bin/bash4.更新环境yum -y update5.安装需要的软件1.安装vimyun -y install vim2.安装依赖yum install gcc gcc-c++ libffi-devel python-devel python-p

2022-02-22 09:53:26 1159

原创 aws服务器使用root+密码登陆

aws服务器lightsail使用root+密码登陆创建服务器的时候添加这个脚本千万不要用123456 我使用这个密码不到半天就被人盗了#!/bin/bashecho root:123456 |sudo chpasswd rootsudo sed -i 's/^#\?PermitRootLogin.*/PermitRootLogin yes/g' /etc/ssh/sshd_config;sudo sed -i 's/^#\?PasswordAuthentication.*/PasswordAu

2021-12-28 11:10:24 1727

原创 hive数据迁移到clickhouse+kafka数据写入clickhouse

hive数据迁移到clickhouse文章目录hive数据迁移到clickhouse1.使用命令导入2.使用waterdropkafka数据写入clickhouse1.使用命令导入#1.hive数据导出成csv格式hive -e "select id,name,age from xxx" | tr "\t" "," > /otp/data/test.csv#2.导入clickhouseclickhouse-client -h hadoop102 --query='INSERT INTO

2021-12-16 10:13:13 3514

原创一个使用logback把日志输出到文件中的小demo

注意事项修改这个包名 <logger name="com.lqh" 修改日志存放的位置依赖 <dependencies>  <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId>

2021-12-15 10:47:10 462

原创 kafka常用命令

# 创建topicbin/kafka-topics --create --topic mytopic --replication-factor 1 --partitions 5 --zookeeper real-time-002:2181/kafka # 查看topic listbin/kafka-topics --list --zookeeper real-time-002:2181/kafka# 查看topic具体信息bin/kafka-topics --describe --zook

2021-12-09 18:33:34 995

原创【pyspark】的一些用法

读hdfs上的文件from smart_open import openimport pandas as pdfile_stream = open("hdfs:///tmp/a.csv", encoding='gb2312')file = pd.read_csv(file_stream)这个csv是这种格式的，一个需求求每个class1下得分最高的class2展示class0class1class2varscoreAaa-1zhangsan80Aa

2021-11-17 16:00:55 88

原创【微信开发6】专属推广二维码 java+SpringBoot

文章目录前言营获取二维码推广功能代码实现前言本系列教程采用java springboot框架开发，需要具备一定的基础知识。纯干货代码，自己遇到的一些问题and解决方案。营大家都知道技术不难，难的是营销怎么快速提升公众号的关注数量。微信提供了二维码的功能。我的思路是，每个关注的用户，都有自己专属的二维码，他可以用这个专属的二维码推广。user_b通过扫user_a码关注公众号，会给user_a增加一个一级推广人数。user_c扫userb的二维码关注公众号，会给user_a增加一个二级推

2021-11-11 16:32:58 685

原创【微信开发5】菜单点击事件的处理java+SpringBoot

文章目录前言事件处理代码前言本系列教程采用java springboot框架开发，需要具备一定的基础知识。纯干货代码，自己遇到的一些问题and解决方案。事件处理上一篇讲到自定义菜单的key，点击菜单会携带key发送到后台，我们接受点击事件，根据key来做不同的处理。点击菜单还是调用的我们认证时填写的url。 ip/api/authtoken 可以看第一期。代码 @RequestMapping(value = "/authtoken", method = RequestMethod.POS

2021-11-11 15:55:00 421

原创【微信开发4】自定义菜单的优化java+SpringBoot

文章目录前言菜单操作删除菜单自定义菜单前言本系列教程采用java springboot框架开发，需要具备一定的基础知识。纯干货代码，自己遇到的一些问题and解决方案。菜单操作官方文档：https://developers.weixin.qq.com/doc/offiaccount/Custom_Menus/Creating_Custom-Defined_Menu.html因为删除菜单和增加菜单都需要access token，上一篇写了怎么获取。我们可以封装成一个请求来操作。代码如下删除菜单@R

2021-11-11 15:47:00 386

原创【微信开发3】获取access token优化 java+SpringBoot

文章目录前言获取Access token代码前言本系列教程采用java springboot框架开发，需要具备一定的基础知识。纯干货代码，自己遇到的一些问题and解决方案。获取Access token官方文档：https://developers.weixin.qq.com/doc/offiaccount/Basic_Information/Get_access_token.html请求说明：https请求方式: GET https://api.weixin.qq.com/cgi-bin/tok

2021-11-11 15:26:06 1135

原创【微信开发2】自动回复/关键词回复 java+SpringBoot

文章目录前言自动回复代码关键词回复代码前言本系列教程采用java springboot框架开发，需要具备一定的基础知识。纯干货代码，自己遇到的一些问题and解决方案。自动回复代码当用户在公众号聊天窗口输入内容，会是post请求我们认证的url。认证使用get请求，这个是post请求。用户发送的信息可以是文字、语音、图片和视频等，都是用xml包裹的信息。开发文档：https://developers.weixin.qq.com/doc/offiaccount/Message_Management/

2021-11-11 15:02:22 802

原创【微信开发1】接入微信服务器 java+SpringBoot

文章目录前言测试账号配置信息代码前言本系列教程采用java springboot框架开发，需要具备一定的基础知识。纯干货代码，自己遇到的一些问题and解决方案。测试账号可以看到如下信息：配置信息代码url：我们项目的地址，测试阶段在本地idea启动+内网穿透（推荐natapp）填写ip/api/authtokentoken：随便填写，代码中和这里填写的一致即可上代码，启动项目填好url和token点测试提交，即可认证通过。@RestController@RequestMapping(

2021-11-11 14:33:49 299

原创 full join的一些问题--拼接所有的字段

drop table if exists lqh_test1;drop table if exists lqh_test2;drop table if exists lqh_test3;drop table if exists lqh_test4;create table lqh_test1(id string,a string);create table lqh_test2(id string,b string);create table lqh_test3(id string,c stri

2021-06-30 10:43:30 361

原创 flink on zeppelin使用手册（持更）

加载udf和jar包%flink.confflink.udf.jars /etc/udf/myudf.jar(或者在hdfs上 hdfs:///tmp/udf/myudf.jar)flink.execuion.jars hdfs:///tmp/flinkjars (加载flink本身不带的jar包)在zeppelin中也可以写udf但是只能用scala写，上面这种方式 java和scala都可以，写完打包加载。查看udf%flink.ssql(type=update)show functio

2021-06-30 10:00:00 217

原创 git不常用命令

删除分支(第一步删除本地第二步删除远程)git tag -d xxxgit push origin :refs/tags/xxx

2021-06-16 18:15:51 45

转载【Hbase】常用操作

https://blog.csdn.net/wuliu_forever/article/details/88345429

2021-05-11 17:23:20 49

原创【flink】udf数组类型参数 row[]

文章目录需求尝试最终方案需求有如下结构的kafka数据源（json形式）需要计算f1.name=f0.name相等的个数。尝试create view f0_view asselect session_id, proc_time, namefrom gsy_ods,unnest(persons) as t(name, age);create view f1_view asselect session_id, proc_time, namefro

2021-04-29 16:39:31 1071

原创【DateUtil】java8

package com.xx.dubbo.dubboservice.utils;import java.time.*;import java.time.format.DateTimeFormatter;import java.time.temporal.ChronoUnit;import java.time.temporal.TemporalAdjusters;import java.time.temporal.WeekFields;import java.util.Date;import

2021-04-29 14:44:21 69

原创【flink】flink sql几种join的探索及应用

文章目录问题需求最终解决方案解释几种join的尝试1.regular join2.interval join3.temporal join4.look up join5.多维temporal join6.Lateral Table Join问题需求最近碰到一个需求，有如下表格这样一个kafka数据源，用flink sql实时enrich这个流，加上两个特征7天内同一申请人申请次数7天内作为担保人出现的次数event_id事件idapply_id申请人idconta

2021-04-25 17:18:33 741

原创 LSM Tree

https://www.jianshu.com/p/b12d779f9601

2021-04-13 16:21:13 40

flink动态业务规则

flink写入带kerberos认证的kudu connector

空空如也