自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 资源 (3)
  • 收藏
  • 关注

原创 flink sql(自定义函数)消费数据写入mysql

flink sql(自定义函数)消费数据写入mysql集群的flink版本1.9.0kafka版本0.81、pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="

2020-11-07 17:22:46 1137

原创 Datax执行命令后出现乱码问题

Datax执行命令后出现乱码问题:控制台出现乱码:直接输入CHCP 65001回车即可

2020-04-08 15:51:15 4108

原创 flink table api/sql消费kafka的json数据保存到mysql

flink消费kafka数据的版本问题,可以去https://mvnrepository.com/,查看对应版本。如果在开发过程中,出现版本不对应,那么kafka的topic一定要重新创建一个,以防各种错误。环境:mysqlzookeeper:3.4.13kafka:0.8_2.11flink:1.7.2(pom.xml中)启动zookeeperbin/zkServer.sh st...

2019-06-14 15:04:06 10085 5

原创 flinksql实时统计程序背压延迟优化

优化flink实时统计程序性能

2023-08-16 15:58:50 773

原创 为什么hive会出现_HIVE_DEFAULT_PARTITION分区

因为在业务sql中使用的是动态分区,并且hive启用动态分区时,对于指定的分区键如果存在空值时,会对空值部分创建一个默认分区用于存储该部分数据,默认该分区名为_HIVE_DEFAULT_PARTITION。为什么hive表中出现_HIVE_DEFAULT_PARTITION分区?

2023-08-14 11:03:14 691

原创 spark经典报错:Missing an output location for shuffle 2

Missing an output location for shuffle

2023-07-26 11:38:52 606

原创 spark sql读取不到orc格式报错java.lang.NullPointerException at org.apache.spark.sql.execution.datasources.orc

由于表存储数据用textfile的时候,因为分隔符的问题导致数据会被切分紊乱,导致有很多null的数据存储,所以使用orc的格式存储数据。注意:目前我是在大数据平台中运行的sql,set spark.sql.hive.convertMetastoreOrc=false和业务sql在一个会话中执行,所以参数只会在当前会话中生效。这个参数默认是true,spark操作orc表数据的时候,默认使用的是内置orc reader和 orc writer,替代hive会有不兼容的情况,所以设置以上参数就成功了。

2023-04-10 15:39:11 863

原创 IDEA中执行scala代码报错Error compiling the sbt component ‘compiler-interface-2.11.8-61.0‘

1、setting里面的scala compiler server中的jdk修改为1.8。【注意:2022.3版本的IDEA默认时18版本的jdk】这个错误就是因为jdk版本和scala版本不匹配导致的,修改一下几个地方的jdk就可以解决了!2、file->project structure->project设置jdk版本。3、file->project structure->modules设置jdk版本。4、file->project structure->SDKS设置jdk版本。

2023-03-17 10:11:51 1161

转载 pandas详细的操作手册

pandas详细案例

2022-11-28 10:43:15 99

原创 pandas实现列转行

pandas实现列转行

2022-11-25 11:34:44 1017

原创 spark本地读取集群hive问题:Exception in thread main ExitCodeException exitCode=-1073741701

spark本地读取集群hive问题:Exception in thread main ExitCodeException exitCode=-1073741701

2022-10-27 15:45:32 855

原创 spark本地读取集群hive问题:Failed to connect to /192.168.0.0:9866 for block BP-1340737360-192.168.0.0-1

spark本地读取集群hive问题:Failed to connect to /192.168.0.0:9866 for block BP-1340737360-192.168.0.0-1

2022-10-27 15:35:45 797

原创 datax同步pg数据库数据

datax同步postgre数据

2022-06-29 10:38:43 849

原创 java代码定时执行datax脚本

本文参考:https://blog.csdn.net/m0_37691745/article/details/79286852代码中需要调用datax脚本实现数据同步,此时我只使用了执行datax脚本的代码,调度没有使用。import java.io.BufferedReader;import java.io.File;import java.io.FilenameFilter;import java.io.InputStreamReader;import java.util.concurren

2020-11-09 16:57:02 818

原创 pip常用的国内镜像源

pip安装完成后,默认使用的是国外的镜像源,下载速度非常的慢,影响我们的学习效率和工作效率。下载的时候我们可以使用国内几个常用的镜像源。常用的国内源有以下:(1)阿里云 http://mirrors.aliyun.com/pypi/simple/(2)豆瓣http://pypi.douban.com/simple/(3)清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/(4)中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/

2020-10-24 10:54:20 4863

原创 spark streaming消费kafka数据手动管理偏移量offset到zookeeper,保证精准消费一次

Spark Streaming消费kafka数据手动管理偏移量offset到zookeeper,保证精准一致消费,最终的处理结果保存在mysql中。spark的版本是2.1kafka的版本是0.8代码:/** * @author lhq * @date 2020/10/10 10:35 * @version 1.0 */import java.sql.{Connection, DriverManager, PreparedStatement}import kafka.com

2020-10-10 17:19:25 591

原创 使用datax同步odps数据到oracle

odps数据同步到oracle{“job”: {“setting”: {“speed”: {“channel”: 5}},“content”: [{“reader”: {“name”: “odpsreader”,“parameter”: {“accessId”: “accessId”,“accessKey”: “accessKey”,“project”: “targetProjectName”,“table”: “tableName”,“partition”: [“pt=

2020-10-09 17:08:01 847 2

原创 datax实现mysql数据同步到oracle

一、mysql数据同步到oracle注意:mysql不区分大小写,但是oracle严格区分大小写,并且oracle的库名、表名和字段名要用大写,如果用的小写需要添加双引号说明。{“job”: {“setting”: {“speed”: {“byte”: 1048576}},“content”: [{“reader”: {“name”: “mysqlreader”,“parameter”: {“column”: [“sjh” ,“xm” ,“sfzh”],“connectio

2020-10-09 17:01:58 1166

原创 jvm类加载机制的小练习题

学完jvm的类加载机制之后,做两个小题试试。先来看看第一个小题:public class Singleton {private static Singleton singleton = new Singleton();public static int value1;public static int value2 = 0;private Singleton() {value1++;value2++;}public static Singleton getInstance() {

2020-08-26 13:48:21 164

原创 flink使用DataStream Api消费kafka数据保存到mysql

flink使用DataStream Api消费kafka数据保存到mysqlpom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apa

2020-06-01 15:13:15 920 3

原创 flink使用dataStream Api消费数据保存到mysql

记录一下基础的自定义sink:flink处理流式数据保存到mysql中话不多说,上代码:pom.xml<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.0</flink.version> <java.version>1.8</jav

2020-05-27 18:45:45 951

原创 Error:java: Annotation processing is not supported for module cycles. Please ensure that all modules

报错信息:Error:java: Annotation processing is not supported for module cycles. Please ensure that all modules from cycle [lhqSSMStucommon,lhqSSMStudao,lhqSSMStuservice] are excluded from annotation processing很明显的报错信息就是lhqSSMStucommon,lhqSSMStudao,lhqSSMStuser

2020-05-19 10:54:42 170

原创 ImportError: cannot import name TFrozenDict 错误

在终端里输入下列命令pip install pyhive[hive]注意这里要加上[hive]后缀,否则有些关联的包装不上,会导致报错

2020-04-10 17:15:26 4115 3

原创 python连接hive报错Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available

python连接hive报错:thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2在window下测试连接hive,出...

2020-04-10 17:14:07 3657 3

原创 python读取hive的数据

python连接hive需要将python代码放到linux上运行在window上至今测试不通连接hivefrom pyhive import hiveconn=hive.Connection(host=‘192.168..’,port=10000,database=‘test’)cursor=conn.cursor()cursor.execute(‘select * from ...

2020-04-10 17:10:45 1333

原创 Datax实现odps和mysql之间数据传输

一、 mysql的数据加载到odps的表中{“job”: {“setting”: {“speed”: {“byte”: 1048576}},“content”: [{“reader”: {“name”: “mysqlreader”,“parameter”: {“column”: [“id”,“name”,“password”,“position”],“connec...

2020-04-08 15:47:14 1853

原创 Incorrect string value: '\xE5\xBC\xA0\xE6\x96\x87...'数据库字符集问题解决

因为我的mysql数据库创建时,忘记设置编码为utf8了,然后再创建表的时候每一列的编码也是latin1,所以才会报这个错误。解决:然后通过查看数据表编码show create table person;查看每一列的编码,将latin1修改为utf8就可以了。...

2020-04-02 14:26:20 549

原创 hive的UDAF函数

这篇文章非常清楚的结合例子介绍了UDAF函数https://blog.csdn.net/l1028386804/article/details/80602283

2020-03-30 14:18:25 331

原创 spark shuffle详解(hashShuffle和sortShuffle)

Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduc...

2019-12-16 16:37:03 1918

原创 jvm运行时数据区域详解

javaGC:垃圾回收,垃圾收集机制(回收jvm内存的垃圾)什么是jvm:java虚拟机,它只识别 .class 类型文件,它能够将 class 文件中的字节码指令进行识别并调用操作系统向上的 API 完成动作。什么是 JRE ? 英文名称( Java Runtime Environment ),Java 运行时环境。它主要包含两个部分:JVM 的标准实现和 Java 的一些基本类库。相对于...

2019-12-09 16:06:59 94

原创 hive优化总结篇

下面这篇博客,总结的非常好!https://blog.csdn.net/yu0_zhang0/article/details/81776459

2019-12-09 16:04:24 92

原创 hive的原理详解

hive的概念及优化:https://www.cnblogs.com/hackerer/p/10781289.html

2019-12-09 13:38:33 96

原创 jvm类加载机制

https://blog.csdn.net/m0_38075425/article/details/81627349

2019-12-06 16:51:32 100 1

原创 kafka为什么可以支持那么大吞吐量,怎么实现的?

kafka为什么可以支持那么大吞吐量,怎么实现的?1、顺序读写磁盘,充分利用了操作系统的预读机制,不需要硬盘磁头的寻道时间。2、kafka的message是按topic分类存储的,topic中的数据又是按照一个一个分区存储都不同的broker节点的,分区实际上又是按照segment分段存储的。kafka又为分段的数据建立了索引文件。这种分区分段+索引的设计,提高了数据操作的并行度及数据读取的效...

2019-12-06 15:54:32 673

原创 kafka的key为null时,如何存储的?

http://m.sohu.com/a/161873968_315839

2019-12-06 15:38:43 438

原创 sparkStreaming消费kafka数据的两种方式(Receiver和Direct)详解及区别

spark Streaming读取kafka数据的两种方式:(1)receiver-baseReceiver模式是使用kafka的高层次的消费者api来实现的,这种方式是使用receiver不间断的来接收数据(push的模式),接收的数据会存储到Executor中(默认存储级别是内存满后写入磁盘),然后sparkStreaming启动作业去处理数据,处理完这一批数据之后,更新zookeeper...

2019-11-27 16:49:19 768

原创 spark的任务调度流程和资源调度机制

spark的*任务调度流程(1)提交应用程序之后,会在该节点启动Driver,Driver构建应用程序的运行环境,启动sparkContext,sparkContext构建DAG有向无环图。DAGScheduler根据RDD的宽窄依赖将DAG有向无环图切割成一个个的stage,将stage封装成taskset对象,将一个个taskset发送给taskscheduler(2)taskschedu...

2019-11-27 14:55:01 250

转载 RDD的弹性表现在哪几个方面

1.RDD的弹性表现在哪几个方面?1.自动进行内存和磁盘切换2.基于lineage的高效容错3.task如果失败会特定次数的重试4.stage如果失败会自动进行特定次数的重试,而且只会只计算失败的分片5.checkpoint【每次对RDD操作都会产生新的RDD,如果链条比较长,计算比较笨重,就把数据放在硬盘中】和persist 【内存或磁盘中对数据进行复用】(检查点、持久化)6.数据...

2019-11-26 11:10:51 3161

转载 转载CSDN博客步骤详解

参考博客原址 http://blog.csdn.net/bolu1234/article/details/51867099转载CSDN博客步骤:1、CSDN博客页面右键,点击【检查】 2、点击检查后,页面右侧出现html代码,如下图 3、点击写博客、点击左侧栏【博客设置】4、选择...

2019-11-26 10:08:27 567

原创 spark的hashshuffle和sortShuffle详解及区别

spark的shuffle两种实现在Spark 1.2以前,默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端,就是会产生大量的中间磁盘文件,进而由大量的磁盘IO操作影响了性能。在Spark 1.2以后的版本中,默认的ShuffleManager改成了SortShuffleManager...

2019-11-26 09:51:16 2467

winutils-lu.rar

hadoop的各个版本的hadoop.dll和winutils.exe。 hadoop2.X以及hadoop3的资源

2020-01-03

人脸识别实现的登录注册功能.zip

人脸识别基于百度的接口实现的登录注册功能,需要使用的可以下载,留言找我要详细文档,方便你看代码具体的实现

2019-05-26

spark-streaming-flume_2.11-1.*.jar

sparkstreming结合flume需要的jar包,scala是2.11版本,spark是1.6.2版本。也有其他版本的,需要的留言找我要

2019-05-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除