小卢的博客-CSDN博客

原创 flink sql(自定义函数)消费数据写入mysql

flink sql(自定义函数)消费数据写入mysql集群的flink版本1.9.0kafka版本0.81、pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="

2020-11-07 17:22:46 1137

原创 Datax执行命令后出现乱码问题

Datax执行命令后出现乱码问题：控制台出现乱码：直接输入CHCP 65001回车即可

2020-04-08 15:51:15 4108

原创 flink table api/sql消费kafka的json数据保存到mysql

flink消费kafka数据的版本问题，可以去https://mvnrepository.com/，查看对应版本。如果在开发过程中，出现版本不对应，那么kafka的topic一定要重新创建一个，以防各种错误。环境：mysqlzookeeper:3.4.13kafka：0.8_2.11flink:1.7.2（pom.xml中）启动zookeeperbin/zkServer.sh st...

2019-06-14 15:04:06 10085 5

原创 flinksql实时统计程序背压延迟优化

优化flink实时统计程序性能

2023-08-16 15:58:50 773

原创为什么hive会出现_HIVE_DEFAULT_PARTITION分区

因为在业务sql中使用的是动态分区，并且hive启用动态分区时，对于指定的分区键如果存在空值时，会对空值部分创建一个默认分区用于存储该部分数据，默认该分区名为_HIVE_DEFAULT_PARTITION。为什么hive表中出现_HIVE_DEFAULT_PARTITION分区？

2023-08-14 11:03:14 691

原创 spark经典报错:Missing an output location for shuffle 2

Missing an output location for shuffle

2023-07-26 11:38:52 606

原创 spark sql读取不到orc格式报错java.lang.NullPointerException at org.apache.spark.sql.execution.datasources.orc

由于表存储数据用textfile的时候，因为分隔符的问题导致数据会被切分紊乱，导致有很多null的数据存储，所以使用orc的格式存储数据。注意：目前我是在大数据平台中运行的sql，set spark.sql.hive.convertMetastoreOrc=false和业务sql在一个会话中执行，所以参数只会在当前会话中生效。这个参数默认是true，spark操作orc表数据的时候，默认使用的是内置orc reader和 orc writer，替代hive会有不兼容的情况，所以设置以上参数就成功了。

2023-04-10 15:39:11 863

原创 IDEA中执行scala代码报错Error compiling the sbt component ‘compiler-interface-2.11.8-61.0‘

1、setting里面的scala compiler server中的jdk修改为1.8。【注意：2022.3版本的IDEA默认时18版本的jdk】这个错误就是因为jdk版本和scala版本不匹配导致的，修改一下几个地方的jdk就可以解决了！2、file->project structure->project设置jdk版本。3、file->project structure->modules设置jdk版本。4、file->project structure->SDKS设置jdk版本。

2023-03-17 10:11:51 1161

转载 pandas详细的操作手册

pandas详细案例

2022-11-28 10:43:15 99

原创 pandas实现列转行

pandas实现列转行

2022-11-25 11:34:44 1017

原创 spark本地读取集群hive问题:Exception in thread main ExitCodeException exitCode=-1073741701

spark本地读取集群hive问题:Exception in thread main ExitCodeException exitCode=-1073741701

2022-10-27 15:45:32 855

原创 spark本地读取集群hive问题:Failed to connect to /192.168.0.0:9866 for block BP-1340737360-192.168.0.0-1

spark本地读取集群hive问题：Failed to connect to /192.168.0.0:9866 for block BP-1340737360-192.168.0.0-1

2022-10-27 15:35:45 797

原创 datax同步pg数据库数据

datax同步postgre数据

2022-06-29 10:38:43 849

原创 java代码定时执行datax脚本

本文参考：https://blog.csdn.net/m0_37691745/article/details/79286852代码中需要调用datax脚本实现数据同步，此时我只使用了执行datax脚本的代码，调度没有使用。import java.io.BufferedReader;import java.io.File;import java.io.FilenameFilter;import java.io.InputStreamReader;import java.util.concurren

2020-11-09 16:57:02 818

原创 pip常用的国内镜像源

pip安装完成后，默认使用的是国外的镜像源，下载速度非常的慢，影响我们的学习效率和工作效率。下载的时候我们可以使用国内几个常用的镜像源。常用的国内源有以下：（1）阿里云 http://mirrors.aliyun.com/pypi/simple/（2）豆瓣http://pypi.douban.com/simple/（3）清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/（4）中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/

2020-10-24 10:54:20 4863

原创 spark streaming消费kafka数据手动管理偏移量offset到zookeeper,保证精准消费一次

Spark Streaming消费kafka数据手动管理偏移量offset到zookeeper,保证精准一致消费,最终的处理结果保存在mysql中。spark的版本是2.1kafka的版本是0.8代码：/** * @author lhq * @date 2020/10/10 10:35 * @version 1.0 */import java.sql.{Connection, DriverManager, PreparedStatement}import kafka.com

2020-10-10 17:19:25 591

原创使用datax同步odps数据到oracle

odps数据同步到oracle{“job”: {“setting”: {“speed”: {“channel”: 5}},“content”: [{“reader”: {“name”: “odpsreader”,“parameter”: {“accessId”: “accessId”,“accessKey”: “accessKey”,“project”: “targetProjectName”,“table”: “tableName”,“partition”: [“pt=

2020-10-09 17:08:01 847 2

原创 datax实现mysql数据同步到oracle

一、mysql数据同步到oracle注意：mysql不区分大小写，但是oracle严格区分大小写，并且oracle的库名、表名和字段名要用大写，如果用的小写需要添加双引号说明。{“job”: {“setting”: {“speed”: {“byte”: 1048576}},“content”: [{“reader”: {“name”: “mysqlreader”,“parameter”: {“column”: [“sjh” ,“xm” ,“sfzh”],“connectio

2020-10-09 17:01:58 1166

原创 jvm类加载机制的小练习题

学完jvm的类加载机制之后，做两个小题试试。先来看看第一个小题：public class Singleton {private static Singleton singleton = new Singleton();public static int value1;public static int value2 = 0;private Singleton() {value1++;value2++;}public static Singleton getInstance() {

2020-08-26 13:48:21 164

原创 flink使用DataStream Api消费kafka数据保存到mysql

flink使用DataStream Api消费kafka数据保存到mysqlpom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apa

2020-06-01 15:13:15 920 3

原创 flink使用dataStream Api消费数据保存到mysql

记录一下基础的自定义sink：flink处理流式数据保存到mysql中话不多说，上代码：pom.xml<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.0</flink.version> <java.version>1.8</jav

2020-05-27 18:45:45 951

原创 Error:java: Annotation processing is not supported for module cycles. Please ensure that all modules

报错信息：Error:java: Annotation processing is not supported for module cycles. Please ensure that all modules from cycle [lhqSSMStucommon,lhqSSMStudao,lhqSSMStuservice] are excluded from annotation processing很明显的报错信息就是lhqSSMStucommon,lhqSSMStudao,lhqSSMStuser

2020-05-19 10:54:42 170

原创 ImportError: cannot import name TFrozenDict 错误

在终端里输入下列命令pip install pyhive[hive]注意这里要加上[hive]后缀，否则有些关联的包装不上，会导致报错

2020-04-10 17:15:26 4115 3

原创 python连接hive报错Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available

python连接hive报错：thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2在window下测试连接hive，出...

2020-04-10 17:14:07 3657 3

原创 python读取hive的数据

python连接hive需要将python代码放到linux上运行在window上至今测试不通连接hivefrom pyhive import hiveconn=hive.Connection(host=‘192.168..’,port=10000,database=‘test’)cursor=conn.cursor()cursor.execute(‘select * from ...

2020-04-10 17:10:45 1333

原创 Datax实现odps和mysql之间数据传输

一、 mysql的数据加载到odps的表中{“job”: {“setting”: {“speed”: {“byte”: 1048576}},“content”: [{“reader”: {“name”: “mysqlreader”,“parameter”: {“column”: [“id”,“name”,“password”,“position”],“connec...

2020-04-08 15:47:14 1853

原创 Incorrect string value: '\xE5\xBC\xA0\xE6\x96\x87...'数据库字符集问题解决

因为我的mysql数据库创建时，忘记设置编码为utf8了，然后再创建表的时候每一列的编码也是latin1，所以才会报这个错误。解决：然后通过查看数据表编码show create table person;查看每一列的编码，将latin1修改为utf8就可以了。...

2020-04-02 14:26:20 549

原创 hive的UDAF函数

这篇文章非常清楚的结合例子介绍了UDAF函数https://blog.csdn.net/l1028386804/article/details/80602283

2020-03-30 14:18:25 331

原创 spark shuffle详解（hashShuffle和sortShuffle）

Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下，reduc...

2019-12-16 16:37:03 1918

原创 jvm运行时数据区域详解

javaGC：垃圾回收，垃圾收集机制（回收jvm内存的垃圾）什么是jvm：java虚拟机，它只识别 .class 类型文件，它能够将 class 文件中的字节码指令进行识别并调用操作系统向上的 API 完成动作。什么是 JRE ？英文名称（ Java Runtime Environment ），Java 运行时环境。它主要包含两个部分：JVM 的标准实现和 Java 的一些基本类库。相对于...

2019-12-09 16:06:59 94

原创 hive优化总结篇

下面这篇博客，总结的非常好！https://blog.csdn.net/yu0_zhang0/article/details/81776459

2019-12-09 16:04:24 92

原创 hive的原理详解

hive的概念及优化：https://www.cnblogs.com/hackerer/p/10781289.html

2019-12-09 13:38:33 96

原创 jvm类加载机制

https://blog.csdn.net/m0_38075425/article/details/81627349

2019-12-06 16:51:32 100 1

原创 kafka为什么可以支持那么大吞吐量，怎么实现的？

kafka为什么可以支持那么大吞吐量，怎么实现的？1、顺序读写磁盘，充分利用了操作系统的预读机制，不需要硬盘磁头的寻道时间。2、kafka的message是按topic分类存储的，topic中的数据又是按照一个一个分区存储都不同的broker节点的，分区实际上又是按照segment分段存储的。kafka又为分段的数据建立了索引文件。这种分区分段+索引的设计，提高了数据操作的并行度及数据读取的效...

2019-12-06 15:54:32 673

原创 kafka的key为null时，如何存储的？

http://m.sohu.com/a/161873968_315839

2019-12-06 15:38:43 438

原创 sparkStreaming消费kafka数据的两种方式（Receiver和Direct）详解及区别

spark Streaming读取kafka数据的两种方式：（1）receiver-baseReceiver模式是使用kafka的高层次的消费者api来实现的，这种方式是使用receiver不间断的来接收数据（push的模式），接收的数据会存储到Executor中（默认存储级别是内存满后写入磁盘），然后sparkStreaming启动作业去处理数据，处理完这一批数据之后，更新zookeeper...

2019-11-27 16:49:19 768

原创 spark的任务调度流程和资源调度机制

spark的*任务调度流程（1）提交应用程序之后，会在该节点启动Driver，Driver构建应用程序的运行环境，启动sparkContext，sparkContext构建DAG有向无环图。DAGScheduler根据RDD的宽窄依赖将DAG有向无环图切割成一个个的stage，将stage封装成taskset对象，将一个个taskset发送给taskscheduler（2）taskschedu...

2019-11-27 14:55:01 250

转载 RDD的弹性表现在哪几个方面

1.RDD的弹性表现在哪几个方面？1.自动进行内存和磁盘切换2.基于lineage的高效容错3.task如果失败会特定次数的重试4.stage如果失败会自动进行特定次数的重试，而且只会只计算失败的分片5.checkpoint【每次对RDD操作都会产生新的RDD，如果链条比较长，计算比较笨重，就把数据放在硬盘中】和persist 【内存或磁盘中对数据进行复用】(检查点、持久化)6.数据...

2019-11-26 11:10:51 3161

转载转载CSDN博客步骤详解

参考博客原址 http://blog.csdn.net/bolu1234/article/details/51867099转载CSDN博客步骤：1、CSDN博客页面右键，点击【检查】 2、点击检查后，页面右侧出现html代码，如下图 3、点击写博客、点击左侧栏【博客设置】4、选择...

2019-11-26 10:08:27 567

原创 spark的hashshuffle和sortShuffle详解及区别

spark的shuffle两种实现在Spark 1.2以前，默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端，就是会产生大量的中间磁盘文件，进而由大量的磁盘IO操作影响了性能。在Spark 1.2以后的版本中，默认的ShuffleManager改成了SortShuffleManager...

2019-11-26 09:51:16 2467

winutils-lu.rar

人脸识别实现的登录注册功能.zip

spark-streaming-flume_2.11-1.*.jar

空空如也