嘘、不语-CSDN博客

原创 Clickhouse 使用Kafka表引擎读取Kafka数据

首先是 Kafka 数据表A,它充当的角色是一条数据管道,负责拉取 Kafka 中的数据； CREATE TABLE test.UserForKafka ( Userid String, Age Int32, Mobile String, Address String, OrderNo String, UpdateTime DateTime, CreateTime DateTime) ENGINE = Kafka() SETTINGS kafka_brok.

2020-11-23 18:11:21 4123 9

原创 Spark 线程问题、日志文件过大

1. Spark 线程问题实时服务器部署着多个Spark和Flink实时任务,Spark任务运行一段时间后发现几个任务异常结束，将失败的任务重启。运行几分钟，发现本来运行正常的任务也异常结束，重启多次依旧如此。开始怀疑是集群资源不足造成了，查看CM中 Yarn的资源池发现资源充足，接着查看运行失败任务的日志，发现共同异常：unable to create new native thread出现问题找根本原因，于是就问了度娘，解决方法如下：1、查看系统线程数 ulimit -u这是修改后的，修改

2021-06-16 16:00:07 1052

原创 Windows 环境端口被占用怎么办

1、开始->运行->cmd，或者是window+R键。 2、查看被占用端口对应的 PID# netstat -aon|findstr "被占用的端口号"，回车执行命令例如： netstat -aon|findstr "8090"显示内如如下：3、查看进程PID 4、结束进程打开任务管理器---> 详细信息---->找到对应的进程号PID，右击---选择结束进程树。 5、...

2020-09-28 10:04:48 273

原创使用Spark读取Hive数据，数据存储

使用spark操作hive库的数据，在日常业务中随处可见，记录一下……话不多说1、无论使用idea或者eclipse，创建工程后，spark、hive 的相关pom.<properties> <spark.core.version>2.4.0</spark.core.version> <scala.version>2.11</scala.version> <build_scope>compile&

2020-09-23 15:12:54 1627

原创 Structured Streaming+Kafka 配置问题

使用Structured Streaming处理数据的知识积累。1、Structured Streaming 在做读取数据的时候，format（）首先会判断加载的数据源是什么（Kafka、MySQL ···），2、读取Kafka数据的时候，KafkaSourceProvider 类中的createMicroBatchReader 函数体中有对option() 中设置的Kafka参数...

2020-03-19 15:22:40 654

原创 structured streaming+kafka 异常处理

由于使用structured streaming +kafka 处理数据，任务运行一段时间后就会出现Kafka数据无法消费，任务运行正常，但是从日志中看到This member will leave the group 。。。的输出。由于是structured streaming做的流处理，所以在设置Kafka参数时，在任务中是否生效，在测试，所以先记录一下，预知下文如何，且看下次分解。...

2020-03-19 13:55:00 1540 2

原创 Spark & Hive 关于parquet格式文件的区别

因为数据之前一直都在MySQL库中保存，现在需要将部分数据移到hive库中，由于数据在MySQL是分库分表存储的，试了很多方式直接从MySQL到Hive库中都没有成功，于是，采用spark读取MySQL数据输出到parquet文件中，再load到Hive中，这才遇到了这个问题。将spark输出的parquet文件按分区load到hive中，出现load到hive中的字段比...

2019-09-18 10:36:42 2534 2

原创 spark-client模式下，设置spark的日志级别

# Set everything to be logged to the consolelog4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.consol

2019-06-06 11:54:11 2255 2

原创 SpringBoot+Thymeleaf静态资源的引入问题

springboot与thymeleaf模板的搭建，在pom文件中需要引入依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-thymeleaf</artifac...

2019-04-23 22:53:34 2489

搬砖の隔壁老王