- 博客(9)
- 问答 (1)
- 收藏
- 关注
原创 Clickhouse 使用Kafka表引擎读取Kafka数据
首先是 Kafka 数据表A,它充当的角色是一条数据管道,负责拉取 Kafka 中的数据; CREATE TABLE test.UserForKafka ( Userid String, Age Int32, Mobile String, Address String, OrderNo String, UpdateTime DateTime, CreateTime DateTime) ENGINE = Kafka() SETTINGS kafka_brok.
2020-11-23 18:11:21 4123 9
原创 Spark 线程问题、日志文件过大
1. Spark 线程问题实时服务器部署着多个Spark和Flink实时任务,Spark任务运行一段时间后发现几个任务异常结束,将失败的任务重启。运行几分钟,发现本来运行正常的任务也异常结束,重启多次依旧如此。开始怀疑是集群资源不足造成了,查看CM中 Yarn的资源池发现资源充足,接着查看运行失败任务的日志,发现共同异常:unable to create new native thread出现问题找根本原因,于是就问了度娘,解决方法如下:1、查看系统线程数 ulimit -u这是修改后的,修改
2021-06-16 16:00:07 1052
原创 Windows 环境端口被占用怎么办
1、开始->运行->cmd,或者是window+R键。 2、查看被占用端口对应的 PID# netstat -aon|findstr "被占用的端口号",回车执行命令例如: netstat -aon|findstr "8090"显示内如如下:3、查看进程PID 4、结束进程 打开任务管理器---> 详细信息---->找到对应的进程号PID,右击---选择结束进程树。 5、...
2020-09-28 10:04:48 273
原创 使用Spark读取Hive数据,数据存储
使用spark操作hive库的数据,在日常业务中随处可见,记录一下……话不多说1、无论使用idea或者eclipse,创建工程后,spark、hive 的相关pom.<properties> <spark.core.version>2.4.0</spark.core.version> <scala.version>2.11</scala.version> <build_scope>compile&
2020-09-23 15:12:54 1627
原创 Structured Streaming+Kafka 配置问题
使用Structured Streaming处理数据的知识积累。1、Structured Streaming 在做读取数据的时候,format()首先会判断加载的数据源是什么(Kafka、MySQL ···),2、读取Kafka数据的时候,KafkaSourceProvider 类中的createMicroBatchReader 函数体中有对option() 中设置的Kafka参数...
2020-03-19 15:22:40 654
原创 structured streaming+kafka 异常处理
由于使用structured streaming +kafka 处理数据,任务运行一段时间后就会出现Kafka数据无法消费,任务运行正常,但是从日志中看到This member will leave the group 。。。的输出。由于是structured streaming做的流处理,所以在设置Kafka参数时,在任务中是否生效,在测试,所以先记录一下,预知下文如何,且看下次分解。...
2020-03-19 13:55:00 1540 2
原创 Spark & Hive 关于parquet格式文件的区别
因为数据之前一直都在MySQL库中保存,现在需要将部分数据移到hive库中,由于数据在MySQL是分库分表存储的,试了很多方式直接从MySQL到Hive库中都没有成功,于是,采用spark读取MySQL数据输出到parquet文件中,再load到Hive中,这才遇到了这个问题。 将spark输出的parquet文件按分区load到hive中,出现load到hive中的字段比...
2019-09-18 10:36:42 2534 2
原创 spark-client模式下,设置spark的日志级别
# Set everything to be logged to the consolelog4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.consol
2019-06-06 11:54:11 2255 2
原创 SpringBoot+Thymeleaf静态资源的引入问题
springboot与thymeleaf模板的搭建,在pom文件中需要引入依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-thymeleaf</artifac...
2019-04-23 22:53:34 2489
空空如也
监控kafka数据源是否堆积
2019-06-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人