自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 问答 (1)
  • 收藏
  • 关注

原创 Clickhouse 使用Kafka表引擎读取Kafka数据

首先是 Kafka 数据表A,它充当的角色是一条数据管道,负责拉取 Kafka 中的数据; CREATE TABLE test.UserForKafka ( Userid String, Age Int32, Mobile String, Address String, OrderNo String, UpdateTime DateTime, CreateTime DateTime) ENGINE = Kafka() SETTINGS kafka_brok.

2020-11-23 18:11:21 4123 9

原创 Spark 线程问题、日志文件过大

1. Spark 线程问题实时服务器部署着多个Spark和Flink实时任务,Spark任务运行一段时间后发现几个任务异常结束,将失败的任务重启。运行几分钟,发现本来运行正常的任务也异常结束,重启多次依旧如此。开始怀疑是集群资源不足造成了,查看CM中 Yarn的资源池发现资源充足,接着查看运行失败任务的日志,发现共同异常:unable to create new native thread出现问题找根本原因,于是就问了度娘,解决方法如下:1、查看系统线程数 ulimit -u这是修改后的,修改

2021-06-16 16:00:07 1052

原创 Windows 环境端口被占用怎么办

1、开始->运行->cmd,或者是window+R键。 2、查看被占用端口对应的 PID# netstat -aon|findstr "被占用的端口号",回车执行命令例如: netstat -aon|findstr "8090"显示内如如下:3、查看进程PID 4、结束进程 打开任务管理器---> 详细信息---->找到对应的进程号PID,右击---选择结束进程树。 5、...

2020-09-28 10:04:48 273

原创 使用Spark读取Hive数据,数据存储

使用spark操作hive库的数据,在日常业务中随处可见,记录一下……话不多说1、无论使用idea或者eclipse,创建工程后,spark、hive 的相关pom.<properties> <spark.core.version>2.4.0</spark.core.version> <scala.version>2.11</scala.version> <build_scope>compile&

2020-09-23 15:12:54 1627

原创 Structured Streaming+Kafka 配置问题

使用Structured Streaming处理数据的知识积累。1、Structured Streaming 在做读取数据的时候,format()首先会判断加载的数据源是什么(Kafka、MySQL ···),2、读取Kafka数据的时候,KafkaSourceProvider 类中的createMicroBatchReader 函数体中有对option() 中设置的Kafka参数...

2020-03-19 15:22:40 654

原创 structured  streaming+kafka 异常处理

由于使用structured streaming +kafka 处理数据,任务运行一段时间后就会出现Kafka数据无法消费,任务运行正常,但是从日志中看到This member will leave the group 。。。的输出。由于是structured streaming做的流处理,所以在设置Kafka参数时,在任务中是否生效,在测试,所以先记录一下,预知下文如何,且看下次分解。...

2020-03-19 13:55:00 1540 2

原创 Spark & Hive 关于parquet格式文件的区别

因为数据之前一直都在MySQL库中保存,现在需要将部分数据移到hive库中,由于数据在MySQL是分库分表存储的,试了很多方式直接从MySQL到Hive库中都没有成功,于是,采用spark读取MySQL数据输出到parquet文件中,再load到Hive中,这才遇到了这个问题。 将spark输出的parquet文件按分区load到hive中,出现load到hive中的字段比...

2019-09-18 10:36:42 2534 2

原创 spark-client模式下,设置spark的日志级别

# Set everything to be logged to the consolelog4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.consol

2019-06-06 11:54:11 2255 2

原创 SpringBoot+Thymeleaf静态资源的引入问题

springboot与thymeleaf模板的搭建,在pom文件中需要引入依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-thymeleaf</artifac...

2019-04-23 22:53:34 2489

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除