- 博客(13)
- 问答 (1)
- 收藏
- 关注
原创 apache paimon-update
Apache Paimon(incubating) is a streaming data lake platform that supports high-speed data ingestion, change data tracking and efficient real-time analytics.
2023-06-29 20:15:43 300 1
原创 flink提交流程[shell到user class]
然后调用 ClientUtils.executeProgram方法。在run方法内会做一系列的运行的前置动作。通过反射最终去执行用户代码。
2023-06-05 16:00:02 86 1
原创 解决spark saveAsTable生成的parquet格式的表的问题
解决spark saveAsTable生成的parquet格式的表的问题问题一:直接在命令行创建的parquet格式的表通过spark saveAsTable 无法写入
2020-06-18 16:06:49 3069
原创 hive自定义行分隔符
首先交代一下背景:通过spring消费RMQ的数据写到hdfs,从一开始就预料到直接写textfile会有错行乱行的问题,所以一开始的方案是写parquet,经过验证后发现写parquet会有很多小文件(parquet文件落地后不能修改,不能追加),会对name node造成额外的压力,所以最终妥协写textfile 加自定义行分割符查看hive默认的textfile 的inputformat默认的TextInputFormat在hadoop-mapreduce-client-core包里面
2020-05-28 22:42:09 2103 1
原创 为xgboost搭建环境,升级glibc,gcc,和解决升级glibc之后的中文乱码问题
一:将xgboost源码包编译好之后,在spark上运行报错:…/lib64/libc.so.6: version `GLIBC_2.14’ not found解决办法:升级glibc,我选择的是升级到2.14下载glibc-2.14.tar.xz:下载地址解压:tar -xvf glibc-2.14.tar.xz进入解压之后的目录并安装: [root@test hadoop]# cd gl
2017-12-20 18:25:25 1770
转载 在Linux系统系自带的python shell 模式下支持tab键补全功能
官方文档的Example如下>>> import rlcompleter >>> import readline >>> readline.parse_and_bind("tab: complete") >>> readline. <TAB PRESSED> readline.__doc__ readline.get_line_buffer( readline.r
2017-11-27 11:41:15 507
原创 sparkstreaming接受kafka数据实时存入hbse并集成rest服务
1:整个项目的流程分析通过flume向kafka发送数据,然后通过sparkstreaming实时处理kafka的数据,处理完之后存到hbse,算法模型通过rest服务调用处理完的数据2:服务器各组件的版本java version “1.7.0_65”Scala 2.11.8Spark version 2.1.0flume-1.6.0kafka_2.10-0.8.2.1hbase-1
2017-11-22 15:13:08 1031
原创 hive的Transform定义函数
hive中的自定义函数支持Transform和UDF。UDF是将java代码打包上传,如果你不想写java代码也可以,那就用到了Transform,写一个脚本,通过脚本来处理。本文是写的Python脚本来处理json数据,作用是和上篇文章的UDTF一样(上篇文章)。一:编写Python脚本json-udtf.py#!/bin/pythonimport sysimport json
2017-06-21 15:12:11 8384 2
原创 自定义UDTF和hive自定义函数的永久注册
package myUDF;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.Iterator;import java.util.List;经过自定义函数处理后的数据:只处理name字段四:对于本需求有了详细的了解之后
2017-06-16 17:56:27 6298
空空如也
关于hadoop中NameNode启动时的namenode何时加载fsimage
2017-02-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人