自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

那年夏天110的博客

大数据技术杂谈

  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 hive json数据处理

json-serde-1.3.6-SNAPSHOT-jar-with-dependencies.jar 可在github上下载json数据解析jar 可以上传到hdfs上:使用是在hive中先add 如:add jar hdfs://tmp/jsonser/json-serde-1.3.6-SNAPSHOT-jar-with-dependencies.jar;或add jar /bd/json-serde-1.3.6-SNAPSHOT-jar-with-d...

2020-08-31 13:54:48 166

原创 spark sql+hive ETL

spark-sql 缺点:执行语句insert overwrite table xx…在结果目录会有大量小文件,容易内存溢出执行失败Spark sql +hivecreate table if not exists db.res(sum_id string,cnt_id string,dis_id string,cnt_uid string,dis_uid string) partitioned by (dt string comment '分区日期 yyyy-MM-dd') stored as o

2020-08-31 13:28:40 587

原创 Superset部署与集成kylin

Superset是什么superset是一个Apache开源的数据探查与可视化平台,怎么说呢,我们只需要安装它,配置他的一些文件,就可以连接数据库,进行图表展示。Superset介绍后端:整个项目的后端是基于Python的,用到了Flask、Pandas、SqlAlchemy。前端:用到了npm、react、webpack,这意味着你可以在手机也可以流畅使用。。功能介绍:1、我们可以通过连接数据库,去对数据库中的单个表进行配置,展示出柱状图,折线图,饼图,气泡图,词汇云,数字,环状.

2020-08-31 13:11:32 1008

原创 spark集群app运行状态监控

部署运行机器:bdp-40*/1 * * * * /disk4/bd/spark_job_monitor/spark-job-monitor.shspark-job-monitor.sh 脚本代码:#!/bin/bash23 # spark job name array4 job_name_array=(5 'app_sparkToMg-1114'6 'sparkToDB-1016'7 'sparkToMg-0709'8 'sparkToMg_0822_online'9 )10

2020-08-31 13:00:27 365

原创 CDH+apache spark集群

spark-1.6.3-bin-hadoop2.6.tgz 官网下载,环境变量配置: /etc/profile bdp-40 节点81 # set java env82 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk83 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar84 export PATH=$P...

2020-08-31 12:57:43 286

原创 Ranger1.2.1+LDAP bug fix

说明:ranger1.2.1 在集成LDAP使用过程中发现用户数据同步参数不生效,排查发现是一个bug。ranger.usersync.sleeptimeinmillisbetweensynccycle 默认是3600000 1h同步一次。实际生产不能满足。在ambari页面修改也不能生效。排查ranger日志发现并没有生效。具体可见 https://issues.apache.org/jira/browse/RANGER-681ugsync/src/main/java/org/apac..

2020-08-31 11:04:21 652

原创 RocketMQ技术调研

RocketMQ集群部署和架构RocketMQ集群部署版本: rocketmq-all-4.5.2-bin-releaseMaster-a:10.3.14.11 hostname:k8s-node-11Slave-a:10.3.14.12 hostname:aliyun12Master-b:10.3.14.237 hostname:iZ2zedzr0kho17llixfejdZSlave-b:10.3.14.241 hostname:iZ2zegz7uqi3j..

2020-08-31 11:02:57 343

原创 Kerberos+HDP客户端部署与配置

背景说明:在Ambari平台上启用Kerberos之后,一些服务的Web UI 如:Namenode:50070、Yarn Web UI、spark history UI等快速链接大部分都是需要Kerberos认证才可以继续使用的。像这种情况,就不能在Linux上进行操作.需要在Windows上安装Kerberos客户端,再进行浏览器配置才可以访问Hadoop相关服务的Web UI界面。安装配置主要分为以下几步在windows上安装Kerberos客户端,并修改本地krb5.in..

2020-08-31 11:01:14 1560

原创 spark2.4.2+hadoop3编译

wget https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2.tgzspark2.4 pom.xml 修改: <!-- Add vendor maven repositories --> <!-- Cloudera --> <repository> <...

2020-08-31 10:58:36 838 2

原创 flink1.10.1+hdp3.1.0.0-78编译

基础环境:[root@hdp2 flink]# which mvn/root/apache-maven-3.6.3/bin/mvnyum -y install git编译flink1.10.1 集成环境 hdp3.1.0.0-78https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/release-notes/content/comp_versions.html[root@hdp2 flink-sha...

2020-08-31 10:56:18 815 1

原创 kafka集群搭建与使用

kafak集群搭建与使用1. kafka下载和依赖官网下载地址:[KAFKA]: http://kafka.apache.org/downloads.html下载kafka_2.11-0.8.2.2.tgz 依赖编译环境JDK7+2.解压和配置tar -zxvf kafka_2.11-0.8.2.2.tgzcd kafka_2.11-0.8.2.2kafka目录结构和说明bin

2017-02-28 14:23:59 407

原创 开篇摘要总结

转眼间搬砖的日子已经快七年了(算上大学里苦逼入行开始的话) 很久以来一直是看各路大神的各种技术贴,学习、膜拜。 然而这些年自己也在各种不懂场景下使用、研究了各种技术,算是有些浅薄的了解和认识吧。但一直没时间和精力来已技术贴的形式,整理、总结出来。(主要还是太懒) 但最近一年来,感觉自己改好好的梳理、总结下玩过的、正在玩的、计划玩的一些技术。其实是发现周

2017-02-28 13:14:20 186

prestoDB在京东的应用实践

prestoDB在京东的应用实践

2016-12-11

spark机器学习

spark 机器学习 中文

2016-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除