自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Logstash实现自定义插件在filter中读取redis数据(详细版)

Logstash实现自定义插件在filter中读取redis需求: 埋点的数据,在logstash数据抽取中,需要实时关联mysql的业务数据,最终形成一个数据输出。实现:1. 根据官网提示,先生成一个模版bin/logstash-plugin generate --type filter --name redis --path vendor/localgems生成之后的目录是: ./vendor/localgems/logstash-filter-redis 生成目录的树状结构如下:

2020-11-09 19:07:15 1032 3

转载 Mac Terminal 压缩与解压缩命令大全

Mac Terminal 压缩与解压缩命令大全本文为转载文章,作者与出处文章末尾标出tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName.tar.gz 和 .tgz解压:tar zxvf FileName.tar.gz

2020-11-02 08:30:49 776

原创 Hive经典SQL之行转列,列转行

前言:目前做离线数据计算,由于之前没有完整的数仓功能,前两天把CDH的配置和自己的代码又调试了一遍,目前数据已经进入到Hive原始数据ods层。使用到了这个经典函数,在这里记录一下。版本:Hive 1.1.01. 先准备一下数据创建表挺简单的,这里就不演示了。stu_namecoursescore张三数学95张三英语89李四语文97李四数学88李四英语902. 行转列用法-- 这里我们将学科和成绩两列都拼接起来,后边.

2020-10-30 16:17:07 6127 14

原创 一次关于 CDH 中 Spark SQL代码操作Hive无法连接Hive元数据问题

如题,最近想用 Spark SQL 操作数据 写入 Hive ,本地测试逻辑OK,发布线上发现连接不上Hive元数据,各种修改,头痛。终于发现问题,记录一下方便后来人。关于版本:CDH --> 5.16.1Hive -->1.1.0Spark --> 2.3.0Scala --> 2.11.6版本不对应也可以参考,毕竟问题出现的,和版本关系不太大~废话不多,首先是具体报错信息情况如下:Spark 打包运行过程中,并无明显报错,但是有一个现象就是运行状态由 .

2020-10-29 11:16:46 1242

原创 hive-site.xml

这里只贴上一个配置文件,具体问题请移步一次关于 CDH 中 Spark SQL代码操作Hive无法连接Hive元数据问题<?xml version="1.0" encoding="UTF-8"?><!--Autogenerated by Cloudera Manager--><configuration> <property> <name>hive.metastore.uris</name> <va.

2020-10-29 11:15:48 1287

原创 CDH中 hive-site.xml 文件所在位置

记录原因是因为本人最近在调试spark 数据输入到hive中,经常本地调试,但是本地连接远程hive需要远程hive的hive-site.xml文件,CDH中不太好找,记录下来以供大家方便,也给自己做个笔记登陆CDH控制台进入hive组件进入任意一台 Hive Metastore Server 中选择 “进程” ,其中就有配置文件hive-site.xml 配置文件注意:这里的hive连接mysql元数据库的密码为加密方式,如果本地调试,需要更改。参考连接: cdh版 hive.

2020-10-27 22:22:18 4805

原创 查看 HDFS 文件前几行、后几行

近日需要,从hdfs导出一些测试文件,找到一些命令,特此记录随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100返回最后几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_s.

2020-10-27 16:49:16 1683

原创 Spark sql 优化小文件

近期和一些朋友讨论了一些关于Spark 减少小文件的方案,这里记录一下,版权所有 《大数据私房菜》微信技术群 之 “HowardZack”1. 贴上配置文件 spark - submit \ --conf spark.sql.adaptive.enabled = true \ --conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize = 134217728 \ --conf spark.sql.auto.repart.

2020-10-27 11:47:47 562 2

原创 Superset 中新增虚拟列做映射

需求是在Superset中给page做中文映射,大概做了35个映射值,这里说一下如何在Superset中添加说明一下,我司Superset对接的数据源是Apache Druid,Superset具体安装步骤可以看我之前博客,也可以看官网,官网给的比较细致。步骤也比较简单Superset官网安装1. 前提条件安装Superset安装Druid(根据自己实际需求安装)在Superset中连接自己的数据源(可以参考我之前另外一篇博客)2. 修改步骤点击数据源,选择自己的数据源,如果是.

2020-10-20 18:51:34 716

原创 ClickHouse 进阶之路(干货实战篇)

本篇主要是接触ClickHouse初期,用以学习的资料存放和传播,如有侵权,请联系本人,留言即可。附上链接【QQ音乐】QQ音乐PB级ClickHouse实时数据平台架构演进之路https://zhuanlan.zhihu.com/p/145503455【腾讯看点】腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践https://developer.aliyun.com/article/772472【今日头条】最快开源OLAP引擎!ClickHouse在头条的技术演进http:/.

2020-10-20 15:36:36 1660 2

转载 Python 报错 pip._vendor.urllib3.exceptions.ReadTimeoutError 解决方法

这类问题大部分是下载超时,可能是网络问题,但是大部分问题都可以通过如下命令解决比如我要下载pandas,可以通过如下命令pip --default-timeout=100 install pandas -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com这个方法是我在这里看到的,表明一下原文连接原文连接...

2020-09-24 18:08:55 1017 1

原创 Apache Superset 安装及其汉化

apache superset 安装superset官网给出的安装方式很多,docker or python虚拟环境 ,这里是在linux中 用python的虚拟环境安装,附上官网 传送门首先,不推荐使用自带python版本,官方测试python版本为python3.6,对3.7也同样兼容,也是目前比较中流的版本。首先下载依赖环境sudo yum install gcc gcc...

2020-08-04 20:01:08 4401

原创 Linux下添加子用户,并且同步到HDFS中

1. 为Linux创建子用户,并添加root权限使用root账户创建子用户 并添加密码adduser hadooppasswd hadoop // 添加密码 如果做ssh 这个必须要做,因为生成密钥向远程发送的时候是需要密码的添加用户组,并查看确认添加成功usermod -a -G hadoop hadoopcat /etc/group赋予root权限先切换到root的用户sudo nano /etc/sudoersroot  ALL=(ALL)  ALL .

2020-07-21 18:49:58 609

原创 HBase1.2 RegionServer莫名其妙挂掉 (CDH5.16.1)

前言: HBase 是CDH5.16.1 自带的 HBase1.2 的版本1 问题点:regionServer运行几个小时就莫名挂掉最近刚在CDH中安装完HBase,一切配置都使用默认,但是regionServer 总是跑几个小时就挂掉,并且没什么规律,随机挂,任何日志都没有记录明显错误,最终参考一个博客之后,解决HBASE_REGIONSERVER_OPTS=-Xms52428800 -Xmx52428800 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC .

2020-07-20 14:19:02 551

原创 logstash解析 多层json

logstash解析 多层json拿站长之家的部分json数据做介绍吧(应该不会侵权吧-_-||);{ "name": "站长工具", "url": "http://tool.chinaz.com", "address": { "city": "厦门", "country": "中国" }}期望解析成这个样子{ "...

2020-02-06 11:10:03 2153 6

原创 关于logstash中的gsub 使用规则

关于logstash中的gsub 使用规则先上一个官网 demo官网例子 filter { mutate { gsub => [ # replace all forward slashes with underscore # 用下划线替换所有的斜杠 "fieldname", "/", "_...

2020-02-06 10:50:19 6740

原创 关于如何在Linux定时发送邮件

关于如何在Linux定时发送邮件之前测试了一次在Linux中定时发送邮件的设置,在这记录一下(本文使用163邮箱)步骤:注意:发送邮件的服务器需要有外网1. 准备一个邮箱,163,QQ等,并且开启smtp。2. 获取到邮箱到授权码,类似于 "abcdefghijklmnop"。(不包含引号)这两个步骤如果手机端登录过邮箱的应该已经设置过了,因为不设置的话是无法登录客户端的。3....

2020-01-20 17:35:22 1622

原创 logstash中无法解析nginx日志中的"\x09"类似字符导致服务停止

logstash中无法解析nginx日志中的"\x09"类似字符导致服务停止logstash正常情况是一直稳定运行,突然有一天报告logstash服务宕机,排查日志,在日志中找到最后一行数据相关信息,通过这些信息在原始日志中找到该数据,并进行测试,报错部分信息如下:\"http_user_agent\": \"Mozilla/5.0 (Linux; Android 5.1.1; SM801 ...

2020-01-20 11:16:23 762

原创 druid在superset中展示的时区问题

druid在superset中展示的时区问题superset是一个在BI项目中,展示效果非常好的组件,并且可以与多种组件结合。博主之前在使用中遇到了点问题,特此记录下来。问题1问题描述:现有数据是通过FileBeat+LogStash+Kafka+Druid+SuperSet,这样一个数据流程,使用过logstash的人应该都比较清楚,这个组件是ELK中的一部分,LogStash会在生成...

2020-01-20 10:49:57 1746 1

原创 Apache Superset中添加多种数据源

####其中superset安装使用可以参考官网安装,docker版本更是方便快捷,这里不做描述,附上官网传送门superset官网添加mysql数据库作为datesource mysql://user:password@IP/dbname?charset=utf8添加Apache Kylin作为datesourcekylin://user:password@IP:端口/dbname...

2020-01-19 20:59:58 1338

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除