吓人一跳-CSDN博客

原创 Logstash实现自定义插件在filter中读取redis数据(详细版)

Logstash实现自定义插件在filter中读取redis需求: 埋点的数据，在logstash数据抽取中，需要实时关联mysql的业务数据，最终形成一个数据输出。实现:1. 根据官网提示，先生成一个模版bin/logstash-plugin generate --type filter --name redis --path vendor/localgems生成之后的目录是： ./vendor/localgems/logstash-filter-redis 生成目录的树状结构如下：

2020-11-09 19:07:15 1032 3

转载 Mac Terminal 压缩与解压缩命令大全

Mac Terminal 压缩与解压缩命令大全本文为转载文章，作者与出处文章末尾标出tar解包：tar xvf FileName.tar打包：tar cvf FileName.tar DirName（注：tar是打包，不是压缩！）———————————————.gz解压1：gunzip FileName.gz解压2：gzip -d FileName.gz压缩：gzip FileName.tar.gz 和 .tgz解压：tar zxvf FileName.tar.gz

2020-11-02 08:30:49 776

原创 Hive经典SQL之行转列，列转行

前言：目前做离线数据计算，由于之前没有完整的数仓功能，前两天把CDH的配置和自己的代码又调试了一遍，目前数据已经进入到Hive原始数据ods层。使用到了这个经典函数，在这里记录一下。版本：Hive 1.1.01. 先准备一下数据创建表挺简单的，这里就不演示了。stu_namecoursescore张三数学95张三英语89李四语文97李四数学88李四英语902. 行转列用法-- 这里我们将学科和成绩两列都拼接起来，后边.

2020-10-30 16:17:07 6127 14

原创一次关于 CDH 中 Spark SQL代码操作Hive无法连接Hive元数据问题

如题，最近想用 Spark SQL 操作数据写入 Hive ，本地测试逻辑OK，发布线上发现连接不上Hive元数据，各种修改，头痛。终于发现问题，记录一下方便后来人。关于版本：CDH --> 5.16.1Hive -->1.1.0Spark --> 2.3.0Scala --> 2.11.6版本不对应也可以参考，毕竟问题出现的，和版本关系不太大～废话不多，首先是具体报错信息情况如下:Spark 打包运行过程中，并无明显报错，但是有一个现象就是运行状态由 .

2020-10-29 11:16:46 1242

原创 hive-site.xml

这里只贴上一个配置文件，具体问题请移步一次关于 CDH 中 Spark SQL代码操作Hive无法连接Hive元数据问题<?xml version="1.0" encoding="UTF-8"?><configuration> <property> <name>hive.metastore.uris</name> <va.

2020-10-29 11:15:48 1287

原创 CDH中 hive-site.xml 文件所在位置

记录原因是因为本人最近在调试spark 数据输入到hive中，经常本地调试，但是本地连接远程hive需要远程hive的hive-site.xml文件，CDH中不太好找，记录下来以供大家方便，也给自己做个笔记登陆CDH控制台进入hive组件进入任意一台 Hive Metastore Server 中选择 “进程” ,其中就有配置文件hive-site.xml 配置文件注意：这里的hive连接mysql元数据库的密码为加密方式，如果本地调试，需要更改。参考连接： cdh版 hive.

2020-10-27 22:22:18 4805

原创查看 HDFS 文件前几行、后几行

近日需要，从hdfs导出一些测试文件，找到一些命令，特此记录随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100返回最后几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_s.

2020-10-27 16:49:16 1683

原创 Spark sql 优化小文件

近期和一些朋友讨论了一些关于Spark 减少小文件的方案，这里记录一下，版权所有《大数据私房菜》微信技术群之 “HowardZack”1. 贴上配置文件 spark - submit \ --conf spark.sql.adaptive.enabled = true \ --conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize = 134217728 \ --conf spark.sql.auto.repart.

2020-10-27 11:47:47 562 2

原创 Superset 中新增虚拟列做映射

需求是在Superset中给page做中文映射，大概做了35个映射值，这里说一下如何在Superset中添加说明一下，我司Superset对接的数据源是Apache Druid，Superset具体安装步骤可以看我之前博客，也可以看官网，官网给的比较细致。步骤也比较简单Superset官网安装1. 前提条件安装Superset安装Druid（根据自己实际需求安装）在Superset中连接自己的数据源（可以参考我之前另外一篇博客）2. 修改步骤点击数据源，选择自己的数据源，如果是.

2020-10-20 18:51:34 716

原创 ClickHouse 进阶之路（干货实战篇）

本篇主要是接触ClickHouse初期，用以学习的资料存放和传播，如有侵权，请联系本人，留言即可。附上链接【QQ音乐】QQ音乐PB级ClickHouse实时数据平台架构演进之路https://zhuanlan.zhihu.com/p/145503455【腾讯看点】腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践https://developer.aliyun.com/article/772472【今日头条】最快开源OLAP引擎！ClickHouse在头条的技术演进http:/.

2020-10-20 15:36:36 1660 2

转载 Python 报错 pip._vendor.urllib3.exceptions.ReadTimeoutError 解决方法

这类问题大部分是下载超时，可能是网络问题，但是大部分问题都可以通过如下命令解决比如我要下载pandas，可以通过如下命令pip --default-timeout=100 install pandas -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com这个方法是我在这里看到的，表明一下原文连接原文连接...

2020-09-24 18:08:55 1017 1

原创 Apache Superset 安装及其汉化

apache superset 安装superset官网给出的安装方式很多，docker or python虚拟环境，这里是在linux中用python的虚拟环境安装，附上官网传送门首先，不推荐使用自带python版本，官方测试python版本为python3.6，对3.7也同样兼容，也是目前比较中流的版本。首先下载依赖环境sudo yum install gcc gcc...

2020-08-04 20:01:08 4401

原创 Linux下添加子用户，并且同步到HDFS中

1. 为Linux创建子用户，并添加root权限使用root账户创建子用户并添加密码adduser hadooppasswd hadoop // 添加密码如果做ssh 这个必须要做，因为生成密钥向远程发送的时候是需要密码的添加用户组，并查看确认添加成功usermod -a -G hadoop hadoopcat /etc/group赋予root权限先切换到root的用户sudo nano /etc/sudoersroot　　ALL=(ALL)　　ALL .

2020-07-21 18:49:58 609

原创 HBase1.2 RegionServer莫名其妙挂掉 (CDH5.16.1)

前言: HBase 是CDH5.16.1 自带的 HBase1.2 的版本1 问题点：regionServer运行几个小时就莫名挂掉最近刚在CDH中安装完HBase，一切配置都使用默认，但是regionServer 总是跑几个小时就挂掉，并且没什么规律，随机挂，任何日志都没有记录明显错误，最终参考一个博客之后，解决HBASE_REGIONSERVER_OPTS=-Xms52428800 -Xmx52428800 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC .

2020-07-20 14:19:02 551

原创 logstash解析多层json

logstash解析多层json拿站长之家的部分json数据做介绍吧（应该不会侵权吧-_-||）；{ "name": "站长工具", "url": "http://tool.chinaz.com", "address": { "city": "厦门", "country": "中国" }}期望解析成这个样子{ "...

2020-02-06 11:10:03 2153 6

原创关于logstash中的gsub 使用规则

关于logstash中的gsub 使用规则先上一个官网 demo官网例子 filter { mutate { gsub => [ # replace all forward slashes with underscore # 用下划线替换所有的斜杠 "fieldname", "/", "_...

2020-02-06 10:50:19 6740

原创关于如何在Linux定时发送邮件

关于如何在Linux定时发送邮件之前测试了一次在Linux中定时发送邮件的设置，在这记录一下（本文使用163邮箱）步骤：注意：发送邮件的服务器需要有外网1. 准备一个邮箱，163，QQ等，并且开启smtp。2. 获取到邮箱到授权码，类似于 "abcdefghijklmnop"。(不包含引号)这两个步骤如果手机端登录过邮箱的应该已经设置过了，因为不设置的话是无法登录客户端的。3....

2020-01-20 17:35:22 1622

原创 logstash中无法解析nginx日志中的"\x09"类似字符导致服务停止

logstash中无法解析nginx日志中的"\x09"类似字符导致服务停止logstash正常情况是一直稳定运行，突然有一天报告logstash服务宕机，排查日志，在日志中找到最后一行数据相关信息，通过这些信息在原始日志中找到该数据，并进行测试，报错部分信息如下：\"http_user_agent\": \"Mozilla/5.0 (Linux; Android 5.1.1; SM801 ...

2020-01-20 11:16:23 762

原创 druid在superset中展示的时区问题

druid在superset中展示的时区问题superset是一个在BI项目中，展示效果非常好的组件，并且可以与多种组件结合。博主之前在使用中遇到了点问题，特此记录下来。问题1问题描述：现有数据是通过FileBeat+LogStash+Kafka+Druid+SuperSet，这样一个数据流程，使用过logstash的人应该都比较清楚，这个组件是ELK中的一部分，LogStash会在生成...

2020-01-20 10:49:57 1746 1

原创 Apache Superset中添加多种数据源

####其中superset安装使用可以参考官网安装，docker版本更是方便快捷，这里不做描述，附上官网传送门superset官网添加mysql数据库作为datesource mysql://user:password@IP/dbname?charset=utf8添加Apache Kylin作为datesourcekylin://user:password@IP:端口/dbname...

2020-01-19 20:59:58 1338

weixin_38073361的博客