自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wu的博客

如果你有两个选择,就选较难的那个。

  • 博客(25)
  • 资源 (4)
  • 收藏
  • 关注

原创 Flink yarn 任务job失败 yran application_xxx_id 还处于running状态

Flink yarn 任务job失败 yran application_xxx_id 还处于running状态

2022-11-10 16:48:19 950 1

原创 ClickHouse官方窗口函数示例

ClickHouse官方窗口函数示例官网:https://github.com/ClickHouse/ClickHouse/blob/master/tests/queries/0_stateless/01591_window_functions.sql-- { echo }set allow_experimental_window_functions = 1;-- just something basicselect number, count() over (partition by int

2021-04-08 08:45:18 1847

转载 ClickHouse row_number()、开窗函数(rank()等)

正宗的ClickHouse开窗函数来袭在今年2月6号线上举行的 ClickHouse China Spring Meetup 中,朵夫为我们带来了 ClickHouse Features 2021 的分享,其中有非常多强大的新特性,幻灯片的下载地址如下:https://presentations.clickhouse.tech/meetup50/new_features/在众多的新特性中,我对开窗函数、自定义UDF、ZooKeeper优化等几项特别感兴趣,后续我也打算分别用几篇文章来展开说明。现在

2021-03-31 15:53:26 8730

原创 Clickhouse 单节点多实例部署

Clickhouse版本:21.3.4.25背景机器分配不足单机多实例配置复制配置文件信息复制配置文件给新实例使用sudo cp /etc/clickhouse-server/config.xml /etc/clickhouse-server/config9001.xmlsudo cp /etc/clickhouse-server/user.xml /etc/clickhouse-server/user9001.xmlsudo cp /etc/systemd/system/clickhou

2021-03-31 15:46:14 1354 1

原创 ClickHouse RPM不停机升级/降级

背景Clickhouse 20.3.18.10 升级到 21.3.4.25版本目的:该三月份发布的版本支持了更多通用的开窗函数,后续会介绍升级流程数据备份对于没有使用每个shard多副本的集群,并且数据表并非全部都是copy表的情况,我们在做升级的时候就需要考虑自己去做备份了,需要备份的数据有这么几种:1、配置(建议所有集群情况均备份,因为数据量很小):升级之前建议备份clickhouse相关的一些配置文件,默认是在/etc/clickhouse目录下的所有文件(不同环境若有不同请自行确认,总之

2021-03-31 15:34:25 1242

原创 hive对有null值的列进行avg,sum,count等聚合性操作结果测试

hive对有null值的列进行avg,sum,count等聚合性操作结果测试下面展示一些 内联代码片。数值、null、字符串等联合测试with tmp as(select NULL as col1 union allselect 'NULL' as col1 union allselect null as col1 union allselect 3 as col1 union allselect 2 as col1 union allselect '2' as col1)

2020-11-10 17:34:51 924

原创 ClickHouse删除数据之后再插入数据成功无报错但是查询不到数据

背景:在测试Clikchouse删除效率的时候插入同一大小同一顺序一样的数据发现查询该表数据缺失,刚刚插入的数据成功了,但是表里面没有:复现:建表:CREATE TABLE ck_test.t_local_1( `id` Int32, `day` Int32)ENGINE = ReplicatedMergeTree('/clickhouse/ck_test/t_local_1/{layer}-{shard}/', '{replica}')PARTITION BY dayO

2020-10-30 16:59:43 4410 1

原创 ClickHouse-rpm安装

介绍官方存在几种安装方式:https://clickhouse.tech/docs/en/getting-started/install/From RPM PackagesFrom Tgz ArchivesFrom Docker ImageFrom Precompiled Binaries for Non-Standard Environments本次主要这几种情况下的安装yum安装sudo yum install clickhouse-server clickhouse-client

2020-10-14 16:07:04 3363

原创 ClickHouse(system.query_log表)-开启慢sql查询

ClickHouse(system.query_log表)开启慢sql查询开启慢sql查询日志方法:打开各个ClickHouse实例的users.xml文件,在默认配置最上层profile(如default)中加入:<log_queries>1</log_queries>注意:如添加该参数之后表不自动创建,重启clickhouse-server服务即可检查每个节点ch中config.xml文件里默认的日志配置是否开启<query_log> &

2020-10-09 11:22:41 8874

原创 ClickHouse简介

简介ClickHouse是"战斗民族"俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS,圈内人戏称为"喀秋莎数据库"。ClickHouse简称"CH",但在中文社区里大家更偏爱"CK",反馈是因为有"AK"的感觉!与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,且不依赖于其他组件。特点 列式存储数据库,数据压缩 快 关系型、支持SQL 分布式并行计算,可把单机性能压榨到极限 高可用 数据

2020-09-10 16:29:14 1845

原创 CDH6.x 禁用/关闭Kerberos认证、常见问题排查记录

CDH 禁用 Kerberos直接在CDHmanger页面更改,重启即可HDFShadoop.security.authentication -&gt; simplehadoop.security.authorization -&gt; 取消勾选dfs.datanode.address -&gt; 改成50010dfs.datanode.http.address -&gt; 改成50...

2019-03-11 11:08:40 2140

原创 如何在Hive & Impala中使用UDF

如何在Hive &amp; Impala中使用UDF1、介绍如何在Hive、Impala中使用UDF函数1.如何使用Java开发Hive的自定义函数(如果使用spark sql注册UDF函数,请参考之前的博客Hive Spark Api 查询、写入、注册UDF函数,SparkSql简单操作)2.如何在Hive中创建自定义函数及使用3.如何在Impala中使用Hive的自定义函数2.UDF...

2019-03-11 10:57:43 1355

转载 Spark OOM 问题详解及解决优化方法

Spark OOM 问题详解及解决优化方法转自: http://blog.csdn.net/yhb315279058/article/details/51035631Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作。包括:flatMap,filter,mapPatitions等。shuffle后内存...

2019-03-07 16:50:12 519

原创 如何高效的使用ForeachRDD

如何高效的使用ForeachRDD对于foreachRDD的正确理解,请参考对DStream.foreachRDD的理解在spark streaming的官方文档中也有对foreachRDD的说明,请参见Design Patterns for using foreachRDD基于数据的连接在实际的应用中经常会使用foreachRDD将数据存储到外部数据源,那么就会涉及到创建和外部数据源的连...

2019-03-07 16:22:21 1123

原创 DStream.foreachRDD的简单理解

如何高效的使用ForeachRDDforeachRDD(func)的官方解释为The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should push the data in each RDD to an ex...

2019-03-07 16:10:19 1087

原创 Hive MR小文件优化、性能调优、大小数据量级执行优化

不仅如此Hive的SQL还可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。(几个函数之间的区别)Hive中不仅可以使用逗号和制表符分隔值(CSV / TSV)文本文件,还可以使用Sequence File、RC、ORC、Parquet (知道这几种存储格式的区别),当然Hive还可以通过用户来自定义自己的存储格式,基本上前面说的到的几种格式完全够了。Hive旨在最大限度地提高可伸缩性(通过向Hadoop集群动态添加更多机器扩展),性能,

2019-02-27 17:31:26 1807 1

原创 Linux 服务器代理 上网

Linux 服务 一键安装服务代理上网yum install squid -y安装完成之后,配置配置文件,可以使用下面的配置文件/etc/squid/squid.conf更改http_port 0.0.0.0:3128为代理端口## Recommended minimum configuration:## Example rule allowing access from...

2018-12-18 11:25:47 5508

原创 Kerberos 认证的Hbase Scala Api

Kerberos 认证的Hbase Scala Api配置文件#Hbase 连接参数kerberos.hbase.user21 = hbase/[email protected] = C:/Users/user/Desktop/keytable/hbase.keytabscala rowkey查询api(Hbase 2.0.0 版本)im...

2018-12-17 15:26:36 930 2

原创 Hive Spark Api 查询、写入、注册UDF函数,SparkSql简单操作

Hive Spark Api 查询、写入、注册UDF函数,SparkSql操作Hive Spark insert/overwriteobject ReadKerberosHive { case class Employee(name: String, phone: String) def main(args: Array[String]): Unit = { val sp...

2018-12-17 15:16:54 1038

原创 Kerberos 认证的Hive Java/Scala Api

Kerberos 认证的Hive Java/Scala Api配置文件:#加载kerberos 配置文件,如果不加载,会默认在本地:c:/windows/krb5.ini 或者集群 /etc/krb5.conf 寻找kerberos.conf = C:/Users/user/Desktop/keytable/krb5.conf#Hive JDBC连接参数hive.driver = or...

2018-12-17 15:02:25 1152

原创 Kerberos 认证的Impala Java/Scala Api

Kerberos 认证的Impala Java/Scala Api配置文件#Kerberos Impala JDBC 连接参数kerberos.impala.user21 = impala/[email protected] = C:/Users/user/Desktop/keytable/impala.keytabkerberos.imp...

2018-12-17 14:53:59 1498 4

原创 Windows 配置kerberos访问并启动访问CDH 集群web UI页面

1、问题描述:CDH集群启用 HTTP Web 控制台的 Kerberos 身份验证后,FireFox下HTTP访问HDFS、Yarn、Hive、HBase等Hadoop服务的Web UI(如Namenode的50070,Yarn的8088)等出现错误2、解决方案:思路:windows 10 安装kerberos客户端1、win10安装Kerberos客户端在Kerberos官网下载K...

2018-12-13 16:57:48 4671 5

原创 Hue 集成Kerberos 导致Kerberos Ticket Renewer 起不来

报错,Kerberos Ticket Renewer 起不来,查看日志[19/Jan/2018 07:10:08 +0000] kt_renewer INFO Renewing kerberos ticket to work around kerberos 1.8.1: /usr/bin/kinit -R -c /run/hue/hue_krb5_ccachekinit: KDC ...

2018-12-13 16:35:17 2182

原创 Kerberos 集成到 CDH6

开始安装一、安装之前的注意点关于AES-256加密:对于使用 centos5. 6及以上的系统,默认使用 AES-256 来加密的。这就需要集群中的所有节点上安装 http://stackoverflow.com/questions/18754243/securityexception-even-after-replacing-crypto-policy-jars要下载对应jdk版本的j...

2018-12-13 16:21:28 426

原创 大数据集群:CDH 6.0.X 完整版 安装

Cloudera Enterprise 6.0.x 安装步骤前沿一CDH6新功能介绍二:下面开始进行CDH6安装前的准备工作:1、配置主机名和hosts解析(所有节点)2、关闭防火墙3、关闭SELinux4、添加定时任务5、禁用透明大页面压缩6、优化交换分区三:安装 CM 和 CDH1、配置 Cloudera Manager 仓库 yum源(所有节点)2、rpm -ivh mysql-commun...

2018-12-13 12:48:21 3669

Xshell6_ww.zip

xshell亲测可用,下载解压直接安装即可,可用于连接linux

2019-05-27

Impala JDBC41 连接jar

impala连接,可用于impala JDBC的driver,可用上传到本地maven私服,直接使用

2019-03-08

Notepad++ Plugin Manager 下载

简单好用的Notepad++自带Plugin Manager,自带各种插件,json解析、xml、比对等

2018-10-16

linux挂载磁盘集成rpm,包含命令傻瓜式操作,一键安装集成,简单好用

linux挂载磁盘集成rpm安装文件,包含命令傻瓜式操作,一键安装集成,简单好用

2018-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除