自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (1)
  • 收藏
  • 关注

原创 stonedb部署实践

需要安装libaio包,yum install libaio。

2023-09-10 23:03:42 465 1

原创 doris docker环境编译部署

doris测试环境快速获取

2023-09-06 21:18:08 928 1

原创 备份StarRocks数据到对象存储minio中/外表查minio中的数据

3.2 全量备份到minio(外表不能备份)参考docker部署starrocks。借助python生成parquet文件。2.准备starrocks环境。1.部署minio环境。宿主机与容器挂在映射。

2023-09-05 09:34:57 781 3

原创 通过starrocks jdbc外表查询sqlserver

starrocks sqlserver外表操作

2023-09-01 13:33:23 811 1

原创 使用flink sqlserver cdc 同步数据到StarRocks

flink cdc,sqlserver,starrocks

2023-09-01 10:39:13 1101

原创 StarRocks docker 环境编译,测试最新留存retention和漏斗window_funnel函数

近期在做留存,漏斗等用户行为分析调研时,留存retention函数随着官网2.2 rc版本发布已经可以下载,然后漏斗函数window_funnel已经开发完成,合并到main版本,预计2.3版本会发布,现阶段通过编译,提前测试调研漏斗函数,一下为操作过程:1.部署docker环境mac环境下载docker.dmg,安装好,然后调整好docker资源:可以编译好后,把docker资源再调整回来,之间就因为docker资源不够,编译不过,各种被kill,报错:be部分编译到一半,

2022-04-29 10:38:31 2312 1

原创 使用StarRocks内置工具Routine Load同步Mysql/TiDB/PG等增量更新数据到StarRocks

什么是StarRocks?StarRocks是新一代极速统一的olap新型mpp分析型数据库,全面向量化引擎,全新的CBO优化器,性能强悍,单表查询媲美业界最强悍的clickhouse,支持多表join,支持数据秒级更新;且同时支持高并发,架构简单,方便运维扩展,完全国产,安全可控,在国内外各行各业已经得到了广泛使用。StarRocks提供了丰富的数据接入方式:stream load,routine load,broker load,spark load等,对接比如本地文件,对象存储,hdfs,

2022-04-26 16:43:09 5357

原创 使用最新版flink tidb cdc 同步数据到StarRocks

Flink CDC 2.2 版本新增了 OceanBase CE,PolarDB-X,SqlServer,TiDB 四种数据源接入。其中新增 OceanBase CDC,SqlServer CDC,TiDB CDC 三个连接器,而 PolarDB-X 的支持则是通过对 MySQL CDC 连接器进行兼容适配实现。发布原文链接:https://blog.csdn.net/weixin_44904816/article/details/123836091最近在测tidb原始的ticdc(PingCa

2022-04-21 16:36:30 6049 1

原创 SPARK+LIVY

Apache Livy简介Apache Livy是由Cloudera Labs贡献的基于Apache Spark的开源REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。其功能如下:拥有可用于多Spark作业或多客户端长时间运行的SparkContext;同时管理多个SparkContext,并...

2019-10-10 20:26:00 409

原创 kyligence enterprise3.2.x版本使用mysql作为数据源构建报错

1.报错信息如下:exe cmd:null/bin/sqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true -Dfs.defaultFS=hdfs://solution-0:8020 -Dmapreduce.job.queuename=default --connect "jdbc:mysql://solutio...

2019-02-19 19:15:00 81

原创 apache-kylin-2.5.2-bin-cdh57与cdh-5.13.0集群整合运用

1.下载kylin最新版apache-kylin-2.5.2-bin-cdh57;2.解压配置环境变量;export BASE_PATH="/opt/cloudera/parcels/CDH/lib"#added by hbaseexport HBASE_HOME="$BASE_PATH/hbase"export PATH="$HBASE_HOME/bin:$PATH"#add...

2019-01-02 16:38:00 60

原创 spark submit参数及调优(转载)

spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> ...

2018-12-13 11:07:00 103

原创 spark on yarn 资源调度(cdh为例)

一、CPU配置: ApplicationMaster 虚拟 CPU内核 yarn.app.mapreduce.am.resource.cpu-vcores ApplicationMaster占用的cpu内核数(Gateway--资源管理 ) //一般设置1个核,如果想启动时候快一点可以多设置核数,但它不管资源分配,所以只要保证任务执行过程中不挂就可以了 容器虚拟 C...

2018-12-12 17:32:00 264

原创 spark读取mongodb数据写入hive表中

一 环境:spark-2.2.0;hive-1.1.0;scala-2.11.8;hadoop-2.6.0-cdh-5.15.0;jdk-1.8;mongodb-2.4.10;二.数据情况:MongoDB数据格式{ "_id" : ObjectId("5ba0569cafc9ec432bd310a3"), "id" : 7, "name" : "7m...

2018-11-27 16:39:00 125

原创 datax源代码编译安装

what is DataX ?DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台。实现包括MySQL,SQL Server,Oracle,PostgreSQL,HDFS,Hive,HBase,OTS,ODPS等各种异构数据源之间高效的数据同步功能。1.从Github下载源码,地址:https://github.com/alibaba/DataX?spm=a2c4e.1115394...

2018-11-20 15:03:00 253

原创 tidb测试环境安装,离线部署

1.环境以及规划 机器:centos7.5 ; 文件系统为ext4;内存16g;cpu8核,共三个节点; ip hostname roles 10.40.20.66 vm-10-40-20-66 tidb tipd tikv 10.40.20.67 vm-10-...

2018-11-01 18:20:00 95

原创 superset 安装测试,基于windows 和 centos7.x

1.刚开始在windows平台测试搭建,报各种问题,搭建可以参考官网https://superset.incubator.apache.org/installation.html#deeper-sqlalchemy-integratio问题汇总:1.1 需要安装Visual C++ 2015 ;1.2 需要python版本3.6+1.3 需要安装sasl :pipinstallsas...

2018-10-25 15:05:00 68

原创 安装支持elasticsearch使用sql查询插件

一、ElasticSearch-SQL介绍ElasticSearch-SQL(后续简称es-sql)是ElasticSearch的一个插件,提供了es 的类sql查询的相关接口。支持绝大多数的sql查询支持。 ElasticSearch-sql 地址:https://github.com/NLPchina/elasticsearch-sql二、ElasticSearch-SQL安装1...

2018-10-24 11:50:00 119

原创 cdh中hdfs非ha环境迁移Namenode与secondaryNamenode,从uc机器到阿里;

1.停掉外部接入服务;2 NameNode Metadata备份;2.1 备份fsimage数据,(该操作适用HA和非HA的NameNode),使用如下命令进行备份:[root@cdh01 dfs]# mkdir nn_metadata_back[root@cdh01 dfs]# hdfs dfsadmin -fetchImage nn_metadata_back/[root@cdh0...

2018-10-23 13:53:00 173

原创 kafka配置参数详解

Broker ConfigsPropertyDefaultDescriptionbroker.id每个broker都可以用一个唯一的非负整数id进行标识;这个id可以作为broker的“名字”,并且它的存在使得broker无须混淆consumers就可以迁移到不同的host/port上。你可以选择任意你喜欢的数字作为id,只要id是唯一的即可。log.dirs/...

2018-10-23 11:52:00 108

原创 在线tidb+tipd+tikv扩容,迁移,从UC到阿里云

集群现状:共有五个节点,配置为16核32g内存,数据节点为1T ssd盘,非数据节点为100g ssd盘;角色规划:node1 tidb tipdnode2 tidb tipdnode3 tikv tipdnode4 tikvnode5 tikv 1.每次操作都需要更改配置文件inventory.ini,都是在tidb用户下进行;2.初始化,打通新...

2018-09-10 16:17:00 181

原创 hive整合sentry,impala,hue之后权限管理操作

7.Hive授权参考(开启sentry之后,对用户授权用不了,只能针对用户组,grant role testrole to user xxxxxxx; )7.1:角色创建和删除 create role star_read; drop role star_read; grant role star_read to group star_read;7.2:角色授权和取消授权 7...

2018-09-06 11:19:00 84

原创 zabbix经常报警elasticsearch节点TCP连接数过高问题

单服务器最大tcp连接数及调优汇总单机最大tcp连接数网络编程在tcp应用中,server事先在某个固定端口监听,client主动发起连接,经过三路握手后建立tcp连接。那么对单机,其最大并发tcp连接数是多少?如何标识一个TCP连接在确定最大连接数之前,先来看看系统如何标识一个tcp连接。系统用一个4四元组来唯一标识一个TCP连接:{local ip, local port,r...

2018-08-29 18:26:00 124

原创 elasticsearch集群整合elqsticsearch-sql插件

1.本来整合这个插件是比较简单易操作的,但是由于公司从AWS下载禁掉了,给安装带来一些麻烦, 采用离线安装,先FQ将elasticsearch-sql-5.1.2.0.zip下载下来;./bin/elasticsearch-plugin install /opt/elasticsearch-sql-5.1.2.0.zip 参考文档:https://github.com/NLPchi...

2018-08-27 18:33:00 171

原创 在线elasticsearch集群批量写入变慢,导致kafka消息消费延迟

写入报错如些:2018-08-22 18:04:24.166 [elasticsearch[_client_][listener][T#1]] INFO com.mobanker.framework.es.ElasticsearchBulkTools - id=11749,failureMessage=failure in bulk execution:1.修改elasticsearc...

2018-08-22 15:58:00 210

原创 mysql主从集群搭建;(集群复制数据)

1.搭建mysql 5.7环境chown mysql:mysql -R /data/groupadd mysqluseradd -g mysql mysqlyum install numactlrpm -e mysql-libs --nodeps rpm -ivh mysql-community-common-5.7.21-1.el6.x86_64.rpmrpm -ivh mysql-comm...

2018-08-08 17:34:00 34

原创 在线大数据cdh迁移,从公有云迁移到私有云

1.添加新节点2.迁移hdfs和hbase数据;3.迁移源节点各个服务到新节点;4.利用HA,包括hdfs,hbase master,resourcemanager的ha实现在线迁移;5.数据验证,可用性验证;...

2018-07-30 14:04:00 90

原创 hive中 udf,udaf,udtf

1.hive中基本操作; DDL,DML2.hive中函数User-Defined Functions : UDF(用户自定义函数,简称JDF函数)UDF: 一进一出 upper lower substring(进来一条记录,出去还是一条记录)UDAF:Aggregation(用户自定的聚合函数) 多进一出 count max min sum ...UDTF: Table-Gen...

2018-07-18 16:44:00 49

原创 生产环境 tidb部署实践

TiDB 简介TiDB 是 PingCAP 公司受 GoogleSpanner/F1论文启发而设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。TiDB 的目标是为 OLTP (...

2018-07-17 17:26:00 57

原创 hive报错:Caused by: ERROR XBM0H: Directory /var/lib/hive/metastore/metastore_db cannot be created....

在cdh集群中,删除之前的hive服务,然后将hive添加到其他节点,然后再通过hive客户端连接hive报错:Caused by: ERROR XJ041: Failed to create database '/var/lib/hive/metastore/metastore_db', see the next exception for details. at org.apac...

2018-07-17 17:15:00 723

原创 安装cloudera manager使用mysql作为元数据库

1.首次安装好mysql数据库后,会生成一个随机密码,使用如下办法找到:cat /var/log/mysqld.log |grep password2.首次安装好mysql数据库后,第一次登陆进去,需要先修改root用户密码:grant all privileges on *.* to 'root'@'%' identified by 'xxxxxxxxx';grant all pri...

2018-07-17 10:05:00 45

原创 使用postgresql作为cm的数据库时候添加报错

如下图,当postgresql安装成功,建立好数据库scm,rman,amon之后,添加cm对应服务报错hadoopNode2没有相应数据库:No database server found running on host hadoopNode2.错误原因:在客户端访问PostgreSQL数据库时,PostgreSQL会读取文件pg_hba.conf判断是否信任该主机,故所有需要...

2018-07-09 16:04:00 113

原创 CDH上Cloudera Management Service 各个角色迁移至其他节点

1.首先查看Cloudera Management Service下有哪些服务,cdh版本为5.9.2:可以看到基本上有以上6个角色;2、停止所有角色,并执行删除;3.找到集群中另外一个节点,添加对应角色,我这里添加到hadoopNode4上:元数据库为mysql,在hadoopNode6上;需要将mysql驱动器scp到hadoopNode4上;[root@hadoopN...

2018-07-06 14:12:00 209

原创 cloudera manager服务迁移(scm数据库在postgresql上,其他amon,rman,oozie,metastore等在mysql上)...

公司线上大数据集群,之前用的是公有云主机,现在换成了自己idc机房机器,需要服务迁移,已下为测试:1.备份原postgresql数据库:pg_dump -U scm scm > scm.sql2.选一个节点hadoopNode2,安装cloudea-manager-server服务:yum install -y cloudera-manager-server3.had...

2018-07-04 17:05:00 140

原创 Error: Error while compiling statement: FAILED: SemanticException Unable to determine if hdfs://hado...

1.发现问题:在hive客户端或者beeline查询hive表时候报错:根据报错信息查看,是在集群namenode做了HA之后,产生的hdfs路径不对的问题;2.解决问题,修改hive元数据mysql信息表DBS和SDS:更改语句:mysql> update sds set LOCATION = REPLACE(LOCATION,'hadoopNode2:8020','c...

2018-06-27 16:46:00 2210

原创 (转) Sqoop使用实例讲解

原博客地址:http://blog.csdn.net/evankaka摘要:本文主要讲了笔者在使用sqoop过程中的一些实例一、概述与基本原理 Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如...

2018-06-26 14:54:00 48

原创 线上环境HBASE-1.2.0出现oldWALs无法自动回收情况;

正常情况下,hmaster会定期清理oldWALs文件夹,一般该文件大小也就几百兆,但是我们线上环境出现了该文件没有自动回收情况,如图:该目录占用hdfs空间多达7.6T,浪费空间:后来经过多番查找,找到了问题所在,之前开启hbase复制之peers,参考博文连接如下:https://stackoverflow.com/questions/28725364/hbase-oldwals-...

2018-06-14 10:22:00 1825

原创 CDH-5.9.2整合spark2

1.编写目的:由于cdh-5.9.2自带spark版本是spark1.6,现需要测试spark2新特性,需要整合spark2, 且spark1.x和spark2.x可以同时存在于cdh中,无需先删除spark1.x;2.安装包下载 2.1首先下载csd包,地址: http://archive.cloudera.com/spark2/csd/ 2.2 parcel包下载地址...

2018-05-21 11:26:00 45

原创 开源版本 hadoop-2.7.5 + apache-hive-2.1.1 + spark-2.3.0-bin-hadoop2.7整合使用

一,开源软件版本:hadoop版本 :hadoop-2.7.5hive版本 :apache-hive-2.1.1spark版本:spark-2.3.0-bin-hadoop2.7各个版本到官网下载就ok,注意的是版本之间的匹配机器介绍,三台机器,第一台canal1为主节点+工作节点,另两台为工作节点:10.40.20.42 canal110.40.20.43 canal210.4...

2018-05-14 14:06:00 124

原创 Phoenix映射HBase数据表

1. 说明安装好phoenix后对于HBase中已经存在的数据表不会自动进行映射,所以想要再phoenix中操作HBase已有数据表就需要手动进行配置。2. 创建HBase表>create 'phoenix','info'3. 插入数据>put 'phoenix', 'row001','info:name','phoenix'> put 'phoenix', ...

2018-04-25 17:30:00 1568

CCA175,CCA131考试大纲

training guide for cloudera courses CCA 175,CCA131

2017-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除