gongxiucheng-CSDN博客

原创 stonedb部署实践

需要安装libaio包，yum install libaio。

2023-09-10 23:03:42 465 1

原创备份StarRocks数据到对象存储minio中/外表查minio中的数据

3.2 全量备份到minio（外表不能备份）参考docker部署starrocks。借助python生成parquet文件。2.准备starrocks环境。1.部署minio环境。宿主机与容器挂在映射。

2023-09-05 09:34:57 781 3

原创通过starrocks jdbc外表查询sqlserver

starrocks sqlserver外表操作

2023-09-01 13:33:23 811 1

原创使用flink sqlserver cdc 同步数据到StarRocks

flink cdc，sqlserver，starrocks

2023-09-01 10:39:13 1101

原创 StarRocks docker 环境编译,测试最新留存retention和漏斗window_funnel函数

近期在做留存，漏斗等用户行为分析调研时，留存retention函数随着官网2.2 rc版本发布已经可以下载，然后漏斗函数window_funnel已经开发完成，合并到main版本，预计2.3版本会发布，现阶段通过编译，提前测试调研漏斗函数，一下为操作过程：1.部署docker环境mac环境下载docker.dmg，安装好，然后调整好docker资源：可以编译好后，把docker资源再调整回来，之间就因为docker资源不够，编译不过，各种被kill，报错：be部分编译到一半，

2022-04-29 10:38:31 2312 1

原创使用StarRocks内置工具Routine Load同步Mysql/TiDB/PG等增量更新数据到StarRocks

什么是StarRocks？StarRocks是新一代极速统一的olap新型mpp分析型数据库，全面向量化引擎，全新的CBO优化器，性能强悍，单表查询媲美业界最强悍的clickhouse，支持多表join，支持数据秒级更新；且同时支持高并发，架构简单，方便运维扩展，完全国产，安全可控，在国内外各行各业已经得到了广泛使用。StarRocks提供了丰富的数据接入方式：stream load，routine load，broker load，spark load等，对接比如本地文件，对象存储，hdfs，

2022-04-26 16:43:09 5357

原创使用最新版flink tidb cdc 同步数据到StarRocks

Flink CDC 2.2 版本新增了 OceanBase CE，PolarDB-X，SqlServer，TiDB 四种数据源接入。其中新增 OceanBase CDC，SqlServer CDC，TiDB CDC 三个连接器，而 PolarDB-X 的支持则是通过对 MySQL CDC 连接器进行兼容适配实现。发布原文链接：https://blog.csdn.net/weixin_44904816/article/details/123836091最近在测tidb原始的ticdc（PingCa

2022-04-21 16:36:30 6049 1

原创 SPARK+LIVY

Apache Livy简介Apache Livy是由Cloudera Labs贡献的基于Apache Spark的开源REST服务，它不仅以REST的方式代替了Spark传统的处理交互方式，同时也提供企业应用中不可忽视的多用户，安全，以及容错的支持。其功能如下：拥有可用于多Spark作业或多客户端长时间运行的SparkContext；同时管理多个SparkContext，并...

2019-10-10 20:26:00 409

原创 kyligence enterprise3.2.x版本使用mysql作为数据源构建报错

1.报错信息如下：exe cmd:null/bin/sqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true -Dfs.defaultFS=hdfs://solution-0:8020 -Dmapreduce.job.queuename=default --connect "jdbc:mysql://solutio...

2019-02-19 19:15:00 81

原创 apache-kylin-2.5.2-bin-cdh57与cdh-5.13.0集群整合运用

1.下载kylin最新版apache-kylin-2.5.2-bin-cdh57；2.解压配置环境变量；export BASE_PATH="/opt/cloudera/parcels/CDH/lib"#added by hbaseexport HBASE_HOME="$BASE_PATH/hbase"export PATH="$HBASE_HOME/bin:$PATH"#add...

2019-01-02 16:38:00 60

原创 spark submit参数及调优(转载)

spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> ...

2018-12-13 11:07:00 103

原创 spark on yarn 资源调度（cdh为例）

一、CPU配置： ApplicationMaster 虚拟 CPU内核 yarn.app.mapreduce.am.resource.cpu-vcores ApplicationMaster占用的cpu内核数(Gateway--资源管理 ) //一般设置1个核，如果想启动时候快一点可以多设置核数，但它不管资源分配，所以只要保证任务执行过程中不挂就可以了容器虚拟 C...

2018-12-12 17:32:00 264

原创 spark读取mongodb数据写入hive表中

一环境：spark-2.2.0；hive-1.1.0;scala-2.11.8;hadoop-2.6.0-cdh-5.15.0;jdk-1.8;mongodb-2.4.10;二.数据情况：MongoDB数据格式{ "_id" : ObjectId("5ba0569cafc9ec432bd310a3"), "id" : 7, "name" : "7m...

2018-11-27 16:39:00 125

原创 datax源代码编译安装

what is DataX ？DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台。实现包括MySQL，SQL Server，Oracle，PostgreSQL，HDFS，Hive，HBase，OTS，ODPS等各种异构数据源之间高效的数据同步功能。1.从Github下载源码，地址：https://github.com/alibaba/DataX?spm=a2c4e.1115394...

2018-11-20 15:03:00 253

原创 tidb测试环境安装，离线部署

1.环境以及规划机器:centos7.5 ; 文件系统为ext4；内存16g；cpu8核，共三个节点； ip hostname roles 10.40.20.66 vm-10-40-20-66 tidb tipd tikv 10.40.20.67 vm-10-...

2018-11-01 18:20:00 95

原创 superset 安装测试，基于windows 和 centos7.x

1.刚开始在windows平台测试搭建，报各种问题，搭建可以参考官网https://superset.incubator.apache.org/installation.html#deeper-sqlalchemy-integratio问题汇总：1.1 需要安装Visual C++ 2015 ;1.2 需要python版本3.6+1.3 需要安装sasl ：pipinstallsas...

2018-10-25 15:05:00 68

原创安装支持elasticsearch使用sql查询插件

一、ElasticSearch-SQL介绍ElasticSearch-SQL(后续简称es-sql)是ElasticSearch的一个插件，提供了es 的类sql查询的相关接口。支持绝大多数的sql查询支持。 ElasticSearch-sql 地址：https://github.com/NLPchina/elasticsearch-sql二、ElasticSearch-SQL安装1...

2018-10-24 11:50:00 119

原创 cdh中hdfs非ha环境迁移Namenode与secondaryNamenode,从uc机器到阿里；

1.停掉外部接入服务；2 NameNode Metadata备份；2.1 备份fsimage数据，(该操作适用HA和非HA的NameNode)，使用如下命令进行备份：[root@cdh01 dfs]# mkdir nn_metadata_back[root@cdh01 dfs]# hdfs dfsadmin -fetchImage nn_metadata_back/[root@cdh0...

2018-10-23 13:53:00 173

原创 kafka配置参数详解

Broker ConfigsPropertyDefaultDescriptionbroker.id每个broker都可以用一个唯一的非负整数id进行标识；这个id可以作为broker的“名字”，并且它的存在使得broker无须混淆consumers就可以迁移到不同的host/port上。你可以选择任意你喜欢的数字作为id，只要id是唯一的即可。log.dirs/...

2018-10-23 11:52:00 108

原创在线tidb+tipd+tikv扩容，迁移，从UC到阿里云

集群现状：共有五个节点，配置为16核32g内存，数据节点为1T ssd盘，非数据节点为100g ssd盘；角色规划：node1 tidb tipdnode2 tidb tipdnode3 tikv tipdnode4 tikvnode5 tikv 1.每次操作都需要更改配置文件inventory.ini，都是在tidb用户下进行；2.初始化，打通新...

2018-09-10 16:17:00 181

原创 hive整合sentry，impala，hue之后权限管理操作

7.Hive授权参考(开启sentry之后,对用户授权用不了,只能针对用户组，grant role testrole to user xxxxxxx; )7.1：角色创建和删除 create role star_read; drop role star_read; grant role star_read to group star_read;7.2：角色授权和取消授权 7...

2018-09-06 11:19:00 84

原创 zabbix经常报警elasticsearch节点TCP连接数过高问题

单服务器最大tcp连接数及调优汇总单机最大tcp连接数网络编程在tcp应用中，server事先在某个固定端口监听，client主动发起连接，经过三路握手后建立tcp连接。那么对单机，其最大并发tcp连接数是多少？如何标识一个TCP连接在确定最大连接数之前，先来看看系统如何标识一个tcp连接。系统用一个4四元组来唯一标识一个TCP连接：{local ip, local port,r...

2018-08-29 18:26:00 124

原创 elasticsearch集群整合elqsticsearch-sql插件

1.本来整合这个插件是比较简单易操作的，但是由于公司从AWS下载禁掉了，给安装带来一些麻烦，采用离线安装，先FQ将elasticsearch-sql-5.1.2.0.zip下载下来；./bin/elasticsearch-plugin install /opt/elasticsearch-sql-5.1.2.0.zip 参考文档：https://github.com/NLPchi...

2018-08-27 18:33:00 171

原创在线elasticsearch集群批量写入变慢，导致kafka消息消费延迟

写入报错如些：2018-08-22 18:04:24.166 [elasticsearch[_client_][listener][T#1]] INFO com.mobanker.framework.es.ElasticsearchBulkTools - id=11749,failureMessage=failure in bulk execution:1.修改elasticsearc...

2018-08-22 15:58:00 210

原创 mysql主从集群搭建；(集群复制数据)

1.搭建mysql 5.7环境chown mysql:mysql -R /data/groupadd mysqluseradd -g mysql mysqlyum install numactlrpm -e mysql-libs --nodeps rpm -ivh mysql-community-common-5.7.21-1.el6.x86_64.rpmrpm -ivh mysql-comm...

2018-08-08 17:34:00 34

原创在线大数据cdh迁移，从公有云迁移到私有云

1.添加新节点2.迁移hdfs和hbase数据；3.迁移源节点各个服务到新节点；4.利用HA，包括hdfs，hbase master，resourcemanager的ha实现在线迁移；5.数据验证，可用性验证；...

2018-07-30 14:04:00 90

原创 hive中 udf,udaf,udtf

1.hive中基本操作； DDL，DML2.hive中函数User-Defined Functions : UDF(用户自定义函数，简称JDF函数)UDF: 一进一出 upper lower substring(进来一条记录，出去还是一条记录)UDAF：Aggregation(用户自定的聚合函数) 多进一出 count max min sum ...UDTF: Table-Gen...

2018-07-18 16:44:00 49

原创生产环境 tidb部署实践

TiDB 简介TiDB 是 PingCAP 公司受 GoogleSpanner/F1论文启发而设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库，结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL，支持无限的水平扩展，具备强一致性和高可用性。TiDB 的目标是为 OLTP (...

2018-07-17 17:26:00 57

原创 hive报错：Caused by: ERROR XBM0H: Directory /var/lib/hive/metastore/metastore_db cannot be created....

在cdh集群中，删除之前的hive服务，然后将hive添加到其他节点，然后再通过hive客户端连接hive报错：Caused by: ERROR XJ041: Failed to create database '/var/lib/hive/metastore/metastore_db', see the next exception for details. at org.apac...

2018-07-17 17:15:00 723

原创安装cloudera manager使用mysql作为元数据库

1.首次安装好mysql数据库后，会生成一个随机密码，使用如下办法找到：cat /var/log/mysqld.log |grep password2.首次安装好mysql数据库后，第一次登陆进去，需要先修改root用户密码：grant all privileges on *.* to 'root'@'%' identified by 'xxxxxxxxx';grant all pri...

2018-07-17 10:05:00 45

原创使用postgresql作为cm的数据库时候添加报错

如下图，当postgresql安装成功，建立好数据库scm，rman，amon之后，添加cm对应服务报错hadoopNode2没有相应数据库：No database server found running on host hadoopNode2.错误原因：在客户端访问PostgreSQL数据库时，PostgreSQL会读取文件pg_hba.conf判断是否信任该主机，故所有需要...

2018-07-09 16:04:00 113

原创 CDH上Cloudera Management Service 各个角色迁移至其他节点

1.首先查看Cloudera Management Service下有哪些服务，cdh版本为5.9.2：可以看到基本上有以上6个角色；2、停止所有角色，并执行删除；3.找到集群中另外一个节点，添加对应角色，我这里添加到hadoopNode4上：元数据库为mysql，在hadoopNode6上；需要将mysql驱动器scp到hadoopNode4上；[root@hadoopN...

2018-07-06 14:12:00 209

原创 cloudera manager服务迁移（scm数据库在postgresql上，其他amon，rman,oozie，metastore等在mysql上）...

公司线上大数据集群，之前用的是公有云主机，现在换成了自己idc机房机器，需要服务迁移，已下为测试：1.备份原postgresql数据库：pg_dump -U scm scm > scm.sql2.选一个节点hadoopNode2，安装cloudea-manager-server服务：yum install -y cloudera-manager-server3.had...

2018-07-04 17:05:00 140

原创 Error: Error while compiling statement: FAILED: SemanticException Unable to determine if hdfs://hado...

1.发现问题：在hive客户端或者beeline查询hive表时候报错：根据报错信息查看，是在集群namenode做了HA之后，产生的hdfs路径不对的问题；2.解决问题，修改hive元数据mysql信息表DBS和SDS:更改语句：mysql> update sds set LOCATION = REPLACE(LOCATION,'hadoopNode2:8020','c...

2018-06-27 16:46:00 2210

原创（转） Sqoop使用实例讲解

原博客地址：http://blog.csdn.net/evankaka摘要：本文主要讲了笔者在使用sqoop过程中的一些实例一、概述与基本原理 Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如...

2018-06-26 14:54:00 48

原创线上环境HBASE-1.2.0出现oldWALs无法自动回收情况；

正常情况下，hmaster会定期清理oldWALs文件夹，一般该文件大小也就几百兆，但是我们线上环境出现了该文件没有自动回收情况，如图：该目录占用hdfs空间多达7.6T，浪费空间：后来经过多番查找，找到了问题所在，之前开启hbase复制之peers，参考博文连接如下：https://stackoverflow.com/questions/28725364/hbase-oldwals-...

2018-06-14 10:22:00 1825

原创 CDH-5.9.2整合spark2

1.编写目的：由于cdh-5.9.2自带spark版本是spark1.6，现需要测试spark2新特性，需要整合spark2，且spark1.x和spark2.x可以同时存在于cdh中，无需先删除spark1.x；2.安装包下载 2.1首先下载csd包，地址： http://archive.cloudera.com/spark2/csd/ 2.2 parcel包下载地址...

2018-05-21 11:26:00 45

原创开源版本 hadoop-2.7.5 + apache-hive-2.1.1 + spark-2.3.0-bin-hadoop2.7整合使用

一，开源软件版本：hadoop版本：hadoop-2.7.5hive版本：apache-hive-2.1.1spark版本：spark-2.3.0-bin-hadoop2.7各个版本到官网下载就ok，注意的是版本之间的匹配机器介绍，三台机器，第一台canal1为主节点+工作节点，另两台为工作节点：10.40.20.42 canal110.40.20.43 canal210.4...

2018-05-14 14:06:00 124

原创 Phoenix映射HBase数据表

1. 说明安装好phoenix后对于HBase中已经存在的数据表不会自动进行映射，所以想要再phoenix中操作HBase已有数据表就需要手动进行配置。2. 创建HBase表>create 'phoenix','info'3. 插入数据>put 'phoenix', 'row001','info:name','phoenix'> put 'phoenix', ...

2018-04-25 17:30:00 1568

CCA175，CCA131考试大纲

空空如也