自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (6)
  • 收藏
  • 关注

原创 【笔记】Apache pulsar学习手册

Apache pulsar学习手册写在前头:本文主要由【安装部署】、【概念简介】、【常用操作】、【权限管理】几部分构成。因为是Typora导入过来,有些图片用不了。有啥问题评论区见1、Apache pulsar安装部署1.1、前期准备zookeeper 3.4.5pulsar安装包 2.8.1集群免密环境1.2、部署步骤1.2.1、上传安装包到linux服务器上下载地址:https://pulsar.apache.org/zh-CN/download/1.2.2、解压文件到data

2021-12-03 17:52:27 2148

原创 【测试】FlinkSQL 读取 kafka数据的模式测试

2021-12-02 14:05:00 1515

原创 【记录】Apache pulsar安装部署手册

1、前期准备zookeeper 3.4.5pulsar安装包 2.8.1集群免密环境2、部署步骤2.1、上传安装包到linux服务器上下载地址:https://pulsar.apache.org/zh-CN/download/2.2、解压文件到data目录下tar -zxvf apache-pulsar-2.8.1-bin.tar.gz -C /data/2.3、初始化集群元数据信息在risen-cdh01上执行bin/pulsar initialize-cluster-me

2021-11-30 17:02:56 2554 2

原创 【记录】CentOS7安装部署greenplum6.17详细讲解

一、软件准备1.1 环境centOS7greenplum6.171.2 gp数据库下载下载适合自己的就行了https://github.com/greenplum-db/gpdb/releases这是我下的二、前期准备工作2.1 系统配置ps : 系统配置三台服务器都需要对应的修改!!!!2.1.1 关闭SELINUX (如果装过cdh可以跳过,装CDH的时候都调整过了的)改成disabled2.1.2 关闭防火墙(如果装过cdh可以跳过,装CDH的时候都调整过了的)s

2021-10-09 17:34:29 1155 4

原创 【记录】文章相似度计算开发(附代码)

写在前边:目前已经通过爬虫等手段获取了千万级的文章类数据,但是目前这些数据是只是简单的基于表层的应用,相对粗粒度的统计,文本之间的很多信息并没有被良好的利用起来。为了提高数据的使用率并获取更多有用信息,尝试用常见的NLP来计算文章之间的相似度,探索文章与文章之间的关联关系,了解文章的传播范围,为后续灵活使用数据提供技术基础。1、设计思路1.1、 数据分析数据样式上复杂。在数据探索阶段发现除了有汉语、英语,同时也有不少藏文、特殊符号构成的文章,样式上相对多样,对数据处理有更高的要求数据长度相对较长,

2021-09-22 18:23:23 357

原创 【记录】可视化工具Davinci安装部署

一、前期准备下载davinci代码 wget https://github.com/edp963/davinci/releases/download/v0.3.0-rc/davinci-assembly_0.3.1-0.3.1-SNAPSHOT-dist-rc.zip解压unzip davinci-assembly_0.3.1-0.3.1-SNAPSHOT-dist-rc.zip -d ./解压完的样子二、初始化数据库在mysql中创建davinci库create database d

2021-08-11 16:48:25 596

原创 【记录】flink提交offset给kafka的三种模式

/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licenses this file to You un

2021-08-09 15:55:12 1364

原创 【记录】ES在用elasticdump导数据的时候报安全性的错误

[root@risen-un01 bin]# ./elasticdump --input=http://192.168.5.249:9200/sentiment_latest -u elastic:fToC78aNvG7Ypg6ae0tZ --output=http://192.168.5.31:9200/ads_yq_sentiment_app --type=dataWed, 04 Aug 2021 03:03:29 GMT | starting dumpWed, 04 Aug 2021 03:03

2021-08-04 11:13:38 1604

原创 【笔记】hive调优常用参数整理集

–1.开启hive中间传输数据压缩功能set hive.exec.compress.intermediate=true;–2)开启mapreduce中map输出压缩功能set mapreduce.map.output.compress=true;–3)设置mapreduce中map输出数据的压缩方式set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;–4.开启hive最终输出数据压缩

2021-07-21 10:19:35 527

原创 【实战】Flink实时同步mysqlbinlog批量写数据到kudu

package risen.sourceimport java.utilimport java.util.Propertiesimport com.google.gson.JsonObjectimport com.google.gson.JsonParserimport org.apache.flink.api.common.functions.MapFunctionimport org.apache.flink.api.common.serialization.SimpleStringSch

2021-07-16 14:13:11 930

原创 【记录】FlinkSql读写kudu 编译测试全流程 附带编译包下载

写在前边:kudu性能就不多介绍了,是目前比较主流的数据库,但是可惜的是FLINKSQL居然不支持读写kudu,奇了怪。没办法,为了能写入只能自己动手了。经过查找发现有大佬已经开源过了,那么我们就在这个基础上进行就好了一、软件版本以下是我使用的版本。大家可以作为参考,然后根据自己的实际情况进行更改即可CDH6.3.2kudu 1.10.0-cdh6.3.2Flink 1.12.2二、前期准备1、下载源码git clone git://github.com/apache/bahir-fli

2021-07-08 16:05:43 1656 8

原创 【记录】FlinkX1.12编译部署及测试

写在前边:今天袋鼠云更新了FlinkX1.12,从之前的1.10版本迭代到现在的1.12。现在要重新编译部署一下。这里记录一下操作流程,同时记录下常见的错误,便于以后查阅使用一、软件版本FlinkX 1.12Flink 1.12.4二、前期准备下载FlinkXgit clone https://github.com/DTStack/flinkx.git增加flinkx/pom.xml中的下载源,不然会非常慢 <repository> <id&g

2021-07-01 18:09:35 1519 14

原创 【记录】flink更换版本之后启动报错

flink启动[ERROR - main-EventThread] (ConnectionState.java:307) Authentication failed解决方案删除zookeeper中的flink目录下所有东西

2021-06-28 15:47:48 1040 1

原创 【记录】docker部署flink1.10并安装FlinkX

本文分为两步:1、docker安装部署Flink1.102、基于flink1.10安装FlinkX一、docker安装Flink1.10首先通过docker安装Flink1.10创建文件docker-compose.ymlvim docker-compose.yml将以下内容复制到文件中,#后的为注释,删掉version: "2.1"services: jobmanager: image: flink:1.10.0-scala_2.11 expose: -

2021-06-17 10:34:02 840

原创 【记录】Apache DolphinScheduler在调度Flink1.12.2时的坑

一、问题因为在flink1.12.2已经移除了 -yn 这个参数但是在Apache DolphinScheduler中需要设置的参数设置完成了保存并运行然后可以看到由Apache DolphinScheduler拼接的命令同时可以看到最底下的报错是因为 -yn 这个参数导致的。二、解决在设置参数的时候,把对应-yn的那个值设置为空可以看到 拼接的命令已经没有 -yn 这个参数了...

2021-06-04 09:21:49 1084 2

原创 【实战】Kafka Connector用debezium读取mysql的Binlog实时同步Kafka映射成FlinkSql表

目的:实时同步mysql的数据,之前是通过flink-cdc实现,但是flink-cdc需要编写代码,维护起来相对来说较为麻烦。现在直接采用kafkaconnect来进行,操作简单便于维护一、前期准备软件版本mysql 5.7.30kafka 2.2.1-cdh6.3.2Flink 12.2.2Debezium连接器debezium 1.5.0相关介绍Debezium是一个开源项目,为捕获数据更改(change data capture,CDC)提供了一个低延迟的流式处理平台。你可以安

2021-05-27 17:32:18 1677

原创 【记录】CDH6.3.2的hive-cli启动运行有大量的INFO日志

hive> use kudu_test;21/05/17 11:40:43 INFO conf.HiveConf: Using the default value passed in for log id: cd0c7a59-612e-4781-8624-da810aad5c8c21/05/17 11:40:43 INFO session.SessionState: Updating thread name to cd0c7a59-612e-4781-8624-da810aad5c8c main

2021-05-17 11:50:34 1293

原创 【手册】CDH6.3.2及hadoop生态圈工具安装部署手册(附带安装包)

大数据测试环境CDH6.3.2安装部署手册一、前期准备1、服务器3台,系统要求centos7,服务器配置24核心+64G内存+2.7T磁盘2、CDH6.3.2相关资源,目前在线下载已收费,只能采用离线安装3、CM6.3.1相关资源,目前在线下载已收费,只能采用离线安装4、mysql驱动,jdk安装包5、集群规划6、Flink1.12目前官网没有提供,官网只提供了flink1.9版本的集成,如需使用需要自己编译。内存磁盘CPUcmcdhMysqlHiveImpalaK

2021-05-13 17:08:55 2016 1

原创 【调研】FlinkSql功能测试及实战演练

FlinkSql功能测试及实战演练前言:Flink在国内的占有率逐步提升的情况下,各项组件的功能与稳定性也得到逐步提升。为了解决目前已有的复杂需求,尝试研究flinksql的特性与功能,作为是否引入该组件的依据。同时尝试将现有需求通过简单demo的形式进行测试。本次测试主要集中在Kafka、mysql、Impala三个组件上,同时将结合官方文档进行:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/1 前期准备1.1 环

2021-05-12 17:39:24 1322 4

原创 【测试】FlinkSql映射kafka数据成表

FlinkSql环境配置及测试文档测试flinksql功能,并尝试将目前的需求通过简单demo的方式实现一、流程设计1、确定数据格式姓名,年龄,是否学生,操作类型,操作时间name,age,isStu,opt,optDate2、准备初始数据zhangsan,18,1,insertzhangsan,20,2,updatelisi,29,1,insertwangwu,29,2,insert3、新增数据,同时监测flink数据是否有变化zhangsan,18,1,insert二、k

2021-05-11 11:35:20 1372 6

原创 【测试】关于kafka数据被删除后,flinksql表数据是否会被删除问题的测试

FlinkSql与Kafka的Topic策略测试记录关于kafka数据被删除后,flinksql表数据是否会被删除问题的测试kafka中topic级别配置清单Property(属性)Default(默认值)Server Default Property(server.properties)说明(解释)cleanup.policydeletelog.cleanup.policy日志清理策略选择有:delete和compact主要针对过期数据的处理,或是日志文件达到限制的额度

2021-05-11 11:34:14 858

原创 【调研】impala/doris/tidb选型测试对比图

2021-05-07 16:12:14 3242 2

原创 【记录】apache doris 的 fe 启动报错

2021-04-27 17:27:14,292 INFO (UNKNOWN 192.168.122.1_9010_1619509366080(-1)|1) [Catalog.waitForReady():786] wait catalog to be ready. FE type: UNKNOWN. is ready: false2021-04-27 17:27:16,292 INFO (UNKNOWN 192.168.122.1_9010_1619509366080(-1)|1) [Catalog.wa

2021-04-27 19:38:18 3007 3

原创 【记录】CDH6.3.2在更换jdk版本之后,重启失败

journalctl -xe查看后发现是java_home的问题但是环境变量是配置好了的后来发现,cloudera是默认去读 /usr/java下的jdk,所以要将jdk移到那个目录,即可解决

2021-04-26 13:59:38 285

原创 【记录】CDH6.3.2集成ES7.9,启动报错

[WARN ][o.e.c.c.ClusterFormationFailureHelper] [localhost.localdomain] master not discovered yet, this node has not previously joined a bootstrapped (v7+) cluster, and this node must discover master-eligible nodes [node-1] to bootstrap a cluster: have disc

2021-04-19 16:00:06 541

原创 【记录】CDH6集成Flink1.12,添加服务后启动时报错的处理方法,亲测可用

CDH6集成Flink1.12在安装部署过程中,添加服务之后,没办法启动集群已经不再需要flink-shaded-hadoop-2-uber-2.7.5-10.0.jar这种包了flink启动报错Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoo

2021-04-16 16:55:08 1279 2

原创 【笔记】Python机器学习(二)

2021-04-12 20:09:57 71

原创 【备忘】elasticsearch所有版本的x-pack-sql-jdbc下载地址

https://www.elastic.co/cn/downloads/past-releases#jdbc-client

2021-04-09 15:33:38 1852

原创 【笔记】Python机器学习(一)

2021-04-02 17:46:01 97

原创 【笔记】大数据生态圈软件笔记整理

转载请注明来源

2021-03-09 16:44:45 96

原创 【笔记】linux笔记整理

2021-03-09 16:42:45 63

原创 【笔记】yarn笔记整理

2021-03-09 16:39:22 97

原创 【笔记】hdfs笔记整理

2021-03-09 16:38:21 61

原创 【笔记】hive笔记整理

2021-03-09 16:32:00 70

原创 【笔记】zookeeper笔记整理

zookeeper相关知识点整理

2021-03-09 16:30:01 63

原创 【python机器学习】k-近邻算法 范例及详解

python版本3.6.5k-临近算法 范例及详解目的输入一个坐标,返回最邻近该坐标的标签创建数据集创建训练数据集如图所示def createDataSet(): group = array([[1, 1.1], [1, 1], [0, 0], [0, 0.1]]) labels = array(['A', 'B', 'C', 'D']) return group, labels实现kNNdef classify0(inX,dataSet,labels,k):

2021-01-15 18:00:53 219 2

原创 【记录】数据治理工具Apache Atlas 编译集成CDH并部署使用

写在前面:随着大数据业务越来越复杂,有数仓中大量的细分的历史表,各类用户状态表,以及数据集市之后大量的统计表。当业务有所改变,或者埋点规则改变或者修复之前已存在的bug时。一个小小的改动,可能会对指标统计造成很多改变,但是在开发过程中,如果任务过多,时常会有忘记修改此处字段,究竟有多少脚本需要改变的情况。因此在各大论坛寻求解决方案,最终确定了使用Apache Atlas来进行数据治理,为了实现当修改某张表的某个字段时,会对哪些任务造成影响。一、下载综合大量相关资料,目前没有特别好的编译好的包。大部分都

2020-12-24 11:19:12 748

原创 【记录】Flink读取hive编译报错:Static methods in interface require -target:jvm-1.8

Flink编译报错Static methods in interface require -target:jvm-1.8在如下图处添加 -target:jvm-1.8 即可

2020-12-16 09:52:09 160

原创 【记录】IDEA使用Scala时自动类型推断

2020-11-27 17:58:52 522

原创 【实战】通过ImportTsv批量将数据从hive导出到hbase

导出到hbase的数据,放在TEXTFILE类型表中,分隔符要为tableCREATE TABLE IF NOT EXISTS hive_act( user_num STRING, f1 STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS TEXTFILE;导数据SET hive.exec.compress.output=false;insert ove

2020-11-27 17:27:19 223

pulsar-flink-connector_2.11-1.12.4.12-rc2.jar

FlinkSQL+STREAM 1.12连接 pulsar 2.8 的连接器

2021-12-15

FlinkSql2Kudu.rar

包含 flink-connector-kudu_2.11-1.1-SNAPSHOT.jar async-1.4.1.jar

2021-07-08

async-1.4.1.jar

编译FlinkSql on kudu 会用到

2021-07-08

es7.9+flink1.12基于CDH6.3.2编译之后的包 。【启动失败看资源描述!!!!!!!!】

CDH6.3.2集成的ES7.9、flink1.12.2编译好的parcel及csd,可以直接用,不懂私聊 flink启动失败的参考这篇:https://blog.csdn.net/spark9527/article/details/115767011?spm=1001.2014.3001.5501 ES启动失败了执行这个命令:chmod 777 /opt/cloudera/parcels/ELASTICSEARCH/config/ 即可

2021-05-11

impalaJDBC合集.rar

impalaJDBC4以及41

2021-05-11

flink-shaded-hadoop-2-uber-2.6.0-cdh5.13.3-7.0.jar

编译好的flink依赖包。放在flink的lib目录下即可。此版本是Flink1.9.0基于cdh5.13.3进行的编译。

2020-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除