槐序i-CSDN博客

原创【笔记】Apache pulsar学习手册

Apache pulsar学习手册写在前头：本文主要由【安装部署】、【概念简介】、【常用操作】、【权限管理】几部分构成。因为是Typora导入过来，有些图片用不了。有啥问题评论区见1、Apache pulsar安装部署1.1、前期准备zookeeper 3.4.5pulsar安装包 2.8.1集群免密环境1.2、部署步骤1.2.1、上传安装包到linux服务器上下载地址：https://pulsar.apache.org/zh-CN/download/1.2.2、解压文件到data

2021-12-03 17:52:27 2148

原创【测试】FlinkSQL 读取 kafka数据的模式测试

2021-12-02 14:05:00 1515

原创【记录】Apache pulsar安装部署手册

1、前期准备zookeeper 3.4.5pulsar安装包 2.8.1集群免密环境2、部署步骤2.1、上传安装包到linux服务器上下载地址：https://pulsar.apache.org/zh-CN/download/2.2、解压文件到data目录下tar -zxvf apache-pulsar-2.8.1-bin.tar.gz -C /data/2.3、初始化集群元数据信息在risen-cdh01上执行bin/pulsar initialize-cluster-me

2021-11-30 17:02:56 2554 2

原创【记录】CentOS7安装部署greenplum6.17详细讲解

一、软件准备1.1 环境centOS7greenplum6.171.2 gp数据库下载下载适合自己的就行了https://github.com/greenplum-db/gpdb/releases这是我下的二、前期准备工作2.1 系统配置ps ：系统配置三台服务器都需要对应的修改！！！！2.1.1 关闭SELINUX （如果装过cdh可以跳过，装CDH的时候都调整过了的）改成disabled2.1.2 关闭防火墙（如果装过cdh可以跳过，装CDH的时候都调整过了的）s

2021-10-09 17:34:29 1155 4

原创【记录】文章相似度计算开发（附代码）

写在前边：目前已经通过爬虫等手段获取了千万级的文章类数据，但是目前这些数据是只是简单的基于表层的应用，相对粗粒度的统计，文本之间的很多信息并没有被良好的利用起来。为了提高数据的使用率并获取更多有用信息，尝试用常见的NLP来计算文章之间的相似度，探索文章与文章之间的关联关系，了解文章的传播范围，为后续灵活使用数据提供技术基础。1、设计思路1.1、数据分析数据样式上复杂。在数据探索阶段发现除了有汉语、英语，同时也有不少藏文、特殊符号构成的文章，样式上相对多样，对数据处理有更高的要求数据长度相对较长，

2021-09-22 18:23:23 357

原创【记录】可视化工具Davinci安装部署

一、前期准备下载davinci代码 wget https://github.com/edp963/davinci/releases/download/v0.3.0-rc/davinci-assembly_0.3.1-0.3.1-SNAPSHOT-dist-rc.zip解压unzip davinci-assembly_0.3.1-0.3.1-SNAPSHOT-dist-rc.zip -d ./解压完的样子二、初始化数据库在mysql中创建davinci库create database d

2021-08-11 16:48:25 596

原创【记录】flink提交offset给kafka的三种模式

/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licenses this file to You un

2021-08-09 15:55:12 1364

原创【记录】ES在用elasticdump导数据的时候报安全性的错误

[root@risen-un01 bin]# ./elasticdump --input=http://192.168.5.249:9200/sentiment_latest -u elastic:fToC78aNvG7Ypg6ae0tZ --output=http://192.168.5.31:9200/ads_yq_sentiment_app --type=dataWed, 04 Aug 2021 03:03:29 GMT | starting dumpWed, 04 Aug 2021 03:03

2021-08-04 11:13:38 1604

原创【笔记】hive调优常用参数整理集

–1.开启hive中间传输数据压缩功能set hive.exec.compress.intermediate=true;–2）开启mapreduce中map输出压缩功能set mapreduce.map.output.compress=true;–3）设置mapreduce中map输出数据的压缩方式set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;–4.开启hive最终输出数据压缩

2021-07-21 10:19:35 527

原创【实战】Flink实时同步mysqlbinlog批量写数据到kudu

package risen.sourceimport java.utilimport java.util.Propertiesimport com.google.gson.JsonObjectimport com.google.gson.JsonParserimport org.apache.flink.api.common.functions.MapFunctionimport org.apache.flink.api.common.serialization.SimpleStringSch

2021-07-16 14:13:11 930

原创【记录】FlinkSql读写kudu 编译测试全流程附带编译包下载

写在前边：kudu性能就不多介绍了，是目前比较主流的数据库，但是可惜的是FLINKSQL居然不支持读写kudu，奇了怪。没办法，为了能写入只能自己动手了。经过查找发现有大佬已经开源过了，那么我们就在这个基础上进行就好了一、软件版本以下是我使用的版本。大家可以作为参考，然后根据自己的实际情况进行更改即可CDH6.3.2kudu 1.10.0-cdh6.3.2Flink 1.12.2二、前期准备1、下载源码git clone git://github.com/apache/bahir-fli

2021-07-08 16:05:43 1656 8

原创【记录】FlinkX1.12编译部署及测试

写在前边：今天袋鼠云更新了FlinkX1.12，从之前的1.10版本迭代到现在的1.12。现在要重新编译部署一下。这里记录一下操作流程，同时记录下常见的错误，便于以后查阅使用一、软件版本FlinkX 1.12Flink 1.12.4二、前期准备下载FlinkXgit clone https://github.com/DTStack/flinkx.git增加flinkx/pom.xml中的下载源，不然会非常慢 <repository> <id&g

2021-07-01 18:09:35 1519 14

原创【记录】flink更换版本之后启动报错

flink启动[ERROR - main-EventThread] (ConnectionState.java:307) Authentication failed解决方案删除zookeeper中的flink目录下所有东西

2021-06-28 15:47:48 1040 1

原创【记录】docker部署flink1.10并安装FlinkX

本文分为两步：1、docker安装部署Flink1.102、基于flink1.10安装FlinkX一、docker安装Flink1.10首先通过docker安装Flink1.10创建文件docker-compose.ymlvim docker-compose.yml将以下内容复制到文件中，#后的为注释，删掉version: "2.1"services: jobmanager: image: flink:1.10.0-scala_2.11 expose: -

2021-06-17 10:34:02 840

原创【记录】Apache DolphinScheduler在调度Flink1.12.2时的坑

一、问题因为在flink1.12.2已经移除了 -yn 这个参数但是在Apache DolphinScheduler中需要设置的参数设置完成了保存并运行然后可以看到由Apache DolphinScheduler拼接的命令同时可以看到最底下的报错是因为 -yn 这个参数导致的。二、解决在设置参数的时候，把对应-yn的那个值设置为空可以看到拼接的命令已经没有 -yn 这个参数了...

2021-06-04 09:21:49 1084 2

原创【实战】Kafka Connector用debezium读取mysql的Binlog实时同步Kafka映射成FlinkSql表

目的：实时同步mysql的数据，之前是通过flink-cdc实现，但是flink-cdc需要编写代码，维护起来相对来说较为麻烦。现在直接采用kafkaconnect来进行，操作简单便于维护一、前期准备软件版本mysql 5.7.30kafka 2.2.1-cdh6.3.2Flink 12.2.2Debezium连接器debezium 1.5.0相关介绍Debezium是一个开源项目，为捕获数据更改(change data capture,CDC)提供了一个低延迟的流式处理平台。你可以安

2021-05-27 17:32:18 1677

原创【记录】CDH6.3.2的hive-cli启动运行有大量的INFO日志

hive> use kudu_test;21/05/17 11:40:43 INFO conf.HiveConf: Using the default value passed in for log id: cd0c7a59-612e-4781-8624-da810aad5c8c21/05/17 11:40:43 INFO session.SessionState: Updating thread name to cd0c7a59-612e-4781-8624-da810aad5c8c main

2021-05-17 11:50:34 1293

原创【手册】CDH6.3.2及hadoop生态圈工具安装部署手册（附带安装包）

大数据测试环境CDH6.3.2安装部署手册一、前期准备1、服务器3台，系统要求centos7,服务器配置24核心+64G内存+2.7T磁盘2、CDH6.3.2相关资源，目前在线下载已收费，只能采用离线安装3、CM6.3.1相关资源，目前在线下载已收费，只能采用离线安装4、mysql驱动，jdk安装包5、集群规划6、Flink1.12目前官网没有提供，官网只提供了flink1.9版本的集成，如需使用需要自己编译。内存磁盘CPUcmcdhMysqlHiveImpalaK

2021-05-13 17:08:55 2016 1

原创【调研】FlinkSql功能测试及实战演练

FlinkSql功能测试及实战演练前言：Flink在国内的占有率逐步提升的情况下，各项组件的功能与稳定性也得到逐步提升。为了解决目前已有的复杂需求，尝试研究flinksql的特性与功能，作为是否引入该组件的依据。同时尝试将现有需求通过简单demo的形式进行测试。本次测试主要集中在Kafka、mysql、Impala三个组件上，同时将结合官方文档进行：https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/1 前期准备1.1 环

2021-05-12 17:39:24 1322 4

原创【测试】FlinkSql映射kafka数据成表

FlinkSql环境配置及测试文档测试flinksql功能，并尝试将目前的需求通过简单demo的方式实现一、流程设计1、确定数据格式姓名,年龄,是否学生,操作类型,操作时间name,age,isStu,opt,optDate2、准备初始数据zhangsan,18,1,insertzhangsan,20,2,updatelisi,29,1,insertwangwu,29,2,insert3、新增数据，同时监测flink数据是否有变化zhangsan,18,1,insert二、k

2021-05-11 11:35:20 1372 6

原创【测试】关于kafka数据被删除后，flinksql表数据是否会被删除问题的测试

FlinkSql与Kafka的Topic策略测试记录关于kafka数据被删除后，flinksql表数据是否会被删除问题的测试kafka中topic级别配置清单Property(属性)Default(默认值)Server Default Property(server.properties)说明(解释)cleanup.policydeletelog.cleanup.policy日志清理策略选择有：delete和compact主要针对过期数据的处理，或是日志文件达到限制的额度

2021-05-11 11:34:14 858

原创【调研】impala/doris/tidb选型测试对比图

2021-05-07 16:12:14 3242 2

原创【记录】apache doris 的 fe 启动报错

2021-04-27 17:27:14,292 INFO (UNKNOWN 192.168.122.1_9010_1619509366080(-1)|1) [Catalog.waitForReady():786] wait catalog to be ready. FE type: UNKNOWN. is ready: false2021-04-27 17:27:16,292 INFO (UNKNOWN 192.168.122.1_9010_1619509366080(-1)|1) [Catalog.wa

2021-04-27 19:38:18 3007 3

原创【记录】CDH6.3.2在更换jdk版本之后，重启失败

journalctl -xe查看后发现是java_home的问题但是环境变量是配置好了的后来发现，cloudera是默认去读 /usr/java下的jdk，所以要将jdk移到那个目录，即可解决

2021-04-26 13:59:38 285

原创【记录】CDH6.3.2集成ES7.9，启动报错

[WARN ][o.e.c.c.ClusterFormationFailureHelper] [localhost.localdomain] master not discovered yet, this node has not previously joined a bootstrapped (v7+) cluster, and this node must discover master-eligible nodes [node-1] to bootstrap a cluster: have disc

2021-04-19 16:00:06 541

原创【记录】CDH6集成Flink1.12，添加服务后启动时报错的处理方法，亲测可用

CDH6集成Flink1.12在安装部署过程中，添加服务之后，没办法启动集群已经不再需要flink-shaded-hadoop-2-uber-2.7.5-10.0.jar这种包了flink启动报错Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoo

2021-04-16 16:55:08 1279 2

原创【笔记】Python机器学习（二）

2021-04-12 20:09:57 71

原创【备忘】elasticsearch所有版本的x-pack-sql-jdbc下载地址

https://www.elastic.co/cn/downloads/past-releases#jdbc-client

2021-04-09 15:33:38 1852

原创【笔记】Python机器学习（一）

2021-04-02 17:46:01 97

原创【笔记】大数据生态圈软件笔记整理

转载请注明来源

2021-03-09 16:44:45 96

原创【笔记】linux笔记整理

2021-03-09 16:42:45 63

原创【笔记】yarn笔记整理

2021-03-09 16:39:22 97

原创【笔记】hdfs笔记整理

2021-03-09 16:38:21 61

原创【笔记】hive笔记整理

2021-03-09 16:32:00 70

原创【笔记】zookeeper笔记整理

zookeeper相关知识点整理

2021-03-09 16:30:01 63

原创【python机器学习】k-近邻算法范例及详解

python版本3.6.5k-临近算法范例及详解目的输入一个坐标，返回最邻近该坐标的标签创建数据集创建训练数据集如图所示def createDataSet(): group = array([[1, 1.1], [1, 1], [0, 0], [0, 0.1]]) labels = array(['A', 'B', 'C', 'D']) return group, labels实现kNNdef classify0(inX,dataSet,labels,k):

2021-01-15 18:00:53 219 2

原创【记录】数据治理工具Apache Atlas 编译集成CDH并部署使用

写在前面：随着大数据业务越来越复杂，有数仓中大量的细分的历史表，各类用户状态表，以及数据集市之后大量的统计表。当业务有所改变，或者埋点规则改变或者修复之前已存在的bug时。一个小小的改动，可能会对指标统计造成很多改变，但是在开发过程中，如果任务过多，时常会有忘记修改此处字段，究竟有多少脚本需要改变的情况。因此在各大论坛寻求解决方案，最终确定了使用Apache Atlas来进行数据治理，为了实现当修改某张表的某个字段时，会对哪些任务造成影响。一、下载综合大量相关资料，目前没有特别好的编译好的包。大部分都

2020-12-24 11:19:12 748

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

pulsar-flink-connector_2.11-1.12.4.12-rc2.jar

FlinkSql2Kudu.rar

async-1.4.1.jar

es7.9+flink1.12基于CDH6.3.2编译之后的包 。【启动失败看资源描述！！！！！！！！】

impalaJDBC合集.rar

flink-shaded-hadoop-2-uber-2.6.0-cdh5.13.3-7.0.jar

空空如也

es7.9+flink1.12基于CDH6.3.2编译之后的包。【启动失败看资源描述！！！！！！！！】