夜古诚-CSDN博客

原创 WaterDrop on spark/flink(v2.x 支持spark/flink)

（注：flink版本>=1.9.0，spark版本>=2.x.x）使用场景海量数据ETL 海量数据聚合多源数据处理特性简单易用，灵活配置，无需开发实时流式处理高性能海量数据处理能力模块化和插件化，易于扩展支持利用SQL做数据处理和聚合工作流程input/Source[数据源输入] -> Filter/Transform[数据处理] -...

2020-03-22 17:26:42 398

原创 Spark性能优化指南

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。学习Spark的目的就是，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业...

2018-12-22 21:02:24 882 1

原创 Spark 之 Graphx学习笔记

写此博客时，我也是刚接触Spark GraphX，很多东西都一知半解，不过还好对Spark原理有一定的了解。为了，进一步学习：可能你会有很多的手段，比如官网（这个是最直接了当，也是最可靠的方法，但需要你有一定的英语能力），博客等。最近看到了一片博客，写的非常不错，在此以做学习笔记的方式写了这篇博客。以下很多内容来源于CSDN博客：千寻千梦：https://blog.csdn.net/qq_3453...

2018-11-19 14:49:50 2360 1

原创 flink-cdc 设置

flink-cdc 设置

2023-02-14 10:55:39 922

原创 Hive 添加 UDF 基于余弦向量计算文本相似度

1. scala 余弦算法。

2022-08-04 16:59:38 803

原创 Apache DolphinScheduler 任务调度

Apache DolphinScheduler 是一个大数据调度任务框架。从当前的CSDN的GitCode的热度来看，其在2022年2月份排名第6位。那是相当的热门的其是一个云原生的可视化的大数据工作流调度系统，其使命就是致力于解决复杂大数据任务依赖，默认就支持多个大数据任务之间的数据操作的编排。相对于其他的大数据调度框架：azkaban、airflow、xxjob，DolphinScheduler 功能强大了不少！...............

2022-06-23 10:49:39 419

原创 Otter 下载安装

简介基于数据库增量日志解析，准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据库同步系统。原理1. 基于Canal开源产品，获取数据库增量日志数据。什么是Canal, 请点击2. 典型管理系统架构，manager(web管理)+node(工作节点) a. manager运行时推送同步配置到node节点 b. node节点将同步状态反馈到manager上3. 基于zookeeper，解决分布式状态调度的，允许多node节点之间协同工作........

2022-05-08 22:22:30 241

原创基于Nginx、vsftpd的图片服务器

1. 首先需要先安装nginx 和 vsftp,已有教程。2. 配置 nginx.conf :第一处：把第一行的 user root 前面的#去掉，之所以这样做是因为访问权限的问题，不去掉的话，会报Forbidden错误。第二处：新添加一个server，listen的端口还是用默认的8080端口，server_name 是我们的图片服务器ip，将照片传到 /home/ftpuser/www/ 下即可server{ listen 80; server_name 192.

2022-04-09 22:56:06 145

原创 Systemd 配置解释

支持 systemd 的软件，安装的时候，会自动在/usr/lib/systemd/system目录添加一个配置文件。如果你想让该软件开机启动，就执行下面的命令（以httpd.service为例）。[root@wtl1992 system]# systemctl enable httpdCreated symlink /etc/systemd/system/multi-user.target.wants/httpd.service → /usr/lib/systemd/system/httpd.

2022-04-08 10:48:14 316

原创 elasticdump 工具

elasticdump \--input=/mnt/data/es_data_back/house_base.json \--output=http://elastic:[email protected]:9201/house_base--type=data################ es => jsonelasticdump \--output=/root/data/elasticdump/rel_person_company.json \--input=http..

2022-03-25 21:35:56 125

原创制作开机内核启动服务 systemd

1. 创建shell脚本 test.sh ，并将脚本放到指定目录(建议 /root/.config 目录)#!/bin/bashwhile [ 2 -gt 1 ]do echo 'ok ...' >> /root/aaa.txt sleep 2sdone2. 创建 mytest.service[Unit]Description=my first service[Service]ExecStart=/bin/bash /root/.config/test.s

2022-03-03 22:15:46 122

原创 Kerberos 操作命令使用

一. 指南1. 登录kinit2. 查询登录状态klist3. 退出kdestroy二. 使用指南1. 登录管理KDC服务器，登录后台kadmin.local2.查看用户列表listprincs3.修改帐号密码(可修改忘记密码)[root@dounine ~]# kadmin.localAuthenticating as principal root/[email protected] with password.kadmin.loca..

2022-02-03 10:42:42 2959

原创 KerberOS Hadoop 认证安装配置

1. 关闭 selinuxvim /etc/sysconfig/selinux2. 安装 yum 源配置参考https://blog.csdn.net/Jerry_991/article/details/1189105053. 安装 kerberos 的 server 端（一般找一台单独的机器）yum install -y krb5-ibs krb5-server krb5-workstation(查看 yum list | grep krb 中是否有安装软件)...

2022-01-26 15:01:20 2899

原创 ELK 之 Kibana

目录创建索引插入数据更新数据删除数据查询数据Elasticsearch为开发者提供了丰富的基于Http协议的RESTful API，通过简单的Rest请求，就可以实现非常强大的功能。RESTful API基本格式如下，以http方法决定动作：GET/PUT/POST/DELETEhttp://<ip>:<port>/<索引>/<类型>/<文档id>这里我们使用Postman向Elasticsearch发送REST.

2021-10-15 09:33:55 174

原创 ELK 详解

ElasticSearch概述ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官网https://www.elastic.co/。ElasticSearch6.0版本以上需要jdk8环境才可以运行。Linux系统中Elast

2021-10-14 19:59:42 1553

原创 ElasticSearch-head 谷歌浏览器安装插件

1. windows 解压安装包elasticsearch-head-master.zip2. 移动解压后的文件夹到你需要的目录3.crx 目录下的文件es-head.crx 改为es-head.zip 然后解压到当前目录4. 谷歌浏览器中添加插件5. 选择解压的 elasticsearch-head crx 文件夹成功 ......

2021-10-13 14:58:06 979

原创 ElasticSearch 中文分词 ik

一、前言把一段文字的划分成一个个的关键字，我们在搜索时候会把自己的信息进行分词，会把数据库中或者索引库中的数据进行分词，然后进行一个匹配操作。默认的中文分词是将每个字看成一个词，这显然是不符合要求的，所以我们需要安装中文分词器ik来解决这个问题。Elasticsearch之所以模糊查询这么快，是因为采用了倒排索引，而倒排索引的核心就是分词，把text格式的字段按照分词器进行分词并编排索引。为了发挥自己的优势，Elasticsearch已经提供了多种功能强大的内置分词器，它们的作用都是怎样的呢？

2021-10-12 15:43:26 149

原创 ElasticSearch 之 Kibana 查询语句

# 查询GET company_base/_search# 计数GET company_base/_count# sql 查询GET _sql?format=json{ "query": "SELECT * FROM company_base"}# 设置 windows 最大可显示数据量PUT _all/_settings{ "index.max_result_window":1000000}# 重命名索引（拷贝）POST _reindex{ "source".

2021-10-11 15:57:47 573

原创 app 安装

一. JDK 查看linux自带JDK：rpm -qa | grep jdk 删除就openJDK： rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64 rpm -e --nodeps java-1.6.0-openjdk-devel-1.6.0.0-1.66.1.13.0.el6.x86_64 解压 JDK 包： tar -xvf jdk-8u73-linux-x64.tar.gz -C /usr/loca.

2021-07-23 23:20:26 235

原创 ftp 服务安装

1. yum安装 yum install -y vsftpd2. 创建ftp账号 useradd ftp passwd ftp 输入密码：123456 两次3. 配置文件修改：/etc/vsftpd/vsftpd.conf 修改：anonymous_enable=NO 添加：reverse_lookup_enable=NO4.service vsftpd start5.开机启动 vim /etc...

2021-07-19 19:16:42 95 1

原创 Kafka 提交 offset 机制

前言在kafka 0.9版本之后，kafka为了降低zookeeper的io读写，减少network data transfer，也自己实现了在kafka server上存储consumer，topic，partitions，offset信息将消费的 offset 迁入到了 Kafka 一个名为__consumer_offsets的Topic中。在kafka的消费者中，有一个非常关键的...

2020-03-24 15:23:51 2243

原创 Redis API详解

前言REmote DIctionary Server（Redis）是一个基于key-value键值对的持久化数据库存储系统。redis和大名鼎鼎的Memcached缓存服务软件很像，但是redis支持的数据存储类型比memcached更丰富，包括strings（字符串），lists（列表），sets（集合）和sorted sets（有序集合）等。这些数据类型支持push/pop,add/re...

2020-03-24 09:41:34 1262

原创 Python 看门狗功能实现

前言:用 python 实时实现监控一个文件夹功能，将监控到的 Excel（笔者目前用于解析excel文件）解析写到 mysql 中，起功能和 sparkStreaming 中的textFileStream 功能，个人感觉 python 代码更好看。毕竟 java 代码看起来比较繁琐，scala 代码简洁，可是它也是借鉴 python 发展而来啊。python 实现看门狗功能代码：...

2020-03-20 22:06:18 2222

原创 SparkStreaming + kafka 的 offset 保存在 Zookeeper、MySQL、HBase、Redis，kafka 中

前言（代码亲测）Kafka做为一款流行的分布式发布订阅消息系统，以高吞吐、低延时、高可靠的特点著称，已经成为Spark Streaming常用的流数据来源。官方提供的思路就是，把JavaInputDStream转换为OffsetRange对象，该对象具有topic对应的分区的所有信息，每次batch处理完，Spark Streaming都会自动更新该对象，所以你只需要找个合适的地方保存...

2020-03-08 19:05:33 416

原创 DataX 使用笔记

写在前面DataX 是阿里巴巴集团内被广泛使用的异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，...

2019-12-24 10:32:47 724

原创合并Spark SQL产生的小文件

问题使用spark sql执行etl时候出现了，最终结果大小只有几百K或几M，但是小文件一个分区有上千的情况。运行spark sql 效率比较低危害：hdfs有最大文件数限制浪费磁盘资源（可能存在空文件）； hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。解决方法方法一：通过spark的coalesce()方法和repartition()方法val...

2019-07-27 16:03:52 3282 1

原创 SparkStreaming 整合 Kafka

Spark Streaming 整合 Kafka 架构概述具体实现步骤安装好 ZooKeeper 和 Kafka 和 flume 启动好 ZooKeeper 和 Kafka 创建一个 Kafka 的 Topic############ 启动 kafka ############ nohup kafka-server-start.sh \/home/hadoop/apps/k...

2019-03-16 17:39:17 441 1

原创虚拟机上安装 Linux 步骤详解

目录前言Linux安装准备VMwareLinux创建虚拟机安装Linux前言目前大数据这个职业很火，相信很多人都在考虑转行学大数据。但是需要系统的去学习才行，不要自己在那里琢磨，非常费时间。怎么去学习大数据，我想你自己会有想法的。那么问题来了，此博客就在虚拟机中安装Linux，做一个详细的步骤。Linux安装准备VMware首先，需要你先在你自己的电脑上...

2019-01-26 17:56:28 2172 3

原创 yarn——资源调度

目录前言调度器的选择Capacity Scheduler （计算能力调度器）Capacity Scheduler 容量调度器介绍Capacity Scheduler 容量调度器配置Capacity Scheduler 队列的设置Fair Scheduler（公平调度器）Fair Scheduler 容量调度器介绍Fair Scheduler 容量调度器配置...

2019-01-24 22:18:27 1189 1

原创 Hadoop集群添加新节点

写此博客目的前，真实的工作中遇到。需要在正在使用的Hadoop集群添加新节点，原有集群为6个节点，需要新增加一个节点到已有的集群中去。以前没有做过此操作，也是摸索着去处理这个问题，特此记录下这个过程：总结：添加节点过程也不复杂，可能有了步骤后才有思路解决问题。首先，新增加节点需要安装的软件有（hadoop，jdk，spark，我有加装了scala），不需要装（zookeeper、hive等软件）...

2018-12-15 21:57:39 5593 2

原创 spark-submit提交任务参数解析

导读：spark和yarn整合后，可以将Application提交到Yarn上运行，和StandAlone提交模式一样，Yarn也有两种提交模式。具体：1. yarn-client提交任务配置：在spark目录下的spark-env.sh添加Hadoop_HOME的配置目录即可提交yarn 任务，具体步骤如下：export HADOOP_CONF_DIR=$HADOOP_...

2018-11-13 18:03:31 2343 1

Jerry的博客