寞逍遥-CSDN博客

原创 xxl-job 原理

如果执行器网络故障，调度中心就不知道执行器的情况，如果把任务路由给一个不可用的执行器，就会导致任务失败。第一步就是查日志表里结果不是200的任务，为了防止集群下同时处理一个失败任务，用了数据库的乐观锁（版本号），如果失败重试次数>0，代表重试，就要重新触发。这里的是数据分片，需要用到分片参数 sharding param，调度器负责把这个分片参数分发给每个执行器（执行器个数和参数个数相等），怎么根据分片参数对数据分片是Job自己的事情。如果一个执行器挂了，就找另一个执行器执行，直到找到一个正常的执行器。

2023-11-09 15:37:46 177

原创 ES delete_by_query条件删除的几种方式

使用delete_by_query，对ES索引数据按条件删除

2023-09-06 20:45:14 4297

原创 kafka常用命名

【代码】kafka常用命名。

2023-08-22 13:47:36 1732

原创 NIFI学习指南

首页 | Apache NIFI中文文档。Apache NIFI中文文档。NIFI中文学习文档。

2023-05-10 16:20:15 272

原创 Kafka如何彻底删除topic及数据

server.properties文件log.dirs配置(CDH中查找配置log.dirs)，默认为 /app/kafka/data 相关topic的数据目录，如果kafka 有多个 broker，需要删除每个broker 的数据盘的topic的所有分区数据。原文链接：https://blog.csdn.net/chenxi5404/article/details/118512339。/opt/cloudera/parcels/CDH/lib/zookeeper/bin/zkCli.sh（路径）

2023-04-15 20:54:45 5546

原创 Redis使用

Redis使用

2023-04-06 22:47:51 249

原创 HDFS常用命令

HDFS常用命令

2022-09-21 15:05:22 438

转载 Hbase之rowkey设计原则和方法

Hbase之rowkey设计原则和方法

2022-08-31 09:06:54 1050

原创 Redis常用命令

【代码】Redis常用命令。redis-cli -h t1m1 -p 6379 -a sky.123hget SKY_RES_SCHEMA 10000redis-cli -h 71.211.33.85 -p 22404 -chget SKY_RES_SCHEMA 10000

2022-04-15 14:27:44 489

转载 mysql查看binlog日志

业内目前推荐使用的是row模式，准确性高，虽然说文件大，但是现在有SSD和万兆光纤网络，这些磁盘IO和网络IO都是可以接受的。那么，大家一定想问，为什么不推荐使用mixed模式，理由如下假设master有两条记录，而slave只有一条记录。master的数据为+----+------------------------------------------------------+| id | n |+----+-------------------------------...

2022-03-04 16:41:59 8271

原创为什么Spark运行比MapReduce快

Spark比MapReduce快主要有三点。IOSpark和MapReduce的计算都发生在内存中，但是MapReduce通常将计算的中间结果写入磁盘，从而导致了频繁的磁盘IO。Spark则因为RDD弹性分布式数据集和DAG有向无环图不需要将计算的中间结果写入磁盘，大大减少了磁盘IO。排序MapReduce在Shuffle时需要花费大量时间进行排序。Spark在Shuffle时则只有部分场景才需要排序。进程、线程MapReduce采用了多进程模型，多进程模型好处是可以细粒度控制每个任务占用

2021-12-29 11:17:18 2637

转载 ElasticeSearch用法(使用Transport操作ES服务器),增删改查和批量操作

ElasticeSearch用法(使用Transport操作ES服务器),增删改查和批量操作1、Lucene 单独使用Lucene实现站内搜索需要开发的工作量较大，主要表现在：索引维护、索引性能优化、搜索性能优化等，因此不建议采用。2、Solr Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。 Solr可以独立运行，运行在Tomca

2021-12-29 11:00:16 1577

原创 Redis常用方法

一、redis启动：本地启动：redis-cli 远程启动：redis-cli -h host -p port -a password Redis 连接命令1 AUTH password验证密码是否正确2 ECHO message打印字符串3 PING查看服务是否运行4 QUIT关闭当前连接5 SELECT index切换到指定的数据库二、redis keys命令1、DE...

2021-12-17 15:59:06 2041

转载 Impala导出查询结果到文件

想用impala-shell 命令行中将查询的结果导出到本地文件，想当然的以为impala 和 hive 一样可以用 insert overwrite local directory ‘/home/test.txt’ select ……. 这样的命令导出到本地，执行了一下，发现impala 不支持这个。然后查了一下，发现impala-shell 可以像mysql 一样的方式导出查询结果到文件。在命令行里带参数执行，例如：impala-shell -q "select * from table..

2021-11-04 12:25:51 1775

转载基于Apache Hudi构建数据湖的典型应用场景介绍

1. 传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写任务完成后才能启动读任务。但并不是所有读任务都能够被调度系统约束住，在读取时仍存在该问题。...

2021-08-23 15:08:29 1245

原创概念：COW与MOR

名词解释COW：写时复制MOR：读时合并CopyOnWrite 思想写时复制（CopyOnWrite，简称COW）思想是计算机程序设计领域中的一种通用优化策略。其核心思想是，如果有多个调用者（Callers）同时访问相同的资源（如内存或者是磁盘上的数据存储），他们会共同获取相同的指针指向相同的资源，直到某个调用者修改资源内容时，系统才会真正复制一份专用副本（private copy）给该调用者，而其他调用者所见到的最初的资源仍然保持不变。这过程对其他的调用者都是透明的（transparentl

2021-08-23 14:39:16 1415

转载四种常见数据模型（维度模型、范式模型等）

一篇文章搞懂数据仓库：四种常见数据模型（维度模型、范式模型等）不吃西红柿丶 2020-12-04 14:05:00 10860 收藏 60分类专栏：数据仓库文章标签：数据模型范式模型雪花模型版权数据仓库专栏收录该内容16 篇文章127 订阅订阅专栏目录写在前面一、为什么要进行数据仓库建模？二、四种常见模型2.1 维度模型2.1.1 星型模型2.1.2 雪花模型2.1.3 星座模型2.2 范式模型2.3 Data Vault模型2.4 ..

2021-08-17 15:59:45 7156

转载 POP3/SMTP/IMAP 服务讲解

POP3、SMTP和IMAP之间的区别和联系简单地说，SMTP管‘发’，POP3/IMAP管‘收’。举个例子，你坐在电脑边用mail client写完邮件，点击‘发送’。这时你的mail client会发消息给邮件服务器上的SMTP service。这时有两种情况：1.如果邮件的收信人也是处于同一个domain，比如从http://163.com发送给163的邮箱，SMTP service只需要转给local的POP3 Service即可2.如果邮件收信人是另外的domain，比如htt..

2021-05-31 19:49:04 700

转载 Spark和Hadoop MapReduce有什么区别？

很多人认为Spark 将代替 Hadoop MapReduce，成为未来大数据处理发展的方向，MapReduce和Spark之间存在哪些区别？Spark会取代Hadoop吗？大数据技术学习为什么要既要学习Hadoop又要学习Spark？Hadoop MapReduce：一种编程模型，是面向大数据并行处理的计算模型、框架和平台，用于大规模数据集（大于1TB）的并行运算。"Map（映射）"和"Reduce（归约）"，是它们的主要思想，MapReduce采用"分而治之"的思想，简单地说，MapRedu

2021-05-07 14:57:14 1862

原创什么是数据湖

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。作者 | 汤姆斯·约翰、潘卡·米斯拉来源 | 出自《企业数据湖》一书转自 | 大数据（ID：hzdashuju）导读：数据湖概念的诞生，源自企业面临的一些挑战，如数据应该以何种方式处理和存储。最开始，企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。最开始的时候，每个应用程序会产生、存储大量数据，而这些数据并不能被其他应用程序使用，这种状...

2021-05-06 15:58:50 358

转载数据治理相关概念汇总

引言：股份制改革对我国银行业来说只是一个开始，企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产，这是数据治理的外部推动因素。此外，随着第三次工业革命的到来，银行业也需要进入定制化时代，以更低的成本，生产多样化的金融产品，从而满足不同顾客的不同需求。对数据本身而言，业务发展加快了数据膨胀的速度，也带来了数据不一致等问题，业务部门的频繁增加和剥离同样会对数据治理提出挑战。这些日益复杂的内外因决定了我国银行业对数据治理的超高标准要求，而目前对应的经验能力

2021-03-11 10:16:14 885

转载 ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

ELK平台介绍在搜索ELK资料的时候，发现这篇文章比较好，于是摘抄一小段：以下内容来自：http://baidu.blog.51cto.com/71938/1676798日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误。通常，日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这...

2021-01-14 10:03:45 160

原创 2020-12-29

HDF/NiFi优化性能的设置方法Posted onJul 07, 2017简介NiFi的默认设置可以满足一般的运行和测试需求，但是如果想要处理大容量数据流，那就远远不够了。本文将介绍与NiFi性能有关的几个设置参数，让NiFi可以高效运转。本文重点在如何优化初始配置或者对默认参数进行小幅修改，并不会深入讨论如何优化数据流设计和NiFi处理器。这些优化可以简单地可以通过编辑nifi.properties和bootstrap.conf实现，更多内容，可以去Apache官网（https:..

2021-01-11 10:54:14 203

原创 2020-11-20

Hive常用命令Hive中定义变量内置命名空间Hive内置命名空间包含了hivevar、hiveconf、system和env。在Hive中写入hivevar变量hive --define/--hivevar key=value显示变量set env:HOMEset hivevar:keyset key给变量赋值set key=valueset hivevar:key=value在sql语句中调用变量create table table_name(i in

2020-11-20 10:41:05 444

转载 linux ssh互信配置 - 服务器间免密码登陆

linux ssh互信配置 - 服务器间免密码登陆1.简介相信大家都有一个经历，服务器间登陆、scp拷贝操作时，让你输入被登陆、被拷贝服务器的密码。不知道各位是什么感受，我是很崩溃的，因为我哪记得那么多密码啊（好吧，我就是记性不好）。这就引出了服务器之间免密码登陆的需求了，官方一点，叫做ssh互信配置。 ssh互信配置的原理简单来说，就是各自服务器存放了目标主机的证书，当执行登陆时，自动完成认证，从而不需要再输入任何密码。2.配置过程 ...

2020-08-17 16:20:04 394

原创大HW技术文档字典

FusionInsight HD 产品文档GaussDB 200

2020-07-22 11:37:04 168

转载误删libc.so.6

误删libc.so.6版权yum install安装了一个软件之后，发现用什么命令都不好使了。错误提示信息：ls: error while loading shared libraries: /lib/libc.so.6: unexpected reloc type 0x25【或者自己更新lib.c.so.6库时，执行了rm /lib/libc.so.6 -f 命令】。根据提示信息，推测是安装软件之后，libc.so.6被更新，链接到了新的libc库了。此现象之前遇到过，ls、ps、mv、r

2020-07-18 17:13:53 244

转载 Hive文件存储格式（TEXTFILE 、ORC、PARQUET三者的对比）

Hive文件存储格式（TEXTFILE 、ORC、PARQUET三者的对比）综述：HIve的文件存储格式有四种：TEXTFILE、SEQUENCEFILE、ORC、PARQUET，前面两种是行式存储，后面两种是列式存储；所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式，如果指定了A方式，那么在向表中插入数据的时候，将会使用该方式向HDFS中添加相应的数据类型。如果为textfile的文件格式，直接load就OK，不需要走MapReduce；如果是其他的类型就需要走Ma.

2020-07-15 15:05:45 6822 1

HBase hbck 2.0 jar包下载

GaussDB 200 6.5.1 开发者指南 02.chm

空空如也