自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(80)
  • 资源 (1)
  • 收藏
  • 关注

原创 xxl-job 原理

如果执行器网络故障,调度中心就不知道执行器的情况,如果把任务路由给一个不可用的执行器,就会导致任务失败。第一步就是查日志表里结果不是200的任务,为了防止集群下同时处理一个失败任务,用了数据库的乐观锁(版本号),如果失败重试次数>0,代表重试,就要重新触发。这里的是数据分片,需要用到分片参数 sharding param,调度器负责把这个分片参数分发给每个执行器(执行器个数和参数个数相等),怎么根据分片参数对数据分片是Job自己的事情。如果一个执行器挂了,就找另一个执行器执行,直到找到一个正常的执行器。

2023-11-09 15:37:46 177

原创 ES delete_by_query条件删除的几种方式

使用delete_by_query,对ES索引数据按条件删除

2023-09-06 20:45:14 4297

原创 kafka常用命名

【代码】kafka常用命名。

2023-08-22 13:47:36 1732

原创 NIFI学习指南

首页 | Apache NIFI中文文档。Apache NIFI中文文档。NIFI中文学习文档。

2023-05-10 16:20:15 272

原创 Kafka如何彻底删除topic及数据

server.properties文件log.dirs配置(CDH中查找配置log.dirs),默认为 /app/kafka/data 相关topic的数据目录,如果kafka 有多个 broker,需要删除每个broker 的数据盘的topic的所有分区数据。原文链接:https://blog.csdn.net/chenxi5404/article/details/118512339。/opt/cloudera/parcels/CDH/lib/zookeeper/bin/zkCli.sh(路径)

2023-04-15 20:54:45 5546

原创 Redis使用

Redis使用

2023-04-06 22:47:51 249

原创 HDFS常用命令

HDFS常用命令

2022-09-21 15:05:22 438

转载 Hbase之rowkey设计原则和方法

Hbase之rowkey设计原则和方法

2022-08-31 09:06:54 1050

原创 Redis常用命令

【代码】Redis常用命令。redis-cli -h t1m1 -p 6379 -a sky.123hget SKY_RES_SCHEMA 10000redis-cli -h 71.211.33.85 -p 22404 -chget SKY_RES_SCHEMA 10000

2022-04-15 14:27:44 489

转载 mysql查看binlog日志

业内目前推荐使用的是row模式,准确性高,虽然说文件大,但是现在有SSD和万兆光纤网络,这些磁盘IO和网络IO都是可以接受的。那么,大家一定想问,为什么不推荐使用mixed模式,理由如下假设master有两条记录,而slave只有一条记录。master的数据为+----+------------------------------------------------------+| id | n |+----+-------------------------------...

2022-03-04 16:41:59 8271

原创 为什么Spark运行比MapReduce快

Spark比MapReduce快主要有三点。IOSpark和MapReduce的计算都发生在内存中,但是MapReduce通常将计算的中间结果写入磁盘,从而导致了频繁的磁盘IO。Spark则因为RDD弹性分布式数据集和DAG有向无环图不需要将计算的中间结果写入磁盘,大大减少了磁盘IO。排序MapReduce在Shuffle时需要花费大量时间进行排序。Spark在Shuffle时则只有部分场景才需要排序。进程、线程MapReduce采用了多进程模型,多进程模型好处是可以细粒度控制每个任务占用

2021-12-29 11:17:18 2637

转载 ElasticeSearch用法(使用Transport操作ES服务器),增删改查和批量操作

ElasticeSearch用法(使用Transport操作ES服务器),增删改查和批量操作1、Lucene​ 单独使用Lucene实现站内搜索需要开发的工作量较大,主要表现在:索引维护、索引性能优化、搜索性能优化等,因此不建议采用。2、Solr​ Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。​ Solr可以独立运行,运行在Tomca

2021-12-29 11:00:16 1577

原创 Redis常用方法

一、redis启动: 本地启动:redis-cli 远程启动:redis-cli -h host -p port -a password Redis 连接命令1 AUTH password验证密码是否正确2 ECHO message打印字符串3 PING查看服务是否运行4 QUIT关闭当前连接5 SELECT index切换到指定的数据库 二、redis keys命令1、DE...

2021-12-17 15:59:06 2041

转载 Impala导出查询结果到文件

想用impala-shell 命令行中将查询的结果导出到本地文件,想当然的以为impala 和 hive 一样可以用 insert overwrite local directory ‘/home/test.txt’ select ……. 这样的命令导出到本地,执行了一下,发现impala 不支持这个。然后查了一下,发现impala-shell 可以像mysql 一样的方式导出查询结果到文件。在命令行里带参数执行,例如:impala-shell -q "select * from table..

2021-11-04 12:25:51 1775

转载 基于Apache Hudi构建数据湖的典型应用场景介绍

1. 传统数据湖存在的问题与挑战传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题:问题一:不支持事务由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误。为了规避该问题,通常控制读写任务顺序调用,在保证写任务完成后才能启动读任务。但并不是所有读任务都能够被调度系统约束住,在读取时仍存在该问题。...

2021-08-23 15:08:29 1245

原创 概念:COW与MOR

名词解释COW:写时复制MOR:读时合并CopyOnWrite 思想写时复制(CopyOnWrite,简称COW)思想是计算机程序设计领域中的一种通用优化策略。其核心思想是,如果有多个调用者(Callers)同时访问相同的资源(如内存或者是磁盘上的数据存储),他们会共同获取相同的指针指向相同的资源,直到某个调用者修改资源内容时,系统才会真正复制一份专用副本(private copy)给该调用者,而其他调用者所见到的最初的资源仍然保持不变。这过程对其他的调用者都是透明的(transparentl

2021-08-23 14:39:16 1415

转载 四种常见数据模型(维度模型、范式模型等)

一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)不吃西红柿丶 2020-12-04 14:05:00 10860 收藏 60分类专栏: 数据仓库 文章标签: 数据模型 范式模型 雪花模型版权数据仓库专栏收录该内容16 篇文章127 订阅订阅专栏目录写在前面一、为什么要进行数据仓库建模?二、四种常见模型2.1 维度模型2.1.1 星型模型2.1.2 雪花模型2.1.3 星座模型2.2 范式模型2.3 Data Vault模型2.4 ..

2021-08-17 15:59:45 7156

转载 POP3/SMTP/IMAP 服务讲解

POP3、SMTP和IMAP之间的区别和联系简单地说,SMTP管‘发’,POP3/IMAP管‘收’。举个例子,你坐在电脑边用mail client写完邮件,点击‘发送’。这时你的mail client会发消息给邮件服务器上的SMTP service。这时有两种情况:1.如果邮件的收信人也是处于同一个domain,比如从http://163.com发送给163的邮箱,SMTP service只需要转给local的POP3 Service即可2.如果邮件收信人是另外的domain,比如htt..

2021-05-31 19:49:04 700

转载 Spark和Hadoop MapReduce有什么区别? 

很多人认为Spark 将代替 Hadoop MapReduce,成为未来大数据处理发展的方向,MapReduce和Spark之间存在哪些区别?Spark会取代Hadoop吗?大数据技术学习为什么要既要学习Hadoop又要学习Spark?Hadoop MapReduce:一种编程模型,是面向大数据并行处理的计算模型、框架和平台,用于大规模数据集(大于1TB)的并行运算。"Map(映射)"和"Reduce(归约)",是它们的主要思想,MapReduce采用"分而治之"的思想,简单地说,MapRedu

2021-05-07 14:57:14 1862

原创 什么是数据湖

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。作者 | 汤姆斯·约翰、潘卡·米斯拉来源 | 出自《企业数据湖》一书转自 | 大数据(ID:hzdashuju)导读:数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。最开始的时候,每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状...

2021-05-06 15:58:50 358

转载 数据治理相关概念汇总

引言:股份制改革对我国银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同顾客的不同需求。对数据本身而言,业务发展加快了数据膨胀的速度,也带来了数据不一致等问题,业务部门的频繁增加和剥离同样会对数据治理提出挑战。这些日益复杂的内外因决定了我国银行业对数据治理的超高标准要求,而目前对应的经验能力

2021-03-11 10:16:14 885

转载 ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

ELK平台介绍在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段:以下内容来自:http://baidu.blog.51cto.com/71938/1676798日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。通常,日志被分散的储存不同的设备上。如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志。这...

2021-01-14 10:03:45 160

原创 2020-12-29

HDF/NiFi优化性能的设置方法Posted onJul 07, 2017简介NiFi的默认设置可以满足一般的运行和测试需求,但是如果想要处理大容量数据流,那就远远不够了。本文将介绍与NiFi性能有关的几个设置参数,让NiFi可以高效运转。本文重点在如何优化初始配置或者对默认参数进行小幅修改,并不会深入讨论如何优化数据流设计和NiFi处理器。这些优化可以简单地可以通过编辑nifi.properties和bootstrap.conf实现,更多内容,可以去Apache官网(https:..

2021-01-11 10:54:14 203

原创 2020-11-20

Hive常用命令Hive中定义变量内置命名空间Hive内置命名空间包含了hivevar、hiveconf、system和env。在Hive中写入hivevar变量hive --define/--hivevar key=value显示变量set env:HOMEset hivevar:keyset key给变量赋值set key=valueset hivevar:key=value在sql语句中调用变量create table table_name(i in

2020-11-20 10:41:05 444

转载 linux ssh互信配置 - 服务器间免密码登陆

linux ssh互信配置 - 服务器间免密码登陆1.简介 相信大家都有一个经历,服务器间登陆、scp拷贝操作时,让你输入被登陆、被拷贝服务器的密码。不知道各位是什么感受,我是很崩溃的,因为我哪记得那么多密码啊(好吧,我就是记性不好)。这就引出了服务器之间免密码登陆的需求了,官方一点,叫做ssh互信配置。 ssh互信配置的原理简单来说,就是各自服务器存放了目标主机的证书,当执行登陆时,自动完成认证,从而不需要再输入任何密码。2.配置过程 ...

2020-08-17 16:20:04 394

原创 大HW技术文档字典

FusionInsight HD 产品文档GaussDB 200

2020-07-22 11:37:04 168

转载 误删libc.so.6

误删libc.so.6版权yum install安装了一个软件之后,发现用什么命令都不好使了。错误提示信息:ls: error while loading shared libraries: /lib/libc.so.6: unexpected reloc type 0x25【或者自己更新lib.c.so.6库时,执行了rm /lib/libc.so.6 -f 命令】。根据提示信息,推测是安装软件之后,libc.so.6被更新,链接到了新的libc库了。此现象之前遇到过,ls、ps、mv、r

2020-07-18 17:13:53 244

转载 Hive文件存储格式(TEXTFILE 、ORC、PARQUET三者的对比)

Hive文件存储格式(TEXTFILE 、ORC、PARQUET三者的对比)综述:HIve的文件存储格式有四种:TEXTFILE、SEQUENCEFILE、ORC、PARQUET,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了A方式,那么在向表中插入数据的时候,将会使用该方式向HDFS中添加相应的数据类型。如果为textfile的文件格式,直接load就OK,不需要走MapReduce;如果是其他的类型就需要走Ma.

2020-07-15 15:05:45 6822 1

转载 元数据、数据元、资源目录

元数据、数据元、资源目录1元数据(Metadata)1.1元数据概念1、主要是描述数据属性(property)的信息;2、描述数据的数据;3、关于数据的结构化数据;4、描述数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等信息,是数据和数据用户之间的桥梁。举例:学生信息表包括:姓名、性别、学号等。姓名、性别、学号都是数据元,但是这些数据元有自己的元数据,即描述数据,分别是长度、类型、值域等。对于学生信息表而言,姓名、性别、学号是描述学生信息的数据

2020-05-18 16:56:59 5416

转载 ES 常用查询命令汇总

ES 常用查询命令汇总ES 常用查询命令汇总一、_cat操作_cat系列提供了一系列查询elasticsearch集群状态的接口。你可以通过执行curl -XGET localhost:9200/_cat获取所有_cat系列的操作/_cat/allocation/_cat/shards/_cat/shards/{index}/_cat/master/_cat/no...

2020-05-07 12:28:37 12949

转载 何为时间戳?时间戳的由来

何为时间戳?时间戳的由来在网上收集到的,存好先。时间戳就是从1970年1月1日0时0分0秒到当前时间点的所有秒数。1970.1.1 0:0:0 这个时间就是IT中所谓的“时间纪元”,相信大家在很多文章中都见过它。比如oracle的时间显示,unix和linux系统的时间运算等,那为什么选择1970,而不选择1900呢。接下来让我们阐述它的由来。1.当32位计算机刚刚开始兴起的时...

2020-04-18 11:10:59 5982 2

转载 linux常用命令的分类整理

linux常用命令的分类整理原创gc_root 发布于2016-04-20 20:54:36 阅读数 455 收藏展开命令格式:命令 -选项 参数基本命令:执行命令时必须写出路径:默认路径(echo $PATH)ls –l 目录(详细信息)ls -1(一行一个)ls –a(显示所有文件)ls –s (显示文件大小 ls –h(大小加上选项)) ls –d(目录的信息)...

2020-01-06 11:22:44 206

转载 linux指令大全(归类整理)

linux指令大全(归类整理)一.文件目录指令1 pwd指令pwd 显示当前所在的目录12 ls指令ls [选项] [目录或文件] 查看文件信息ls -a 查看所有文件和目录,包括隐藏的ls -l 以列表的方式显示ll 以列表的方式显示1234...

2020-01-06 11:22:14 117

转载 kafka consumer 配置详解

1、Consumer Group 与 topic 订阅每个Consumer 进程都会划归到一个逻辑的Consumer Group中,逻辑的订阅者是Consumer Group。所以一条message可以被多个订阅message 所在的topic的每一个Consumer Group,也就好像是这条message被广播到每个Consumer Group一样。而每个Consumer Group中,类...

2019-11-27 18:03:34 904

转载 Phoenix基本命令及语法汇总

基本命令:首先sqlline.py lyy1,lyy2,lyy3,lyy4:2181登录到Phoenix的shell中,可以使用正常的SQL语句进行操作。!table查看表信息!describe tablename可以查看表字段信息!history可以查看执行的历史SQL!dbinfo!index tb;查看tb的索引help查看其他操作导入数据: 在phoenix 目录下执行...

2019-11-26 00:20:31 2318

转载 kafka配置项host.name advertised.host.name

遇到的问题:在本机或者其他机器telnet IP 9092,通,使用域名也通,telnet 127.0.0.1 9092不通host.name:按配置文件说明,是Kafka绑定的interface。其实这个说明有点误导,下面会见到。advertised.host.name:是注册到zookeeper,client要访问的broker地址。(可能producer也是拿这个值,...

2019-11-18 16:12:29 6947

原创 Huawei Libra 使用Job调用存储过程/函数

--查询libra jobselect * from user_jobs;--删除jobcall dbms_job.remove(9998) //9988为job编号--调用存储过程、函数方法(1)带参数函数调用SELECT "public"."pro_get_unique_data"('username','stg')(2)不带参数函数调用,随机生成任务id ...

2019-11-12 21:38:35 226

转载 十项 Linux 常识

十项 Linux 常识1、GNU和GPLGNU计划(又称革奴计划),是由Richard Stallman(理查德·斯托曼)在1983年9月27日公开发起的自由软件集体协作计划。它的目标是创建一套完全自由的操作系统。GNU也称为自由软件工程项目。GPL是GNU的通用公共许可证(GNU General Public License,GPL),即“反版权”概念,是GNU协议之一,目的是保护G...

2019-10-30 20:12:21 95

原创 NIFI集群搭建

NIFI集群搭建分类专栏:NIFI版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_19397397/article/details/80007806一、Nifi配置1)nifi基本配置1.jdk配置:nifi新版本要求jdk版本必须1.8以上...

2019-10-26 12:44:35 1421

转载 Hive记录-hive权限控制

Hive记录-hive权限控制在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数,配置参数如下:<property> <name>hive.security.authorization.enabled</name> <value>true</value> </property>...

2019-10-26 12:41:25 369

HBase hbck 2.0 jar包下载

该文件为hbase hbck2 jar;适用于hbase 2.x维护,hbase 1.x不适用; 对于HBase跨集群HD集群迁移,当HDFS文件迁移后,使用HBCK客户端,完成HBase元数据修复。 当前版本:hbase-hbck2-1.3.0.jar hbase hbck -j /opt/software/hbase-hbck2-1.3.0-SNAPSHOT.jar

2022-11-30

GaussDB 200 6.5.1 开发者指南 02.chm

GaussDB 200是华为技术有限公司兼容Postgres的自研MPP(大规模并行处理)数据库,其主要面向海量数据分析场景。 本文档是GaussDB 200数据库开发指南。 注:版权归Huawei所有

2021-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除