自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(319)
  • 资源 (4)
  • 收藏
  • 关注

原创 【无标题】

FATAL] Non-resolvable parent POM for org.apache.ranger:ranger:2.2.0: : (https://repository.apache.org/content/repositories/snapshots): repository.apache.org: 未知的名称或服务 and 'parent.relativePath' points at wrong local POM @ line 19, column 13。

2023-08-03 10:40:39 183

原创 hadoop安全保护机制(kerberos + ldap)

LDAP是轻量目录访问协议(Lightweight Directory Access Protocol)的缩写,是一种基于X.500目录访问协议的集中账号管理架构的实现协议标准Ldap运行在TCP/IP或其他面向连接的传输服务之上。

2023-07-17 15:17:45 1212

原创 apache ranger

ranger 是一个用于启用、监控和管理跨hadoop平台的全面的数据安全框架。ranger的愿景是在hadoop系统中提供全面的安全管理。随着yarn的出现,hadoop 平台能够支持真正的数据糊架构。企业能够在多租户环境中运行多个任务负载。hadoop 数据安全需要进化去支持多个数据访问的用户场景,同时提供一个数据访问中心管理策略和监控用户访问的集群。

2023-07-14 15:20:13 440

原创 knox 配置

knox配置包含一下几步:1、相关的集群配置必须在Hadoop集群中完成,以允许Knox与各种服务通信2、网关服务器配置——这是服务器本身的可配置元素,适用于所有拓扑或托管Hadoop集群的行为3、拓扑描述符是用来控制以各种方式访问Hadoop集群的描述符。

2023-07-14 14:59:29 381

原创 Apache Knox Gateway

Knox是一个提供认证和访问集群中hadoop服务的单个端点服务。目标是为用户和操作者简化hadoop安全。knox运行为一个服务或者集群服务,并提供集中访问一个或者多个hadoop集群。通常网关的目标如下:1、为hadoop rest api 提供外层的安全使hadoop 安全更容易设置和使用。在外层提供认证和token 验证确保认证能够和企业、云身份认证系统集成在外层提供服务层级的鉴权2、暴露单个url用来聚合hadoop集群的rest api限制需要访问hadoop集群的网络端点。

2023-07-14 09:19:07 2387

原创 Knox 概念

knox gateway 是一个作为 rest api和hadoop生态 ui的application gateway。knox 提供了一个为rest 和 hadoop 集群http 服务的单点访问knox 提供了三组面向用户的服务。

2023-07-13 10:53:57 478

原创 Prometheus

prometheus是一个监控、告警的开源系统。Prometheus收集并存储时序的指标数据。指标数据存储伴随一个timestamp和可选择key-values 队列标签。

2023-05-11 09:43:15 872 1

原创 XXL-JOB

XXL-JOB是一个分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。

2023-04-20 16:23:50 460

原创 ElasticJob

定位为轻量级无中心化解决方案,使用 jar 的形式提供分布式任务的协调服务。

2023-04-19 15:37:03 520

原创 调度系统: Quartz

Quartz 是一个功能丰富的开源作业调度库,几乎可以集成到任何 Java 应用程序中——从最小的独立应用程序到最大的电子商务系统。Quartz 可用于创建简单或复杂的调度来执行数十个、数百个甚至数万个作业;其任务被定义为标准 Java 组件的作业,这些组件几乎可以执行您编写的任何程序。Quartz Scheduler 包括许多企业级特性,例如对JTA 事务和集群的支持。

2023-04-19 09:59:47 754

原创 大数据相关开源项目及组件汇总

花了一点时间,整理了大数据相关开源项目、组件和官网地址。按照实际应用功能的不同,分为以下10个部分,并在目录图中进行归纳,后续章节的内容则是分别介绍各组件的背景及应用场景。类别与开源项目| 调度与管理服务 | Azkaban 、YARN 、Mesos、Ambari 、ZooKeeper 、Thrift 、Chukwa || 文件系统 | Lustre 、HDFS 、GlusterFS 、Alluxio 、Ceph、PVFS 、QFS |

2023-04-18 15:02:28 1585

原创 zookeepr 简介

zookeeper是为分布式应用提供协调服务的高性能组件。zookeeper通过简单的接口暴露了一些公共服务(), 因此你不需要从头开始写这些服务。你可以现成得使用zookeeper来实现共识、组管理、领导者选举和存在协议。你可以根据自己的特殊需求来构建它。zookeepr是分布式、开源协调服务为分布式应用。zookeeper暴露了一些简单的原语。分布式应用通过原语实现更高层级的服务(zookeeper设计为易于编程、并仿照熟悉的文件系统目录树结构设计的数据模型。

2023-04-18 13:54:24 484

原创 ansible Semaphore

ansible Semaphore 是一个用于运行 Ansible 剧本的响应式 Web UI。是用纯go编写的,支持mysql、pg、boltdb数据库(嵌入式键/值数据库).源代码: https:。。码头工人: https:。快照:https:。

2023-04-11 10:36:48 803

原创 sql server 调研

sql server概念:database: databse由一些存储一组特定结构化数据的表集合组成。一个sql server可以有一个或者多个databse。schema: database中多个数据库对象关系组。table: 数据表操作:创建databse: 需要对master数据库具有 CREATE DATABASE 权限,或者需要 CREATE ANY DATABASE 或 ALTER ANY DATABASE 权限。USE...

2023-04-11 09:47:57 54

原创 ansible 基本使用

ansible介绍

2023-04-11 09:46:06 746

原创 SparkContext

Spark功能的主要入口。SparkContext表示与Spark集群的连接,可以用来在该集群上创建rdd、accumulator和broadcast变量。

2023-04-11 09:45:01 303

原创 ambari源码分析 -----ambari-server启动流程

1、ambari的启动脚本为:service ambari-server start 或者 ambari-server start。分别对应脚本文件/etc/init.d/ambari-server 和 /usr/sbin/ambari-server,其中/usr/sbin/ambari-server文件是一个快捷方式,指向/etc/init.d/ambari-server。脚本文件/etc/init.d/ambari-server。

2023-04-11 09:44:40 845

原创 datahub postgress 数据库导入

datahub

2023-03-08 16:58:10 737 1

原创 mac 安装yum

brew安装yum

2023-03-07 15:20:22 2668

原创 datahub部署

datahub部署

2023-03-01 14:30:12 610

原创 atlas本地调试

atlas元数据管理本地调试环境搭建

2023-02-21 11:01:48 146

原创 solr原理简介

为什么使用solr:海量数据下,对mysql和oracle进行模糊查询或者条件查询效率很低。solr能够提升搜索效率。常见搜索方案lucene 全文检索工具库solr 是lucene基础上构建的用于搜索和分析的开源方案。可以提供扩展索引、搜索功能、高亮显示和文字解析功能elasticsearch:正向索引和反向索引:正向索引:从文档内部到词组的过程。每次所有的时候需要搜索所有文档,每个文档比较搜索条件和词组。方向索引:建立词组和文档的映射关系。通过找到词组就能找到文档

2022-04-03 16:47:55 1718

转载 maven 生命周期

本博文不会长篇大论的讨论生命周期的概念,而是从各种plugin的实际功能和应用出发,来讨论maven的实际应用,说得通透一点,生命周期(lifecycle)可以理解成由各种plugin按照一定的顺序执行来完成java项目清理、编译、打包、测试、布署等整个项目的流程的一个过程。  生命周期(lifecycle)由各个阶段组成,每个阶段由maven的插件plugin来执行完成。生命周期(lifecycle)主要包括clean、resources、complie、install、package、testReso

2021-05-19 17:23:00 465

原创 Rocket-api 调研

最近在做数据中台资产管理系统,主要核心功能是数据资产发布成api或者文档,客户通过api直接获取发布的数据资产。需要一下一下几点功能:1 界面sql编辑数据产品2. 自动发布数据产品到api调研后一段时间主要技术有Rocket-api和Dataway(hasor)https://www.hasor.net/doc/display/dataway简介:"Rocket-API" 基于spring boot 的API敏捷开发框架,通过写SQL或者 mongodb原始执行脚本代替CRU...

2021-04-16 17:15:23 1922 1

原创 frp

frp介绍frp 是一个可用于内网穿透的高性能的反向代理应用,支持 tcp, udp 协议,为 http 和 https 应用协议提供了额外的能力,且尝试性支持了点对点穿透。服务端搭建frp程序地址:https://github.com/fatedier/frp/releases服务端配置1、我在华为云服务器上linux18.04上搭建,配置参数如下mkdir frpToolscd frpToolswgethttps://github.com/fatedier/f..

2021-03-12 13:48:12 523 1

原创 OpenCL编程

https://blog.csdn.net/huayunhualuo/article/details/1025757892008年,苹果公司向Khronos Group提交了一份关于跨平台计算框架的草案,该草案由苹果公司开发,并与AMD、IBM、Intel和NVIDIA公司合作逐步晚上。这个跨平台计算框架就是OpenCL。2008年12月8日,OpenCL1.0技术规范发布。2010年6月14日,OpenCL1.1发布,2011年11月19日,OpenCL1.2发布,2013年11月19日,OpenCL

2021-01-26 14:19:52 883

原创 CUDA编程

CUDA(Compute Unified Device Architecture)是显卡厂商Nvidia于2007年推出的业界第一款异构并行编程框架。在Nvidia的大力支持下,CUDA拥有良好的开发环境,丰富的函数库,优秀的性能。但是CUDA只能被用于在Nvidia的显卡上进行异构编程,有先天的局限性。只有安装这个框架才能够进行复杂的并行计算。主流的深度学习框架也都是基于CUDA进行GPU并行加速的,几乎无一例外。还有一个叫做cudnn,是针对深度卷积神经网络的加速库。CUDA软件构架:CUD

2021-01-25 18:24:02 1141

原创 GPU编程

最近需要使用gpu进行并行计算, 自身技术栈只会Java,之前没有这方便的经验,只能从0开始调研和研究CPU:中央处理器(CPU,Central Processing Unit)是一块超大规模的集成电路。CPU的结构主要包括运算器(ALU, Arithmetic and Logic Unit)、控制单元(CU, Control Unit)、寄存器(Register)、高速缓存器(Cache)和它们之间通讯的数据、控制及状态的总线。简单来说就是:计算单元、控制单元和存储单元。所以一条指令在

2021-01-25 15:52:23 2081

原创 MinIO 对象存储搭建

目录简介 安装 二进制安装 创建 bucket 重置密码 设置后台启动 Docker 安装 MinIO 安装 Docker 安装 MinIO Java API 访问 MinIO1|0简介MinIO 是什么?维基百科的解释如下:MinIO是 Apache License v2 发布的,与 Amazon S3 兼容的云存储服务器。作为对象存储,MinIO 可以存储非结构化数据,例如照片,视频,日志文件,备份和容器映像。一个对象的最大大小为 5TB。..

2020-12-20 17:12:21 1054

原创 Centos7开放及查看端口

1、开放端口firewall-cmd --zone=public --add-port=5672/tcp --permanent#开放5672端口firewall-cmd --zone=public --remove-port=5672/tcp --permanent#关闭5672端口firewall-cmd --reload #配置立即生效2、查看防火墙所有开放的端口firewall-cmd --zone=public --list-ports3.、关...

2020-12-17 16:42:29 130

原创 常见的内存缓存框架

前言上一篇文章实现了一个简单的内存缓存工具类,相对来说还是比较简单的但是常用的内存缓存框架核心功能会不会也是这么实现的呢本次将介绍常用的内存缓存框架,主要围绕以下两点常见开源的内存缓存框架介绍及使用 常见开源的内存缓存框架对比常用的内存缓存框架Guava Cache Ehcache CaffeineGuava CacheGoogle Guava Cache是一种非常优秀的本地缓存解决方案,提供了基于容量、时间、引用的缓存回收方式内部实现采用LRU算法,基于引用回收很好的

2020-12-03 16:34:08 1553

原创 Elasticsearch mapping

mapping是定义文档及其包含的字段的存储和索引方式的过程。例如,使用mapping定义:哪些字符串字段应视为全文字段。 哪些字段包含数字,日期或地理位置。 日期值的格式。 自定义规则,用于控制动态添加字段的映射。mapping定义具有:Metadata fields元数据字段用于自定义如何处理文档的关联元数据。元数据字段的例子包括文档_index,_id和_source领域。Fields映射包含properties与文档有关的字段列表。每个字段都有其自己的数据...

2020-11-19 10:17:01 227

原创 Elasticsearch ILM

Elasticsearch ILM:您可以配置索引生命周期管理(ILM)策略,以根据您的性能,弹性和保留要求自动管理索引。例如,您可以使用ILM执行以下操作:当索引达到一定大小或文档数量时,启动新索引 每天,每周或每月创建一个新索引并存档先前的索引 删除陈旧索引以执行数据保留标准您可以通过Kibana Management或ILM API创建和管理索引生命周期策略index lifecycle:ILM定义了四个生命阶段:hot:索引正在被积极地更新和查询。warm:索引不..

2020-11-18 19:28:32 967 1

原创 Elasticsearch index modules

index modules索引模块是按索引创建的模块,控制index相关的所有方面index settings:index级别的设置可以通过index前缀设置,设置大概分类两种:1. static:静态配置只能在创建index或者一个关闭的index配置2.dynamic: 动态配置可以通过update index api重置Static index settings:下面列举一些不和具体index绑定的static index setting:index.number_o.

2020-11-18 17:17:30 681

原创 Elasticsearch架构解读

Elasticsearch架构:1.gateway是es用来存储index的文件系统,文件系统支持多种类型:local filesystem、shared filesystem 共享文件系统、hdfs、s32. gateway的上一层是lucene框架,es底层api是由lucene提供的,每一个es节点上都有一个lucene引擎支持3. lucene上是es模块,包括index model、search model、mapping model等。river相当于第三方插件,用来导入第三方.

2020-11-18 15:55:55 387 1

原创 flink client提交

cli.parseParameters(args));// 解析参数+提交 ==> 然后进到parseParameters方法,执行到switch case ACTION_RUN 1 ==> run(params); ==> runProgram ==> 2 ==> if (isNewMode && clusterId == null && runOptions.getDetachedMode()) {//yarn per job -d模式 ..

2020-10-30 17:21:32 334

原创 大数据运营报告

数据运营报告需要对大数据集群的文件信息出报告,需要统计出文件总数,小文件总数、可合并文件总数、3个月未访问文件总数、6个月未访问文件总数、一年未访问文件总数,小文件趋势。 一开始的方案是写程序每天晚上去访问hdfs的namenode获取filestatus对象,然后对对象属性进行分析存储到es。一个集群的文件总数8kw左右,一天一份数据,需要保存2个月,大概就是48亿条数据,对于es来说压力已经很大。 最近集团要求接管所有集群,大概是20多个,一估算差不多100亿...

2020-10-30 11:37:57 338

原创 Apache Flink源码分析---flink Environment介绍

在上一节flink快速入门中我们了解到,flink程序开发主要;流程分为五步(初始化一个环境Environment,添加datatsource,添加转换transformation, 调用execute执行)。本节我们就看看flinkEnvironment。我们知道flink分为批计算和流计算。因此flinkEnvironment也分StreamExecutionEnvironment和ExecutionEnvironment。其中StreamExecutionEnvironment用于流...

2020-10-29 14:01:07 347

原创 HBase多租户-Namespace Quota管理

在多租户的HBase环境中,通常给一个租户分配一个namespace,因此namespace的容量管理是多租户管理必不可少的一部分.目前namespace支持三种容量的管理,table的最大数目,region的最大数目和namespace占用的文件系统空间.本文给出了通过hbase shell和JAVA API两种方式设置namespace quota的方法.Number-of-Tables Quotas和Number-of-Regions Quotas设置namespace quota之前,必.

2020-10-21 09:46:27 585

原创 Apache Flink源码分析---flink window介绍

Apache Flink源码分析---flink window介绍

2020-10-19 11:38:47 175

janusgraph部署开发.docx

JanusGraph over HBase支持全局顶点和边缘迭代。但是,请注意,所有这些顶点和/或边都将加载到内存中,这可能会导致OutOfMemoryException。使用JanusGraph和TinkerPop的Hadoop-Gremlin有效地遍历大型图中的所有顶点或边。

2020-05-15

graylog日志检索系统调研.docx

graylog 调研 --安装 源代码分析 1. Graylog 作为一个开源项目,类没有一行注释,真的是很难想象,

2020-04-26

【恩墨学院】CDH集群的企业部署.pdf

cdh安装及部署文档:操作系统修改,cm安装,cdh安装.///

2019-10-16

Oozie的安装与配置.docx

oozie安装文件:Oozie的安装与配置及自带example演示。1111

2019-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除