自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(237)
  • 资源 (4)
  • 收藏
  • 关注

原创 Grafana+Prometheus监控Flink on YARN系统搭建

1.简介Flink支持多种监控指标的汇报reporter,例如jmx、slf4j、Prometheus、InfluxDB等。Grafana+Prometheus是当前比较流行的监控可视化解决方案。如下图为Prometheus及相关组件组成的生态系统。2.安装配置Prometheus是采用拉模式的方式,从exporter拉取监控的数据。但Prometheus自动发现Flink on YARN作业的提交、结束以及自动拉取数据是比较困难的。PushGateway作为一个中转组件,通过配置Flink on

2020-05-22 23:23:32 980

原创 arm服务器上部署kibana

注意:选平台时切勿选错,linux aarch64,并选择elasticsearch对应的历史版本。# 后台启动(2>&1将标准输出流和错误输出流都输出到kibana.log)没访问到,取消安全验证就可让kibana找到es.es在启动时设置了密码开启了安全验证,导致。#授权 我们直接把整个文件夹的权限授予。修改配置,添加账号和密码信息.# 查看端口是否开放。

2024-02-28 15:34:51 391

原创 模型设计、数据架构、数据治理一体化大数据平台

数据中间层最为重要的目标就是把同一实体不同来源的数据打通起来,这是因为当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标识符可能不同。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。值得注意的是,数据集市层需要能够快速试错。(3)标签服务,大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据通过打标签转换成KV的数据服务,用于前端应用查询。

2024-02-26 14:20:29 916

原创 ARM服务器部署Kafka集群

配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。三台服务器节点搭建几乎一致,但是需要重点关注【server.properties】的配置细节。需要这方面信息的可以查看我之前写的文档;

2024-02-23 16:19:16 966

原创 ARM服务器上部署zookeeper集群

如果你的压缩包是3.5以上的版本,随着版本的更新,3.5版本以后的压缩包分成了两种我们需要使用文件名带有bin 的那个压缩包,例如:apache-zookeeper-3.5.10-bin.tar.gz 这样解压后才会有lib目录下的那些jar包.(1)标准版本(Apache ZooKeeper x.y.z ),下载的文件名为:apache-zookeeper-x.y.z-bin.tar.gz。下载了错误的版本文件,Zookeeper 从3.5.10后开始拆分为两个版本,而且他们的结构还很类似。

2024-02-22 16:52:06 663

原创 开源大数据管理平台

包括 Hadoop、Hive、HBase、Pig、Spark 等等。同时,Apache Bigtop 还提供了一些示例和文档,帮助用户更好地理解和使用这些组件。Apache Bigtop 是一个开源项目,目的是提供一套完整的开源软件栈,用于构建、测试和部署大数据平台。目前两大开源大数据平台CDH和HDP已闭源,国内也涌现出了一些开源的大数据平台,比如:apache bigtop 和。新一代云原生大数据管家,致力于帮助用户快速构建起稳定、高效、可弹性伸缩的大数据云原生平台。一、apache bigtop。

2024-02-21 21:52:11 529

原创 数据分类分级

分级则是根据数据的敏感度和数据遭到篡,破坏,泄露,非法使用等对国家和受害者的影响程度对各个类别数据再进行分级,然后根据分级的结果对数据进行相应的管理和保护。数据分类分级实施流程包括数据资产梳理、数据分类、数据定级、审核标识管理、数据分类分级保护。一段时间没写文章了,最近做政府数据治理方面的项目,数据治理一个重要的内容是数据安全,会涉及数据的分类分级,是数据治理的基础。数据分类分级保护:依据国家给出的关于核心数据、重要数 据、个人信息、公共数据等安全要求,对数据实施全流程分类分级管理和保护。

2024-02-09 11:57:21 714

原创 数据治理工程师 CDGA数据建模和设计

8. 确保每个实体都有最小的主键,每个属性都依赖于完整的主键属于哪种范。C 数据模型是一种文档形式,用于记录数据需求和建模过程产生的数据定义。D 数据模型通过以电子的形式获取知识来保存系统或项目的企业信息。D 代理键允许在结构间进行更高效的导航,并促进跨应用程序的集成。A 概念数据模型仅包括给定的领域和职能中基础和关键的业务实体。1. 以下选项不属于数据建模和设计治理中质量管理内容的是(3. 以下关于数据建模和设计治理管理内容描述正确的是 (9. 数据拱顶模型有三种类型的实体,以下错误的是 (

2024-01-14 22:51:42 543

原创 数据治理工程师CDGA数据架构

B 企业数据模型包括通用的和特定于应用或具体 项目的数据模型及其定义、规。B 在开发模型中获取数据模型和其他数据架构构件,然后被数据架构师标准化和。A 企业数据模型不应创建为单独的构件,应由不同角度和不同层级的细节构成。C 企业模型包醐承关系模型、概念模型、主题域模型、逻辑模型、物理模型。A 企业模型包括继承关系模型、概念模型、主题域模型、逻辑模型。D 企业模型包括继承关系模型、概念模型、逻辑模型、物理模型。B 企业模型包括概念模型、主题域模型、逻辑模型、物理模型。

2024-01-14 22:29:48 461

原创 数据治理工程师 CDGA-数据治理

B 数据治理的目的是确保数据根据数据管理制度和最佳实践正确地管理数据。13. 关于数据治理和数据管理的关系,描述不正确的是哪项?17. 在数据治理的度量指标中,关于有效性的描述错误的是?C 数据治理的驱动力是确保组织可以从其数据中获得的价值。5. 以下关于数据治理与管理职责的活动描述错误的是?7. 在数据治理输入的内容中,以下哪项是错误的?10. 关于数据治理的度量指标,下列描述有误的是?6. 关于数据治理的度量指标,下列描述有误的是?14. 关于数据治理组织的职能描述错误的是哪项?

2024-01-09 22:55:30 540

原创 数据治理工程师 CDGA 认证-数据管理及答案

知识领域语境关系图,请从下列选项中选择正确描述知识领域语境关系图的选项。A.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。B.知识领域语境关系图中包括知识领域定义、目标、输入、活动、交付成果、D.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。因素、输入、活动、交付成果、供给者、参与者、消费者、方法、工具、度量指。C. 知识领域语境关系图中包括计划、控制、开发、运营。供给者、参与者、消费者、方法、工具、度量指标。9、DAMA 语境关系图中的活动不包括哪项(

2024-01-08 23:09:28 516

原创 flume异常关闭文件修复方法

flume在从kafka采集数据后,会将数据写入到hdfs文件中。在写入过程中,由于集群负载、资源或者网络原因会导致文件没有正常关闭,即文件表现为tmp格式,这种格式的文件从hdfs往hive分区load数据时,会导致数据无法查询问题。

2023-11-14 17:15:37 740

原创 standard_init_linux.go:211: exec user process caused “exec format error“

解决办法:针对不同的硬件架构构建不同的镜像,或者构建跨架构(multi-arch)的镜像。1、硬件架构不兼容在 amd 和 arm 架构下构建的镜像很有可能不能互通。系统是 aarch64,下载的进行是amd64,所以运行时提示格式不对。这个问题主要是由不兼容引起的。

2023-11-06 09:17:10 1293

原创 elasticsearch无法访问9200端口

修改配置文件elasticsearch.yml,并最后添加如下内容:vim ./config/elasticsearch.yml。部署的版本为elasticsearch-7.13.2,排查原因是因为开启了ssl认证。

2023-11-02 11:50:11 2335

原创 部署SeaTunnel单节点Standalone 模式环境

在config目录下有一个自带的实时同步任务的配置文件v2.streaming.conf.template,该文件定义了一个作业,使用一个叫FakeSource的Source连接器生成数据,并将数据发送给Console这个Sink,Console Sink的作用是将接收到的数据打印到控制台。SeaTunnel需要自己安装同步数据需要的连接器插件,需要用户编辑config下plugin_config文件,该文件描述了需要下载和安装的连接器插件,默认所有已经支持的连接器插件都会下载和安装。

2023-10-25 09:28:25 419

原创 hive字段关键字问题处理

最近在xxl_job部署shell调度任务时,发现在编写Hql时,对一些使用关键字命名的字段无法解析,按开发规范,字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs上,数据是json格式,所以需要对关键字字段进行处理,最初是通过 `,',",‘,“ 都无法识别,最后对通过转义字符解决了,解决方法如下:具体报错如下:比如需要对local关键字进行转义,转义规则如下:\`local\`问题解决。

2023-10-23 16:03:07 921

原创 HIVE-17824,删除hdfs分区信息,清理metastore元数据

当有大量未跟踪的分区时,运行MSCK REPAIR TABLE批处理避免OOME(内存不足错误)。通过为属性hive.msck.repair.batch.size提供配置的批大小,它可以在内部的批中运行。属性的默认值是0,这意味着它将一次执行所有分区。不带REPAIR选项的MSCK命令可用于查找元数据mismatch metastore的详细信息。若手动删除 HDFS 上多个分区文件夹,且快速刷新分区,则需要在存在。对于不存在元数据的分区,会更新到Hive metastore。

2023-10-23 10:34:31 797

原创 spark集成hive

spark.sql.warehouse.dir将默认值/apps/spark/warehouse 改为hive数据存储hdfs位置。2.Hive数据层建好,在Hdfs生成相应各层目录,后面配置Spark访问Hive的目录,要保证这个目录存在。2.修改spark配置: Advanced spark2-hive-site-overrid。hive.strict.managed.tables 的 true 改为 false。3. 修改hive配置: 到hive组件修改配置。spark集成hive。

2023-10-18 15:14:48 809

原创 hive往es映射表写数据报错

需要提前将jar上传至hdfs上的jars目录。需要加载hadoop和es的jar包。

2023-10-18 11:11:58 649

原创 hadoop组成

时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大;时代,新增了yarn,主要负责资源的调度,MapReduce仅负责运算;时代,在组成上没有变化;

2023-10-15 22:52:54 891

原创 大数据发展史

2006年3月份,MapReduce和Nutch Distributed File System(NDFS)被纳入到Hadoop项目,Hadoop正式诞生;2001年底Lucence成为Apache基金会的一个子项目,当时为了解决存储海量数据困难,检索海量速度慢,可以说Google是hadoop的思想之源;1)高可靠性:hadoop底层维护多个数据副本,即使某个计算或者存储出现故障,也不会丢失数据;3) 高效性:在MapReduce下,Hadoop工作是并行的,这样能加速任务的处理速度;

2023-10-13 23:38:10 483

原创 切换挂载盘

用户 进程号 权限 命令。文件系统 容量 已用 可用 已用% 挂载点。(有些情况下通过 lsof(8) 或 fuser(1) 可以。(有些情况下通过 lsof(8) 或 fuser(1) 可以。找到有关使用该设备的进程的有用信息)找到有关使用该设备的进程的有用信息)umount: /home:目标忙。umount: /home:目标忙。umount: /home:未挂载。可以看到问题已解决。

2023-10-10 09:36:09 69

原创 大数据概念

大数据是指无法使用常规软件工具在一定时间范围内进行捕捉、管理和处理的数据集合,需要使用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产(参考百度)。存储单位:最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。种类(Variety):数据类型的多样性(网络日志、音频、视频、图片、地址位置等信息);容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;二、特征(4V1C)

2023-10-07 23:49:20 179

原创 大数据必备shell工具

'' 单引号不解析里面变量的值 "" 双引号解析里面变量的值 嵌套 :看谁在最外面 3)经常使用的场景。1) 常用的shell工具。c.与mysql的导入导出(数据同步)d.数仓层级内部(ETL开发)a.分发脚本(搭建集群)b.启停脚本(启动集群)

2023-10-07 23:18:31 52

原创 大数据必备linux高级命令

2)查看进程 查看端口号 查看磁盘使用情况 查看某个进程内存。

2023-10-07 23:16:01 24

原创 部署elasticsearch需要调整的系统参数

报错的意思是ElasticSearch拥有的内存太小,至少需要262144。查看命令sysctl -a|grep vm.max_map_count可以看到到vm.max_map_count = 65530,需要增加这个值。临时生效的方法:sysctl -w vm.max_map_count=262144。如果需要永久生效,需要在/etc/sysctl.conf文件下添加一行:vm.max_map_count=262144并重启,即可解决。如果未进行具体设置的话,会使用默认配置,如下查看。

2023-09-18 10:47:24 451

原创 spark临时文件较大问题处理

【代码】【无标题】

2023-09-15 13:27:01 345

原创 datanode无法启动问题

根据报错,需要对根目录进行授权操作。

2023-09-14 16:16:32 94

原创 ranger无法同步用户问题解决

1.首先就是定位日志,日志目录 cd /var/log/ranger/usersync。发现[cn=*多了一个[,去掉后,重启相关组件问题解决;保证下面红框中的密码正确,此密码为ldap管理员密码。重新核对密码,发现问题还未解决;

2023-08-31 16:43:47 228

原创 记录一次kafka内网向外网提供服务问题解决

发现还是无法连接,当时考虑到与之前搭建复用的部分只有zk了,然后就重新搭建了一个单节点的zk,将kafka配置改为新搭建的单节点zk后,网络居然通啦,问题解决.

2023-08-31 12:16:08 579

原创 docker-compose --version报错

直接在release中下载对应的linux发行版【docker-compose-linux-x86_64】下载完后将软件上传至 Linux的【/usr/local/bin】目录下。

2023-08-04 16:52:10 761

原创 ElasticSearch可视化管理工具之ElasticHD

4.Dejavu 也是一个 Elasticsearch 的 Web UI 工具,其 UI界面更符合当下主流的前端页面风格,因此使用起来很方便。1.Elasticsearch-Head , Elasticsearch-Head 插件在5.x版本之后已不再维护,界面比较老旧。然后,我们浏览器访问下(如果你启动的服务想要别的电脑访问,就不要使用127.0.0.1 ,要使用局域网IP或者外网的固定IP)。5.ElasticHD 不依赖ES的插件安装,更便捷;导航栏直接填写对应的ES IP和端口就可以操作Es了。

2023-08-02 13:59:23 1175

原创 开源中文医疗大模型

中文医疗大模型是指通过利用自然语言处理技术和机器学习算法,在大量的医疗文本数据中预训练出来的模型。它可以实现对医疗信息的分类、摘要、问答系统、机器翻译等功能,是医疗行业中的重要工具。在医疗领域中,大规模语言模型(Large Language Model)具有广泛的应用潜力。

2023-06-17 22:57:43 1449

原创 Apache Doris 冷热分层技术如何实现存储成本降低 70%?|新版本特性

冷热分层是将冷热数据分别存储在成本不同的存储介质上

2023-06-17 22:43:05 547

原创 集群资源管理基础架构和工作机制

然后向集群RM申请运行一个application,RM返回要提交的JobApplication资源提交路径,主要放job.split(切片用来开启控制多少mapreduce),job.xml(参数配置),wc.jar(jar包即程序代码)。空闲的NodeManager就会领取调度队列中的Task任务,领走任务之后首先会创建容器container,任何任务的执行都在容器中执行,容器中有cpu,网络资源,磁盘,内存等。ReduceTask。Reduce执行结束后,MR会向RM注销自己,释放资源。...

2022-07-15 23:41:13 281 1

原创 大数据集群写数据流程原理分析

写入数据流程,即客户端如何把数据写入hdfs集群,底层原理如下: 右侧为hdfs集群,含有NameNode和DataNode节点,左侧为客户端准备把数据传送到集群,首先创建客户端(分布式的文件系统),创建好客户端后向NameNode请求,NameNode要进行两个方面的校验,1.检查权限,即有没有权限写;2.检查目录结构是否存在; 检查完毕响应可以上传,请求上传第一个Block,请求返回DataNode,选择策略,副本存储节点选择:1.本地节点;2.其他机架节点;3.其他机架另外

2022-07-12 23:37:21 337

原创 深入理解混洗过程

map方法之后,首先进入getpartition方法,标记数据属于那个分区,并打上分区编号,因为后续的数据都是按分区处理。 不同分区数据会进入不同的reduce里面,然后进入环形缓冲区(默然100M),左侧存索引,右侧存数据,当到达80%的时候进行反向溢写,原因是留给溢写时间,不至于等待,让环形缓冲区高效运转,利用率更高。在溢写之前,对数据进行一次排序,排序的手段为快排,是对key的索引按照字典顺序,快排完后进行第一次溢写,溢写文件有两个,一个是spill.index和一个真正落地的文件s

2022-07-09 00:03:44 414

原创 Django之VScode工程搭建

1.安装python和VSCode,安装插件2.VSCode打开项目文件夹 例如:djangoweb.终端中键入命令:建立虚拟环境PS D:\study\django-web> python -m venv env3.选择Python的解释器路径为虚拟环境选择含有env(自己建立的虚拟环境文件夹)的解释器路径4.在虚拟环境中安装Django(env) PS D:\study\django-web> pip install django5.创建Django项目(env) PS D:\s

2022-06-29 09:35:18 998

原创 flink的三种时间语义

flink的三种时间语义

2022-06-07 22:41:43 210

原创 记录一次hive无法删除异常分区问题

今天在做数据导入时,发现有几个异常分区。因为异常分区影响到BI端数据报表展示。所以需要删除;当执行删除分区命令是一直报如下错误无法删除分区,然后就使用hdfs dfs -rm -rf /命令删除分区后,使用msck修复后,分区并未删掉。最后查看分区字段类型时,发现dt是date类型;ALTER TABLE smart.smart_company_dws PARTITION COLUMN (dt string);改成string类型后操作成功;...

2022-05-17 16:51:30 812

griffin安装文档

griffin安装文档及问题解决

2021-08-10

数据分析专题.docx

数据分析师日常工作 专题分析步骤 流量分析 路径分析 竞品分析 sql常见问题 临时需求处理

2020-09-17

Hadoop平台常见故障汇总以及操作系统性能调优.docx

该文件为hadoop集群平台常见故障进行总结及处理问题相关的技巧,还有一些操作系统性能方面的调优策略。

2020-08-10

hadoop高可用集群搭建手册.docx

hadoop2.6集群搭建手册,搭建的详细步骤,各种参数配置,配置文件配置,并对搭建的平台进行验证。

2020-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除