自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小健的博客

只有登上山峰,山才会支撑你

  • 博客(39)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 java.lang.IllegalArgumentException: java.net.UnknownHostException: xxx

windows系统下连接hdfs进行操作时,上来就出现java.lang.IllegalArgumentException: java.net.UnknownHostException: xxxjava.lang.IllegalArgumentException: java.net.UnknownHostException: liujian at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:

2023-11-23 11:50:33 3724 2

原创 解决spark运行中ERROR Shell:Failed to locate the winutils binary in the hadoop binary path的问题

17/09/03 21:27:13 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apa

2023-11-23 11:50:07 3167 3

原创 利用Python爬虫简单地爬取网页上的数据

电影评分top 250​import requestsimport pymysqlfrom bs4 import BeautifulSoupfrom lxml import etreeimport reurl="https://movie.douban.com/top250"header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

2023-11-23 11:49:16 2525

原创 Hive日志默认存储在什么位置?

Hive日志默认存储在什么位置?

2023-11-23 11:48:48 12997 2

原创 Hive中常出现的错误(不定时更新)

1.加载数据失败hive> load data local inpath '/home/user/hive.txt' into table studentl > ;FAILED: SemanticException [Error 10001]: Line 1:56 Table not found 'studentl'hive> load data local inpath '/ho

2023-11-23 11:48:08 8588 3

原创 数据治理概念篇:(一)相关术语与名词

数据治理内容众多,其中与数据治理相关名词和术语也是多不胜数。下面记录一下常见的数据治理相关名词。

2023-11-06 09:52:26 134

原创 一文读懂|信息化&数字化

以学校为例子在很久之前院校管理学生信息档案方式是人工管理的,学校会安排老师去将学生信息封装到牛皮档案袋中,按照一定的规则放到不同的档案室中,然后安排专门人员进行保管。当有需要查询某个学生档案时,可能需要几位人员去查找、也可能需要花费上几个小时、甚至几天时间翻出来查阅。随着时间的推进,加上院校的大规模扩招,学生数量越来越多。面对海量的学生信息,人工管理学生信息档案的方式越来越增本降效。于是乎,学校开始建设学生管理信息系统,专门管理学生信息,在查询学生信息时也非常方便、快捷。

2023-10-23 10:31:31 47

原创 Flink学习之旅:(四)Flink转换算子(Transformation)

在输入流上,对指定的字段做叠加求和的操作。:在输入流上,对指定的字段求最小值。:在输入流上,对指定的字段求最大值。在输入流上针对指定字段求最小值。在输入流上针对指定字段求最大值。

2023-10-19 15:27:23 576

原创 Flink学习之旅:(三)Flink源算子(数据源)

大多数情况下,前面几个数据源已经满足需求了。但是遇到特殊情况我们需要自定义的数据源。实现方式如下:1.编辑自定义源Source/***//**** 主要实现2个方法 run() 和 cancel()*/// 声明一个布尔变量,作为控制数据生成的标识位@Override// 在指定的数据集中随机选取数据));// 隔 1 秒生成一个点击事件,方便观测@Override2.编写主程序/***/

2023-10-19 15:26:49 989

原创 Flink学习之旅:(一)Flink部署安装

进入Flink官网,点击Downloads往下滑动就可以看到 Flink 的所有版本了,看自己需要什么版本点击下载即可。

2023-10-18 17:47:51 1240

原创 Flink学习之旅:(二)构建Flink demo工程并提交到集群执行

在idea中创建一个 名为 MyFlinkFirst 工程。

2023-10-18 17:47:44 706

原创 CDGA数据治理工程师考试心得

CDGA就是数据治理工程师(Certified Data Governance Associate),“DAMA中国”组织的数据治理方面的职业认证考试。

2023-10-10 14:54:19 483 7

原创 Apache Ranger:(一)安装部署

Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对生态的组件如、Yarn、等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。说白了就是管理大多数框架的授权问题。

2023-10-09 10:02:24 1156 1

原创 Apache Ranger:(二)对Hive集成简单使用

进入 Ranger 编译生成的目录下 找到 ranger-2.0.0-hive-plugin.tar.gz 进行解压。

2023-10-09 10:01:24 508

原创 批量生成ChunJun json任务脚本

最近在研究chunjun,它是一款稳定、易用、高效、批流一体的数据集成框架。一直在用chunjun做数据抽取测试,json任务重复地在写,感觉十分浪费时间,于是想写个自动生成json脚本。

2023-07-31 09:49:51 320

原创 Elasticsearch 简单搜索查询案例

【代码】Elasticsearch 简单搜索查询案例。

2023-07-24 11:18:56 496

原创 ElasticSearch Java API 操作

Elasticsearch 软件是由 Java 语言开发的,所以也可以通过 Java API 的方式对 Elasticsearch服务进行访问

2023-07-24 09:54:49 487

原创 DolphinScheduler使用问题记录

提示:“storage not startup”,顾名思义:未启用存储chunjun节点无法保存,提示”process node xxx parameter invalid“

2023-07-14 16:13:43 1118

原创 主数据管理:识别主数据

主数据特征识别法:主要评估企业全部数据中的各类主数据是否符合主数据的每个特征,如发现任何不符合主数据特征的数据,则将其剔除出主数据管理的范畴。

2023-07-11 14:22:53 508 1

原创 数据治理技术篇:(二)数据标准管理内容

数据标准体系是企业数据管理和应用的基础,有利于打通数据底层的互通性,提高数据的可用性,消除数据业务歧义。

2023-07-05 14:24:17 1867

原创 Mysql递归查询

Mysql递归查询通常使用语句"WITH RECURSIVE "语句实现实现。

2023-06-15 09:48:48 864 2

原创 HBase:(三)HBase API

HBase:(一)安装部署_只爱大锅饭的博客-CSDN博客hbase部署安装。

2023-06-05 11:20:21 490

原创 HBase:(二)基本操作

hbase 基本操作

2023-06-01 15:31:08 606

原创 HBase:(一)安装部署

hbase部署安装

2023-06-01 15:30:08 76

原创 ClickHouse:(二)数据类型

clickhouse 数据类型

2023-05-23 15:07:50 470

原创 ClickHouse:(一)安装部署

clickhouse 安装部署

2023-05-23 11:57:05 787

原创 DolphinScheduler3.1.5安装部署

DolphinScheduler

2023-05-11 15:20:55 986 2

原创 Chunjun数据同步工具初体验

chunjun (纯钧) 官方文档chunjun 有四种运行方式:local、standalone、yarn session、yarn pre-job。

2023-05-10 10:39:17 1013

原创 flink集群安装部署

flink 集群安装部署

2023-05-09 17:08:29 782

原创 Flink通过Maxwell读取mysql的binlog发送到kafka再写入mysql

JDK1.8MySQLZookeeperKakfaMaxweillIDEA查看binlog 状态,是否开启如果log_bin显示为ON,则代表已开启。如果是OFF 说明还没开启。[Linux] 编辑 /etc/my.cnf 文件,在[mysqld]后面增加重启mysql 服务再次查看binlog 状态[Windows] 编辑 mysql安装目录 下 my.ini 文件,在[mysqld]后面增加 如上 linux 一样2.2.2启动 Kakfa2.2.3创建 kafka-t

2023-04-25 17:03:20 1127

原创 Flink中常见问题(不定时更新)

Table&sql 中的关键字一样的冲突,这里我的是sql中的表名与 "user"关键字冲突引发的,修改一下就行了。在flink/lib下载添加上述依赖包,mysql数据库按照自己的版本来,记得把hive、原因自己编写的sql语句中存在表名或字段名和。

2023-04-25 16:48:40 728

原创 数据治理技术篇:(一)数据梳理

数据梳理”即对企业数据资产的梳理。

2023-03-07 21:52:22 1780

原创 Hive自定义UDF函数及使用

UDF全称:User-Defined Functions,即用户自定义函数,在Hive SQL编译成MapReduce任务时,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。

2023-01-30 17:00:51 2073 2

原创 datax-web可视化集成Ambari集群HBase出现的异常

解决方式借鉴:HBase: apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /hbase/hbaseid_菜鸟很菜的专栏-CSDN博客今天在将flink计算结果写入hbase时,报以下错误:java.util.concurrent.ExecutionException: org.apache.hadoop.hbase.shaded.org.apache.zookeeper.KeeperExcept.

2021-10-22 11:42:46 604

原创 DataX学习

DataX下载Datax 源码下载。Github主页地址:https://github.com/alibaba/DataX直接下载编译成功的包。下载地址:https://download.csdn.net/download/qq_35370485/21481518环境配置安装python环境安装python2 版本。安装python3在执行任务时,bin 目录下的 datax.py 中 print 处会报语法错误print xxxx python3 必须在print后面加(...

2021-09-26 15:54:48 227

原创 ambari安装hdp时,ambari-hdp-*.repo中baseurl为空

在ambari安装大数据组件,进行到第9步Install, Start and Test时,出错!错误代码:stderr: Traceback (most recent call last): File "/var/lib/ambari-agent/cache/stack-hooks/before-INSTALL/scripts/hook.py", line 37, in <module> BeforeInstallHook().execute() File "/..

2021-09-02 09:07:04 982

原创 Flume学习之同时输出数据到HDFS和Kafka

进入flume安装目录的conf配置文件夹:[root@qiyu01 apache-flume-1.6.0-bin]# cd /opt/modules/apache-flume-1.6.0-bin/conf创建flume配置文件并编辑:[root@qiyu01 conf]# vi flumeByHDFS_Kafka.conf文件内容:(我的是ambari+hdp集群,kafka的端口为6667)#通过sink把数据分别输出到kafka和HDFS上# Name the comp

2021-06-30 18:14:44 632 1

转载 Pycharm第三方库安装失败,下载缓慢解决方法

很多小伙伴应该跟我一样,自己在pycharm下载第三方库的时候,发现有的三方库能够成功下载安装,而有的自己反复尝试多次都无法安装,而且普遍存在下载缓慢的现象。其实这主要是因为pycharm三方库的默认下载地址:https://pypi.python.org/pypi,属于国外地址,下载不稳定。因此解决方法其实很容易,也推荐大家去修改成国内镜像。这里推荐两个我觉得好用的: 中科大:https://pypi.mirrors.ustc.edu.cn/simple/ 清华:h...

2020-09-02 17:51:27 1612

原创 Maxcompute分区表的简单操作

分区概述:不介绍了,看图就一目了然了。从图就可以看出,分区的好处是: 1.能方便对数据的管理。 2.可以优化查询。查询表时通过WHERE子句查询指定所需查询的分区。 避免全表扫描,提高处理效率,降低计算费用...

2020-08-25 10:39:38 2807

数据建模:自动生成建表语句工具

自动生成建表语句工具

2023-09-12

数据治理-国家标准代码项信息化模板

内容为100+代码项 如:个人性别代码、婚姻状况代码、健康状况代码、学位代码、学历代码、货币代码、民族代码、政治面貌代码等等

2023-07-31

flink-shaded-hadoop-3-uber-3.1.1.7.2.1.0-327-9.0.jar

flink 找不到 Hadoop 依赖 Hadoop is not in the classpath/dependencies 放入flink lib下面即可

2023-05-12

企业数据盘点调研模板.zip

在数据项目实施过程中,首先会进行企业数据盘点调研,资料中包含业务系统级分析调研模板、表分析调研模板、字段级分析调研模板、代码/字典级分析调研模板。 (无积分可以私聊免费送)

2023-03-08

DataX-master.zip

datax maven编译

2021-08-24

hadoop2.6.0版本hadoop.dll和winutils.exe

大数据

2021-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除