自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mba1398的博客

初学者

  • 博客(50)
  • 资源 (5)
  • 收藏
  • 关注

原创 Atlas Hook 导入 Hive 元数据

Atlas 部署之后就可以导入 Hive 元数据,这部分工作由 Atlas 组件 Hook 来完成。初次导入 Hive 元数据需要通过执行 shell 脚本来完成,然后,Atlas 就可以自动同步增量元数据信息了。下面我介绍一下如何完成这些工作。

2024-01-01 16:04:25 654 1

原创 Atlas 2.2.0 安装部署

Apache Atlas 是一套可扩展、可延伸的核心基础治理服务,使企业能够切实有效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 提供开放的元数据管理和治理功能,使企业能够建立数据资产目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。在实际应用中,Atlas 主要用于查看数据血缘,下面我们来看一下 Atlas-2.2.0 的安装部署步骤。

2023-12-31 12:26:25 966

原创 【已解决】Atlas 导入 Hive 元数据,执行 import-hive.sh 报错

Apache Atlas 执行 import-hive.sh 报错 ClassNotFoundException: org.apache.hadoop.hdfs.HdfsConfiguration 处理

2023-12-17 16:28:48 697

原创 【已解决】Cannot find project Scala library 2.11.8 for module XXX

在 flink 示例程序调试过程中,reload project 报错。

2023-12-01 20:36:56 1150 1

原创 【已解决】HBase 2.2.6 集群部署后,从节点未启动 HRegionServer

而启动之前的 HBase 2.4.11 则完成正常,我就有点怀疑是不是 HBase 2.2.6 集群搭建有什么特殊的地方?然后,我就去查 HBase 2.2.6 集群部署的文章,这次我发现了一个点,就是。3、重启启动 HBase 2.2.6 集群,可以看到此时的从节点已经启动了。的配置设置其自己的 hostname,这种情况下主节点的配置中只有一台。今天搭建了 HBase 2.2.6 集群环境,启动之后发现,从节点的。文件中配置的服务器并不是一台,而是所有计划用作。文件配置未所有节点(主节点和从节点)

2023-11-26 18:04:13 734

原创 zookeeper启动报错Client port found: 2181. Client address: localhost

使用命令bin/zkServer.sh start启动服务,日志无异常。但是使用 jps 命令查看没有看到 QuorumPeerMain 进程。后再次启动,zookeeper 可以正常启动。配置值不能相同,将三台服务器。,集群中的不同服务器,

2023-08-22 18:04:51 1578

原创 为什么普通模式上不了必应谷歌,无痕模式却可以?

我曾经也有这个苦恼,近期解决了,特此记录一下。

2023-07-24 12:47:34 992

原创 Python打开文件,存入列表

【代码】Python打开文件,存入列表。

2023-05-07 22:42:14 380 1

原创 大数据处理技术导论(8) | Datawhale组队学习46期

大数据面试题,pyspark 大数据实战:计算新闻文章数据集中每年各词的权重

2023-03-06 21:21:09 415

原创 大数据处理技术导论(7) | Datawhale组队学习46期

spark 计算框架学习。

2023-03-04 22:19:25 367

原创 大数据处理技术导论(6) | Datawhale组队学习46期

hive 是建立在 hadoop 之上的数仓工具。它将 hadoop 上存储的结构化、半结构化数据文件映射为表,使得可以通过 HiveQL(HQL)对存储于 hadoop 上的大型数据文件进行访问与分析。hive 本身并不存储数据,它只是提供了用户与 hadoop 系统文件之前的连接通道。其核心是将 HQL 翻译成 MapReduce 任务,然后提交至 hadoop 集群中进行执行,并给用户返回处理结果。hive 大幅降低了普通业务人员或者说数据开发(不了解 java 编程)进行大数据分析的门槛。

2023-03-01 20:09:39 623

原创 大数据处理技术导论(5) | Datawhale组队学习46期

期中作业

2023-02-26 21:36:22 1042 2

原创 大数据处理技术导论(4) | Datawhale组队学习46期

mapreduce 相关内容

2023-02-23 23:17:18 111

原创 大数据处理技术导论(3) | Datawhale组队学习46期

HBase相关内容

2023-02-21 23:16:52 111

原创 大数据处理技术导论(2) | Datawhale组队学习46期

本次主要学习 HDFS 内容。

2023-02-11 22:36:36 97

原创 大数据处理技术导论(1) | Datawhale组队学习46期

大数据概述、hadoop 入门

2023-02-11 22:31:14 286

原创 大数据入门:HDFS API 常规操作

今天看尚硅谷大海哥的hadoop课程,学习了 HDFS API 的常规操作,虽然很简单,但是对于我这个门外汉来说,这些都属于全新的领域,掌握之后感觉非常的开心,特此记录一下。

2022-08-06 20:14:40 728

原创 VMware 克隆失败,提示指定的虚拟磁盘需要修复【已解决】

进入VMware安装目录后进行修复

2022-07-23 23:05:01 10342 11

原创 PAD变量

文章目录PAD变量(1)数字类型PAD变量(2)文本类型PAD变量(3)日期时间类型PAD变量(4)布尔类型PAD变量(1)数字类型SET num1 TO 1SET num2 TO 3.3SET sum TO $'''1 + 2'''SET sum2 TO num1 + num2SET sum3 TO $'''%num1%+%num2%'''SET Textnum TO $'''%'1'%'''SET dif TO 2 - 5SET dif2 TO 1 - difSET mul TO 5

2022-05-29 22:02:51 306

原创 python 删除文件前几行和最后一行

项目中遇到一个问题,需要删除文件的前几行和最后一行。改怎么处理呢

2022-03-03 19:31:35 7157 1

原创 Flink项目实践 | Flink 单机安装部署

Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。

2022-02-12 13:49:49 3363

原创 ssh: connect to host localhost port 22: Connection refused

今天本机安装hadoop 时,遇到一个问题,配置 ssh 登录权限失败xxx@yyy:/opt/hadoop$ ssh localhostssh: connect to host localhost port 22: Connection refused百度搜索了好多文章都没能搞定,最后还是通过 bing 搜索(国际版) 搞定的,这里分享一下。1 确认 OpenSSH server 是否安装sudo apt list --installed | grep openssh-server如果有如

2022-02-08 19:52:27 40311 7

原创 Linux实践学习笔记3 | DataWhale组队32期

哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211228,学习网址如下:

2021-12-25 16:56:47 508 1

原创 Linux实践学习笔记2 | DataWhale组队32期

哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211230,学习网址如下:

2021-12-22 22:31:28 1150

原创 Linux实践学习笔记1 | DataWhale组队32期

哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211230,学习网址如下:xxx目录任务1任务2任务3任务1任务2任务3

2021-12-16 21:57:50 470

原创 QGIS小妙招-创建缓冲区

大家熟知的地图软件 mapinfo 被禁止使用之后,开源地图软件QGIS 在通信圈大放异彩,今天分享一下使用 QGIS 创建缓冲区的步骤。1. 坐标系转换我们手上的图层默认是没有坐标系的,制作缓冲区要求我们去选定坐标系 EPSG:32650 - WGS84 / UTM zone 50N 。首先导入图层将图层另存为 shape 格式,具体参考如下图片:2. 制作缓冲区依次打开步骤 1 制作的包含坐标系的 shape 图层,在左侧 图层 工作区,选中线图层(比如高铁、高速线路图层),选中后依

2021-04-28 22:29:18 5807 7

原创 DatawhaleTL24 | Docker Task06:综合实践

本节实践将本地项目部署在 Docker 容器中,以便于 CI/CD (持续集成和持续交付),甚至是协作交付,因为 Docker 更容易进行移植。...

2021-04-23 21:29:21 89

原创 DatawhaleTL24 | Docker Task05:Docker-Compose

`compose` 是 `Docker` 官方的开源项目,用于实现 **`容器集群`** 的快速编排。其定位是:定义和运行多个 Docker 容器的应用。在实际工作中,单个容器很难完成项目,一般需要多个容器配合才能完成。`compose` 专门应对这种需求。...

2021-04-21 22:52:14 123

原创 DatawhaleTL24 | Docker Task04:网络

`Docker` 允许通过外部访问容器或容器互联的方式来提供网络服务。...

2021-04-18 10:37:30 126

原创 DatawhaleTL24 | Docker Task03: 数据管理

容器删除时,数据也会被删除,那么 `docker` 是如何固化数据的呢?

2021-04-16 22:07:17 78

原创 DatawhaleTL24 | Docker Task02: 容器与镜像

`Docker` 有三大基本概念:镜像、容器、仓库。...

2021-04-15 22:06:43 128

原创 DatawhaleTL24 | Docker Task01: 简介与安装

工作中有一些虚拟化的应用场景,而 Docker 据说一种良好的解决方案,所以我就参加了本次组队学习。

2021-04-11 16:12:36 121

原创 Python办公自动化 | word 表格转excel

之前写过一篇 Python办公自动化 | 批量word报告生成工具 ,有小伙伴提出了逆向需求,即:从批量word中获取内容并写入excel,需求背景是汇总一些材料,举例:实习鉴定表、个人简历、档案等。实际需求是这样的,现在有如下格式的若干word文档,需要录入标黄信息到excel,手工录入效率太低了,能不能用python实现呢?答案是肯定的安装 docxpip install pothon-docx导入 docxfrom docx import Document读取 word 文件doc=D

2020-07-04 12:06:37 890

原创 Python办公自动化 | 批量word报告生成工具

有时候我们需要按照某种规则生成一种固定模板的word报告,python能够很好的完成这项工作。本文通过一个小示例说明一下如何通过Python实现自动生成word报告。首先我们需要有一个word报告模板,模板中内置了一些需要修改的关键字,类似这个样子如上图所示,文档中标红的文字都属于关键字,是需要替换的。这里,我们还需要一份excel表格,用来存储报告的关键内容。到这里,准备工作就做好了,可以开始写代码了。处理word需要用到python-docx包,先pip安装pip install pyt

2020-07-04 11:20:30 3689

原创 Python办公自动化 | excel读取和写入

python在办公自动化领域应用广泛,本文学习一下如何使用python读取和写入excel。EXCEL读取和写入可以用到两个包:xlrd 和 xlwt。Excel读取excel几个基本概念:工作簿就是指这个excel文件工作表就是excel文件中的不同sheet单元格就是某个sheet中的某个位置首先在cmd命令行安装 xlrd 包pip install xlrd安装后咱们开始编写代码首先导入xlrd包import xlrd打开工作簿xlsx = xlrd.open_workbo

2020-07-04 11:09:12 440

原创 获取PowerBI账号的几个途径

用过PowerBI的朋友知道,之前用个人邮箱注册的账号是可以web发布的,现在却不行了,这该怎么办呢?下面总结一下我知道的几个途径,欢迎补充1、pbihub. cn免费获取登录 www.pbihub.cn在首页可免费申请2、找业界大佬赠送。3、找我...

2020-05-29 08:21:08 5838 3

原创 利用Python批量合并csv

import pandas as pdimport ospath = input('请输入文件夹路径: ')files = os.listdir(path)csv_list = []for f in files: if os.path.splitext(f)[1] == '.csv': csv_list.append(path + '\\' + f) e...

2020-02-16 22:05:01 794

翻译 10分钟入门pandas-系列2

前文回顾咱们书接上回,继续入门pandas。缺失数据处理pandas默认使用np.nan表示确实数据。重新索引可以在特定的轴上修改、新增和删除索引。他将返回数据的副本。In [9]: import pandas as pd ...: import numpy as np ...: ...: ...: s = pd.Series([1, 3, 5, np.nan,...

2019-12-01 13:40:45 169

原创 10分钟入门pandas-系列1

本文使用pandas最新版本0.25.3验证。pandas安装命令如下:pip install pandas如果不是最新版本,建议升级至最新版本,版本升级命令如下:python -m pip install --upgrade pandas首先导入pandas包,numpy包经常一起使用,一同导入In [1]: import pandas as pdIn [2]: import ...

2019-12-01 09:50:48 249

原创 小白版 -- win10 mysql5 MySQL8不同版本,双版本安装指导

win10,已经安装 mysql5.5,新增安装 mysql8.0

2019-08-18 22:27:07 400

MAPINFO 最小距离计算指导书.pdf

常规宏工具普遍效率低,试试这个mapinfo自带大杀器,400万次遍历,只要一分钟

2019-09-20

GeoLiteCity.dat

GeoLiteCity.dat离线文件,可以定位到区域,包括国家、城市、区域和经纬度信息,以及两点之间的距离。用Python调用时可以使用

2018-08-26

利用Mapinfo自带Voronoi功能制作TAC、LAC、BSC边界线

利用Mapinfo自带Voronoi功能实现当前图层边界分割功能,操作简单实用,在无线网络优化过程中会用到

2017-02-04

利用Mapinfo自带Voronoi功能制作TAC、LAC、BSC边界

2016-06-05

基站间平均距离算法(利用mapinfo)

基站间平均距离算法(利用mapinfo)

2016-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除