自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Nick

一个想成为大神的程序员

  • 博客(32)
  • 资源 (7)
  • 收藏
  • 关注

原创 使用正则表达式替换(保留部分内容不变)

正则表达式保留部分内容替换需求:把trim(ABC)替换成trim(replace(ABC,char(9),' ')需要把ABC保留不变,替换其它的。实现:trim\(([^).]*)\) 替换成 trim\(replace\($1,char\(9\),' '\)在查找的时候用括号括起来的代表一部分,在替换的时候可以用$1,$2…引用。注意:有写编...

2018-11-15 09:16:38 51724 4

原创 本地用虚拟机搭建 K8S 集群

文章目录本地用虚拟机搭建 K8S 集群一、安装配置 Ubuntu 虚拟机1.1 安装系统1.2 固定 IP 地址1.3 修改系统配置二、安装软件2.1 安装 docker2.2 安装 k8s三、复制虚拟机3.1 虚拟机关机3.2 修改 hostname 和 IP四、配置 k8s Master4.1 修改 kubelet 配置4.2 初始化4.3 初始化网络模块4.4 安装 dashboard五、加入 node 节点本地用虚拟机搭建 K8S 集群一、安装配置 Ubuntu 虚拟机如非特殊说明,以下操作均

2021-10-19 09:28:54 947

原创 一个例子理解 Python 内置装饰器及 cached_property

# coding=utf-8from functools import cached_propertyclass Test: c = 3 def __init__(self, *args, **kwargs): self.a = 1 @property def aaa(self): print("I'm in aaa") # 可以通过 self.a 或者 self.c 访问 a 和 c 变量 retu

2021-08-08 18:58:03 804

原创 Python 多进程实操

文章目录Python 多进程多进程创建方式多进程如何进行数据交互?Python 多进程多进程创建方式Python 中使用 multiprocessing 模块来处理多进程。直接创建 Process 对象# -*- coding:utf-8 -*-from multiprocessing import Processimport os, timedef fun(i): print(f"I'm in {os.getpid()}, id is {i}, parent pid is{

2021-08-07 20:03:08 184

原创 MacOS 安装 Airflow 1.10.7

MacOS 安装 Airflow 1.10.7一、下载 Airflow 1.10.7 源码二、解压三、安装 cython 以及 freetds安装依赖一、下载 Airflow 1.10.7 源码GitHub 仓库 https://github.com/apache/airflow1.10.7 源码 https://github.com/apache/airflow/archive/1.10.7.zippython 版本 3.7二、解压三、安装 cython 以及 freetdscython

2020-11-01 12:56:35 1079

原创 HDFS 原理史上最详细解析(包含 2.x 版本)

1. 背景HDFS最初是参考谷歌GFS论文原理开发的一个开源产品,由Lucene开源项目的创始人Doug Cutting开发,现在已经成为大数据平台的基石。HDFS借鉴了GFS的技术架构,在设计理念上又与GFS有很大的不同,它致力于提供一个通用的分布式文件系统,与GFS作为Google内部存储系统的定位有很大区别。HDFS定义了一套文件系统API规范(http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/files

2020-06-02 23:03:05 1039

原创 Airflow 简介及原理

Airflow 简介及原理Airflow 一个用于编排复杂计算工作流和数据处理流水线的开源工具,通常可以解决一些复杂超长 Cron 脚本任务或者大数据的批量处理任务。其工作流的设计是基于有向无环图 (Directed Acyclical Graphs, DAG) ,用于设置任务依赖关系和时间调度。简单来说,在编写工作流时,尽量考虑如何将一个大型的任务拆分为多个可独立执行的原子任务,再将这些任...

2020-04-24 13:41:57 2307 1

原创 pip 安装报错 error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools

在 Windows 安装 python 包经常会遇到这错误: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools遇到这错误不要慌, 进这个网站下载对应的 whl 包即可。https://www.lfd.uci.edu/~gohlke/pythonlibs/进入...

2020-02-28 16:00:50 957

原创 搭建 Kafka-0.10.2 源码阅读环境及 Windows 本地运行

搭建 Kafka-0.10.2 源码阅读环境及 Windows 本地运行一、版本信息二、构建Kafka源码环境三、配置Kafka源码环境构建 bin 包一、版本信息Kafka:0.10.2、Scala:2.10.6、Java:1.8.0_221、IntelliJ IDEA:2019.2、Zookeeper:3.4.13、Gradle:5.6.2、Git:2.22.0二、构建Kafka源码环境...

2020-01-31 09:39:52 895

原创 Java 内存区域与 Java 内存模型

Java 内存区域与 Java 内存模型一、前言二、Java 内存模型(JMM)1. CPU 和 内存的交互2. Java 内存模型中的主内存与工作内存3. volatile 关键字3.1 可见性3.2 禁止重排优化三、Java 内存区域1. 私有数据区域1.1 虚拟机栈1.2 程序计数器1.3 本地方法栈2. 共享数据区域2.1 方法区2.1.1 运行时常量池2.2 Java 堆一、前言在...

2019-07-18 17:44:35 243

原创 一个神奇的错误引出的 Shell 中 source、sh、bash、./ 执行脚本的区别

问题描述:之前我都是用 ./test.sh 方式执行脚本的,但是后来我看到有 sh test.sh 方式执行脚本,而且这种方式执行脚本的时候,脚本可以不用执行权限。在此前提下,我执行一个 Flink 脚本的时候突然报语法错误,我用的是 sh bin/config.sh 执行的脚本。报错信息如下:bin/config.sh: line 32: syntax error near unexpe...

2019-06-18 16:18:02 1882 1

原创 Spark 解决数据倾斜问题

Spark 解决数据倾斜问题一、前述数据倾斜问题是大数据中的头号问题,所以解决数据清洗尤为重要,本文只针对几个常见的应用场景做些分析 。二、具体方法1. 使用 Hive ETL 预处理数据方案适用场景:如果导致数据倾斜的是 Hive 表。如果该 Hive 表中的数据本身很不均匀(比如某个 key 对应了 100 万数据,其他 key 才对应了 10 条数据),而且业务场景需要频繁使用 ...

2019-06-12 15:47:36 403

原创 HBase 存储原理理解

HBase 存储原理理解这里通过一次 put 操作从宏观和微观两个角度进行分析。宏观put 提交之后,数据首先会放入 MemStore,然后再写 WAL (Write Ahead Log),当 MemStore 满了之后就会往 StoreFile 里面刷( HBase 并不会直接将数据落盘,而是先写入缓存,等缓存满足一定大小之后再落盘。)。当 StoreFile 文件数量增长到一定阈值之后...

2019-05-31 17:51:46 1371

原创 简单配置flume读取日志文件写到HDFS

集群配置三个节点:server1, server2, server3场景server1 和 server2 有生成日志,flume 从 server1 和 server2 采集日志,flume 在 server3 收集日志并写入到 HDFS安装 flume首先在 flume 官网下载安装包 https://flume.apache.org/download.html上传到 serve...

2019-05-22 16:25:14 1485 2

原创 用Lily Hbase indexer 工具包同步Hbase的索引到solr出错

用Lily Hbase indexer 工具包同步Hbase的索引到solr出错错误堆栈2019-05-21 06:52:07,181 ERROR [IPC Server handler 8 on 42709] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1555666124724_2625_m_000005_...

2019-05-21 09:55:13 378

原创 在CDH集群安装Flink

在CDH集群安装Flink1. 下载安装包查看自己的hadoop版本和scala版本, 这里是hadoop 2.6, scala 2.11wget https://archive.apache.org/dist/flink/flink-1.7.2/flink-1.7.2-bin-hadoop26-scala_2.11.tgz2. 解压tar -zxf flink-1.7.2-bin-ha...

2019-05-15 15:53:23 12128

原创 重拾Spark 之day06--Spark 算子详解(一)

上节讲到Spark RDD可以通过各种算子进行操作转换,Spark算子分为Transformation算子和Action算子。其中Transformation算子可以将RDD转换成新的RDD,Action算子将RDD消化,在控制台打印或者持久化到文件系统或数据库。Spark 算子详解(一)...

2019-04-30 16:36:10 185

原创 spark源码理解之 withScope

spark源码理解之 withScope在通过看RDD源码理解各算子的作用时, 总能看到withScope, withScope到底是个什么东西?首先需要了解几个东西: scala柯里化(currying), 贷出模式(loan pattern)scala柯里化(currying)在scala中, 一个经过柯里化的函数在应用时支持多个参数列表,而不是只有一个。当第一次调用只传入第一个参数时...

2019-04-30 11:27:03 3022 3

原创 Shell脚本常用语法与命令

Shell脚本常用语法与命令1. 循环数组2. if else语句3. 删除变量4. 字符串操作4.1 字符串截取4.2 字符串比较记录我工作中写脚本经常用到的命令和用法1. 循环数组arrs=("1" "2")for arr in ${arrs[@]};do echo $arrdone通过下标取数组某个值 ${arrs[i]}${arrs[@]} 表示整个数组序列其中ar...

2019-04-29 13:15:37 508

原创 hive UDF临时注册, 永久注册和hue使用hiveUDF

hive UDFhive UDF有几种使用方式1. 直接在hiveContext注册hiveContext.udf.register("transZeroToEmpty", transZeroValueToEmpty) val transZeroValueToEmpty = (value: String) => { if (value == null || "0".eq...

2019-03-27 10:30:38 1236

原创 问题记录: java.io.IOException: Unreasonable length = 1050410

java.io.IOException: Unreasonable length = 1050410问题描述:solr重启失败, 报错信息如下java.io.IOException: Unreasonable length = 1050410 at org.apache.jute.BinaryInputArchive.checkLength(BinaryInputArchive.java:...

2019-03-25 18:07:34 3582

原创 看不到远程新建的分支

看不到 git 远程新建的分支解决办法

2019-03-22 17:52:34 9243 5

原创 重拾Spark 之day05--创建RDD

RDD是什么东西已经初步了解了,现在我们要怎么创建RDD呢?创建RDD1. 从集合创建RDD1.1 parallelize1.2 range1.3 makeRDD1. 从集合创建RDD1.1 parallelize源码: /** Distribute a local Scala collection to form an RDD. * * @note Parallelize...

2019-03-14 22:27:58 191

原创 Git 常用命令

Git 常用命令新建Git版本库配置增加/删除文件提交分支标签查看信息远程同步撤销其他git是分布式版本控制系统。分布式版本控制系统根本没有“中央服务器”,每个人的电脑上都是一个完整的版本库,这样,你工作的时候,就不需要联网了,因为版本库就在你自己的电脑上。小项目开发记住下图的六大类命令基本就能满足使用。新建Git版本库# 初始化Git版本库(会在当前目录新建一个.git文件夹,并把当前...

2019-03-13 15:02:20 129

转载 重拾Spark 之day04--Spark RDD

发现一篇对Spark RDD讲的比较通俗易懂的文章。http://sharkdtu.com/posts/spark-rdd.htmlSpark核心概念RDDRDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, ...

2019-03-06 22:05:39 170

原创 重拾Spark 之day03--Spark的运行原理与角色

简单梳理下Spark的程序的运行原理与Spark各阶段的各个角色。构建Spark Application运行环境;在Driver Program中新建SparkContext(包含SparkContext的程序称为Driver Program);Spark Application 运行的表现方式为:在集群上运行着一组独立的executor进程,这些进程由SparkContext来协调;简单来...

2019-03-06 21:08:09 205

原创 重拾Spark 之day02--Spark开发环境搭建

这里就不详细讲解Hadoop集群以及Spark集群怎么搭建。这里是搭建Windows 10系统本地开发环境,可以编写Spark测试案例。Spark开发环境搭建1. Spark开发环境搭建1.1 安装jdk1.2 安装IntelliJ IDEA1.3 安装Scala1.4 安装Python1.5 安装Spark1. Spark开发环境搭建1.1 安装jdk我选择的版本是jdk1.8.0_11...

2019-03-03 15:50:09 160

原创 重拾Spark 之day01--Spark简介

昨天去参加了场面试,本来觉得自己很厉害,后来觉得自己啥都不会。自己学习能力确实还行,在项目中遇到不会的东西通过粗略的学习马上就能用到项目中来,但是只知道用。所以感觉这次面试把原来飘在天上的我又拉回来了,是时候需要脚踏实地好好学习了。也为今年秋天去大厂的面试做做准备吧。Spark 简介1.Spark简介1.1 简介与功能1.1.1 运行速度快1.1.2 易用性好1.1.3 通用性强1.1.4 随处...

2019-03-02 18:15:37 210

原创 Hive实现update和delete

默认hive是不允许update和delete的,在hive0.14版本后是支持, 但需要修改客户端配置和服务器端配置。具体如下博客 https://blog.csdn.net/xueyao0201/article/details/79387647...

2019-03-01 08:56:55 4464

原创 合并有交集的集合

问题给定一个字符串的集合,格式如:{{a,b,c}, {b,d},{e,f},{g},{d,h}}要求将其中交集不为空的集合合并,要求合并完成后的集合之间无交集,例如上例应输出{{a,b,c,d,h},{e,f}, {g}}工作一年第一次遇到到的相对比较难的算法题, 看了网上的思路, 然后自己实现了下思路初始化一个值全为-1, 大小跟给定的字符串集合大小一样的数组(下文叫定位数组)...

2019-02-15 16:08:48 1991 1

原创 解决hue窗口中文报错问题

在hue中查询条件加了中文,或者有中文注释都会报错(1366, Incorrect string value:… for column search at row 1)修改hue元数据库的字符编码alter database hue character set latin1;alter table beeswax_queryhistory modify `query` longtext ...

2018-11-29 10:43:57 2161 1

原创 记一次IDEA关于maven的BUG

遇到错误:[ERROR] Failed to execute goal on project ecif-task-frame: Could not resolve dependencies for project … Failure to find com.xxx.xxx:yyyy:jar:1.0.0 in http://123.56.183.194:8081/nexus/content/gro...

2018-11-27 18:24:02 1297 1

flink 客户端操作.pdf

flink 客户端操作, 各种命令, sql clinet 操作 等等都在文档里有

2019-05-21

Flink 开发环境搭建和应用的配置部署及运行.pdf

flink开发环境的搭建和应用的配置部署及运行 详细, 阿里巴巴

2019-05-21

DbVisualizer10.0.17破解文件

解压文件,得到dbvis.license放入C:\Users\yourname\.dbvis文件夹下,dbvis.jar放入安装目录的lib中

2019-02-27

图片置顶显示程序

对着图片ps时不需要分屏, 可以置顶显示图片。或者对着图片敲代码之类的都很方便

2019-02-15

防锁屏小工具,即开即用

双击打开,在后台运行。电脑不会自动锁屏 操作简单 堡垒机必用。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2018-10-25

FSCapture 教学录屏软件

绿色版解压即用 1.录屏功能 2.截图功能 3.放大功能 4.桌面画图板功能 视频课程录屏利器!!!!

2018-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除