自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Young2018的博客

我思故我在

  • 博客(40)
  • 资源 (6)
  • 收藏
  • 关注

原创 个人博客文章汇总

这篇文章对自己博客文章进行汇总,起一个提纲或者集合的作用。00 读书总结类大数据平台基础架构指南 读书收获《代码大全》读书体会盘点国内大数据书籍流派大数据经典书籍良心推荐01 Spark 3.x 系列02 Apache Airflow 系列03 数仓开发相关数仓开发Intellij IDEA配置数仓代码版本及提交管理规范04 元数据技术CDH6.x对应的Apache Atlas版本选择基于CDH6.x环境的Apache Atlas2...

2021-04-11 22:24:10 340 1

原创 Apache Airflow系列文章

Apache Airflow是优秀的 数据流水线耦合工具,在开源世界已经成为了事实上的 工作流调度标准,国外的云厂商都直接提供Airflow的云服务,其开源势头也特别的强劲,预计在 2020年年底推出 2.0版本,届时其性能将更加强大,功能更为丰富,UI更为现代化。下面是我基于实战总结出来的Apache Airflow系列文章,供各位需要的网友参考。1.Airflow部署文档(物理机版本)...

2020-10-15 21:00:38 1857 2

原创 Spark 3.x系列文章

Spark 3.0版本从2020年6月份正式发版以来,已经过了一个季度了,其稳定版本也在 9月份release了。Spark SQL 3的性能强劲,且很好的兼容了Hive的各个版本,可以选其作为ETL的工具,替代Hive,更加有效的利用好资源。Spark3.x的系列文章主要是用来记录Spark3在各种场景下的使用,期望可以供也期望使用强大的Spark引擎的各位小伙伴一些案例参考,一同的用好开源软件。这个系列文章的列表如下:1.Spark3.0.1 结合CDH6.1.0 编译打包我将.

2020-09-28 20:38:13 653

原创 如何学习大数据技术

如何学习大数据技术1. 从经典的书籍中学习Hive性能调优实战Spark SQL内核剖析Flink内核原理与实现2. 从官方文档中学习一手资料文档齐全3. 从源码中学习exampletest casesource code4. 在技术社区中学习Flink 社区Spark 社区Airflow社区Kyuubi 社区5. 大数据未来的发展方向以Cloudera公司为首的Hadoop大数据系统逐渐的没落CDH/HDP 在2021年1月份开启付费墙Cloudera 公司即将退市

2021-06-18 10:59:37 274

原创 Spark SQL干货汇总

Spark SQL干货汇总Welcome to Kyuubi’s documentation! - Kyuubi 1.2.0 documentation提效7倍,Apache Spark 自适应查询优化在网易的深度实践及改进Kyuubi 与 Spark Thrift Server 的全面对比分析 | 技术干货网易数帆开源 Kyuubi:基于 Spark 的高性能 JDBC 和 SQL 执行引擎网易Spark Kyuubi核心架构设计与源码实现剖析_香飘叶子的技术博客_51CTO博客分享 | Sp

2021-06-16 23:45:51 229 3

原创 腾讯的Spark SQL开发与优化 -- 整理自《Spark SQL内核剖析》第11章

本文整理自《Spark SQL内核剖析》第11章 Spark SQL开发与实践,文章的图片版权归作者和出版社所有,侵权的话请联系删除。这本书系统的讲解了Spark SQL的架构原理及其实现方式,书中的内容逻辑严密,结构清晰明了,作者从简单的Spark SQL 语句入手,一步步的带着我们探索Spark SQL是如何实现的,这本书是帮助我们深入理解Spark SQL原理的不二选择,欢迎大家购买原书进行学习。另京东读书上有电子版,阅读体验很好,值得尝试。(利益无关,纯粹是自来水)这本书出版于2018年,作者均

2021-06-10 21:59:26 446

转载 设计模式简介

本文整理自网络资料,简要的介绍下设计模式的种类和实现了这些设计模式的java代码例子。1.设计模式简介设计模式是解决问题的方案,学习现有的设计模式可以做到经验复用。拥有设计模式词汇,在沟通时就能用更少的词汇来讨论,并且不需要了解底层细节。2.设计模式三大分类2.1创建型名称 作用 举例 Singleton (单例模式) 确保一个类只有一个实例,并提供该实例的全局访问点。 java.lang.Runtime#getRuntime().

2021-06-10 16:29:37 114

原创 为什么选择Apache Airflow作为调度系统的7大理由

这篇文章主要想阐述使用Apache Airflow作为调度系统的好处,尽可能客观的基于数据来说明情况,避免自夸自擂。0.社区活跃我们从github 的 airflow contributors 页面可以看到2个核心的指标:截至2021年06月06日,Star 数已经达到了21.7k, Fork数达到了8.6k,其代码的commit数目更是逐年递增.在Airflow的github主页面可以看到,现有1,575个用户对airflow进行了贡献。且有400多家公司填写了登记了正在使用Apache Air

2021-06-06 20:57:30 1515

原创 Apache Airflow 2.0 新特性一览

今天有空对大约半年前的Apache Airflow 2.0 的Release文档做一个整理,主要的文章的内容来自于Apache Airflow官方的Apache Airflow 2.0 is here!和Astronomer(Apache Airflow云服务提供商)的Introducing Airflow 2.0.主要以官方文档为主,以翻译+注解的方式来说明Apache Airflow 2.0 版本的新特性.A new way of writing dags: the TaskFlow API (AI

2021-06-06 17:35:28 1895

原创 CDH6.1 升级Impala到3.4版本启用auto refresh metadata功能的问题及解决方法

我们参考了Impala PMC的这篇文章在CDH6.3中单独升级Impala到Apache Impala 3.4在CDH6.1版本中进行升级

2021-05-29 13:38:02 1085 3

原创 Flink 指标监控整理

https://cloud.tencent.com/document/product/248/50974

2021-05-27 20:00:26 1239

原创 02 Apache Airflow 2.0+官方文档导读 Quick Start (快速上手)

Quick Start快速开始指南,这里分为两个小的部分,分别是本地运行及以Docker方式运行Airflow。值得注意的是,这两种方式都只是快速体验airflow的方式,不能够用于生产部署。A.本地运行指南 (单机版)主要内容包括a.Airflow的安装方式(使用pip 执行命令)b.Airflow 启动环境配置(AIRFLOW_HOME, PYTHON_VERSION,CONSTRAINT_URL)c.Airflow 启动命令(airflow db init / airflo

2021-05-23 19:45:51 1231 1

原创 谁在使用Apache Airflow及提供Apache Airflow服务的云厂商

这篇文章给大家介绍一下Apache Airflow的用户情况及提供Apache Airflow服务的云厂商。1.已经登记的使用Apache Airflow的用户我们从github的https://github.com/apache/airflow/blob/master/INTHEWILD.md页面可以看到,截止到2021-05-23号,已经有403家公司填写了相关信息,大多为国外的用户,如Adobe, Airbnb, Bloomberg, Dropbox, Gitlab, HBO, Lyft,..

2021-05-23 19:24:09 609

原创 Apache Airflow指标监控实践

Apache Airflow官方提供了statsd的指标采集功能,我们可以基于statsd来监控Airflow集群整体的运行情况,结合Prometheus及Grafana对采集的指标进行展示并设置告警功能,保障Airflow集群在出现故障的时候能够及时的处理。1.Airflow集群指标采集及数据展示整体流程整个采集流程分为3个大的步骤:a.在安装statsd并且在airflow.cfg开启statsd后,Airflow集群会推送相关监控的指标到指定的statsd server中b.我们使

2021-05-23 13:07:23 3331

原创 Apache Airflow2.0.2 遇到的问题及解决方案

Airflow2.0.2 问题及解决方案a.测试运行期间发现 airflow scheduler 由于 mysql deadlock 而挂掉的问题_mysql_exceptions.OperationalError: (1213, 'Deadlock found when trying to get lock; try restarting transaction')看了下若干的issue,感觉mysql对airflow scheduler的支持不够好,且考虑到后面要部署多个schedule

2021-05-23 10:51:15 3076 2

原创 Apache Airflow 1.10.9 升级到 2.0.2 版本实践

五一放假回来在我们测试环境对Airflow进行了升级实验,总结出来了这篇文章,供还在使用Airflow1.10版本的各位朋友参考.强烈建议各位使用Airflow的朋友升级到2.0.x版本,实践效果杠杠的.0.注意事项:a.升级之前要备份!要备份!备份!b.升级过程中的操作要进行记录,积累实践的经验,避免重复犯错.1.整体升级流程列表a.查看Upgrading to 2.x 及 Updating.md文档b.现有Airflow情况梳理c.升级到1.10.15 桥接版本d.使

2021-05-08 21:35:10 2300 1

原创 Apache Airflow性能优化相关资源

1. airflow scaling workershttps://www.astronomer.io/guides/airflow-scaling-workers2.airflow 2 schedulerhttps://www.astronomer.io/blog/airflow-2-scheduler3.How Can My Airflow Dag Run Fasterhttps://airflow.apache.org/docs/apache-airflow/stable/faq.

2021-04-22 19:42:47 428

原创 Cloudera Hue资料整理

0.相关资料a.githubhttps://github.com/cloudera/hueb.hue创始人的博客https://medium.com/data-queryingc.使用docker-compose部署https://github.com/cloudera/hue/tree/master/tools/docker/hue#docker-composed.spark sql with livyhttps://gethue.com/blog/quick-task-s

2021-04-22 19:35:53 321

原创 Intellij IDEA常用配置

1.取消 SQL 自动格式化

2021-04-22 17:54:07 199

原创 00 Apache Airflow 2.0+ 官方文档导读 总体概览

Airflow 官方文档是Apache Airflow最为权威的参考资料,它汇聚了社区众多贡献者的聪明才智,是学习并掌握Airflow的最佳伴侣。这篇文章给大家简要的讲解官方文档中各部分所包含的内容,希望能够帮助大家快速的定位到自己需要的内容,更好的去寻找自己需要的资料。(一) 总体概览首先先放链接 https://airflow.apache.org/docs/apache-airflow/stable/index.html从官方文档的布局来看,主要有5大部分1.当前文档的版本Air

2021-04-11 21:51:12 776

原创 大数据经典书籍良心推荐

---- 文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----今天给大家推进一些自己看过的大数据领域的经典书籍,我将从整体架构到具体细分领域这样的模式给大家进行推荐。(一) 整体架构0. 《Hadoop权威指南:大数据的存储与分析》(第4版) Tom White 著1. 《大数据之路:阿里巴巴大数据实践》 阿里巴巴数据技术及产品部 著2. 《大数据技术体系详解:原理、架构与实践》 董西成 著3. 《算法与数据中台》詹盈 著4. 《数据中台:让数据用起来

2021-04-11 21:18:29 4315 3

原创 Apache Airflow 资源汇总

----文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----Apache Airflow已经进入了2.0时代了,相关的中文资源还是比较缺少,有空整理一下我所了解到的Airflow的相关资源,供大家参考。资源的优先级由上至下依次列出,解决问题查找资料时,请先查看官方资源相关的第一手资料,其次再使用slack / email / github issue 等方式直接与开源社区沟通,以获得最专业的指导,再其次可以与中文社区相关的成员进行沟通,以获得一些前人的经验方面的信息。

2021-04-11 21:15:45 737

原创 01 Apache Airflow 2.0+ 官方文档导读 各部分内容简介

---- 文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----(二) 各部分内容简介接着我将围绕者文档目录结构,逐篇的对文档进行简要说明。1. Home主页对Airflow对功能及其特性做了概要性对描述关于Airflow是什么,给出了明确对定义:Airflow is a platform to programmatically author, schedule and monitor workflows.(Airflow是一个可以通过编程来编写,调度及监控

2021-04-11 21:12:05 408 1

原创 Apache Airflow数仓持续发布实践

0.数仓持续发布整体流程开发在特性分支完成开发,合并代码到各个环境的分支 feat -> sit/prd在 sit可以不设置权限控制,让开发自行合并,prd环境需要设置权限控制,需要进行code review后才能进行合并。经过代码审核后,审核人员在gitlab上点击merge request 按钮,随即触发gitlab webhook发出http请求,然后通过 airflow-gitlab-webhook 插件触发 代码同步的dag, 在该dag中使用git pull命令拉去代码,即可实

2020-10-22 21:55:55 1089 8

原创 Apache Airflow部署文档(物理机版本)

0.airflow架构从开发的角度出发来看,使用Local Execultor的基础 Airflow架构是一个绝佳的理解Apache Airflow架构的起点。以下是airflow 主要组件的说明: 元数据库(Metadata Database): Airflow使用 SQL 数据库 来存储关于 数据流水线运行相关的元数据信息。在图片下方,元数据库由在Airflow当中很受欢迎的Postgres来表示。Airflow也支持MySQL作为其元数据库。 Web服务器和调度器(Web

2020-10-15 20:52:33 1076

翻译 如何将CentOS 7升级到CentOS 8

翻译自: https://www.tecmint.com/upgrade-centos-7-to-centos-8/升级一下Centos版本,感受一下新的环境。在本文中,您将学习如何将CentOS 7升级到CentOS8。此处描述的步骤未描述正式升级,因此尚不应用于生产服务器。步骤1:安装EPEL储存库首先,通过运行以下命令安装 EPEL 存储库:# yum install epel-release -y在CentOS 7中安装EPEL Repo步骤2:安装y...

2020-09-30 18:30:59 1024

原创 Spark SQL 3.0.1 与 CDH Hive 2.1.1结合

本文简单的介绍了 Spark SQL 3.0 与 Hive 2.1的结合,包括安装配置,spark-sql的使用,spark thriftserver的使用及 spark thriftserver 日志信息的查看。文中通过简单的案例串联起来了 spark thriftserver 和 hive的结合,有较强的参考价值。0.解压spark3.0.1的包将编译好的spark-3.0.1-bin-hadoop-3.0.0-cdh6.1.0.tgz 的软件包解压的指定目录 /data/soft/spar

2020-09-29 17:10:15 2485 1

原创 Spark3.0.1 结合CDH6.1.0 编译打包

0.下载spark代码 git clone https://github.com/apache/spark.git cdspark git checkout -b v3.0.1_cdh6.1.0 v3.0.1# 新开一个分支 1.添加Cloudera maven镜像 及 Hadoop3.0 profile在spark的pom文件中添加 CDH的maven镜像[1],并添加 Hadoop 3.0 的profile <repository>..

2020-09-28 20:09:44 2846 6

原创 盘点国内大数据书籍流派

1.Hello World派这类书籍内容较为浅显但配有精美的截图,适合小白作为入门教材。实际的内容较为坑,没有太多干活,一本书13章的内容,有10章的内容在安装软件,步骤还是挺详细的,但是emmm没有干货。为了避免不好的影响,不作详细的举例说明。2.经典翻译派从经典英文书籍翻译而来,内容权威,质量上乘。如Hadoop: The Definitive Guide.3.大厂实践派由一线大厂的开发实践总结出来的作品,这个类别阿里系的作品特别多。典型的代表有《大数据之路:阿里巴巴大数..

2020-06-28 23:58:10 376

原创 《STL源码解析》读书收获1

从书的扉页中可以知道, 掌握一个新的软件框架有4个步骤:0 掌握框架所涉及的基础知识1 能够熟练的运用这个框架2 能够理解这个框架的原理3 能够根据需求对这个框架进行改造学习的时候可以按照这个过程来进行,自己写教程的话也需要考虑到这四阶段,根据阶段的写出可读性高的文档。...

2020-06-16 21:38:04 105

原创 《代码大全》读书体会

这本书是很老的一本书了,篇幅特别的大,涵盖软件工程的方方面面(提纲挈领的讲解了一些概念及原则)。从书中我可以看到作者的深厚功力,能够深入浅出的讲解一个软件从需求调研再到结构设计,再到具体开发,再到测试,再到集成构建的整个生命周期。本书不仅从软件构建的整个生命周期给到读者切实可行的建议,而且针对不同阶段的软件开发人员也给到了向上成长的建议。我想,作者写作本书的目的就是以他的经验来指导读者更好的走在软件构建的康庄大道上,期望用他的肩膀让我们读者能够站的更高,朝着更高的目标去进行努力。我们可以借鉴作者在软

2020-06-11 20:55:26 398

原创 数仓开发Intellij IDEA配置

使用Intellij IDEA作为数仓的开发工具。A. IDEA下载下载连接https://download.jetbrains.com/idea/ideaIU-2019.1.4.exe?_ga=2.158036537.2039258053.1578625833-1480439129.1578380047相关资料在云盘中,可以参考链接:https://pan.baidu.com/...

2020-01-19 19:27:12 1088

原创 数仓代码版本及提交管理规范

A. 代码分支结构GitLab使用时,基本遵循gitflow的工作量(目前因为历史原因,是非标准gitflow)目前的分支结构和权限如下: 分支 merge权限 push权限 feat特性分支 Maintainer用户+ Developer用户 Maintainer用户+ Developer用户 dev/...

2020-01-19 18:54:50 615

原创 CDH6.x对应的Apache Atlas版本选择

一.CDH集群组件版本调研现有大数据集群使用的是CDH 6.1.0版本,查看官方文档[1],可以查找到各组件的版本信息。Component Component Version Changes Information Apache Avro 1.8.2 Changes Apache Flume 1.8.0 Changes Apache Hado...

2020-01-10 20:22:58 3353

原创 基于CDH6.x环境的Apache Atlas2.x安装配置

0.说明下文中的${}中的变量需要根据实际情况进行替换1.依赖A.软件依赖Apache HadoopApache ZookeeperApache KafkaApache HBaseApache SolrApache HiveB.命令依赖tarzip2.安装配置A.传送jar包到服务器并解压tar -zxfapache-...

2020-01-10 20:21:14 2492 11

原创 大数据平台基础架构指南 读书收获

本书是蘑菇街 数据平台资深架构师结合其自身的大数据平台建设经验所总结出来的一本书。其中的 第1、2、10章主要讲诉了大数据平台建设方法论类的知识,平台建设应该以服务为本,以提高业务开发效率为目的,要有产品思维,要在建设的过程中发挥出价值来。第3-9章分别讲诉了作者在 调度系统、数据集成开发平台、数据采集系统、数据可视化系统、权限管理系统、数据质量管理及数据迁移几个方面的实战经验。自己的阅读收...

2019-12-28 22:25:34 405

原创 博客再启航

最近在进行年终整理,想起来要写博客系统的整理自己在工作中和学习上遇到的问题和相应的解决方案。目的有二,一是备忘,二是进行分享,避免后人再采坑。本来想着在自己在腾讯云搭建的博客上进行分享的,但是没有备案,登不上去了,等一段时间备案后再同步到自己搭建的博客上。本博客主要分享数据分析领域相关的内容,目前的工作内容是基于CDH 6.x的大数据组件进行数据分析,业务侧的需求和平台建设的需求都有涉及。业...

2019-12-22 21:50:45 198

原创 Visual Studio 2013开启Web项目报 System.AccessViolationException 错的解决方法

前几天使用Visual Studio 2013自带的IIS Express 运行Web项目突然无法正常登陆系统,但是项目部署到IIS服务器上可以正常运转。由于项目需要调bug,要使用IDE自带的IIS Express启动才有用,烦恼了好几天。调试的时候一直报System.AccessViolationException的错。昨天百度了一下终于找到了解决办法:用管理员身份运行CM

2017-03-06 09:07:50 672

原创 在Windows 7环境下使用dos命令安装.Net 4.0 及ISAPI和CGI限制配置

1.在Windows的menu搜索框中输入cmd并按回车键2.出现cmd.exe后用鼠标右键点击该图标点击以管理员权限运行调转到dos窗口运行的结果如下3.复制 cd C:\Windows\Microsoft.NET\Framework\v4.0.30319  到dos窗口并按回车键4.接上一步之后复制 aspnet_regiis.exe -i 到dos

2017-03-02 15:09:44 1477

翻译 8步走让你成为数据科学家

8步走让你成为数据科学家

2017-02-11 12:29:47 350

Proxmox VE虚拟化云计算平台安装配置

使用Proxmox VE4.4创建一个小的计算机云。 1 前言 在这个配置中,我将创建拥有两个机器的小集群, Proxmox master(主机名 我写 的是: server1.example.com, ip 地址 XXXXXX)和一个 slave(主机名 我写的 是: server2.example.com , ip 地址 XXXXXX)。

2018-01-28

Step by Step CentOS 7系统下Rsync+Sersync实时数据同步配置

本文以图文结合的方式详细的再现了在CentOS7.3操作系统下配置Rsync+Sersync2实时数据同步服务的全过程,文档内容经过反复的实践检验,真实有效,希望对大家有所帮助。

2017-05-20

Step by Step CentOS 7 Rsyncs实时数据同步配置

本文档采用命令行加截图的方式真实的再现了在CentOS 7操作系统下如何一步步的配置Rsync + Sersync实时数据同步,可操作性极强,有需要的可以参考配置。

2017-05-07

Step by Step在CentOS7环境下配置FTP服务器

本文档详细的介绍了在CentOS 7环境下一步一步配置FTP服务器的步骤,图文结合,清晰明了的阐明了FTP的配置过程,希望对大家有所帮助。

2017-05-05

Step by step Hadoop-2.6.4 + Zookeeper-3.4.9 + Hbase-1.2.4完全分布式开发环境配置

此文以命令行+截图的形式详细的记录了Hadoop-2.6.4+Zookeeper-3.4.9+Hbase-1.2.4分布式开发平台的环境配置过程,希望能对大家有所帮助。

2017-04-17

Java Design Patterns

A Tour of 23 Gang of Four Design Patterns in Java

2017-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除