fg19941101-CSDN博客

原创 Azkaban各类型Job编写

Azkaban各种类型Job编写一、总述原生的 Azkaban 支持的plugin类型有以下这些：command：Linux shell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs...

2019-12-04 14:29:13 678

原创 Azkaban配置属性详解

Azkaban配置属性详解参考资料见：Azkaban文档说明1、Azkaban Web服务器配置1.1.常规属性参数描述默认azkaban.name将显示在UI中的azkaban实例的名称。如果您运行多个Azkaban实例，则很有用Localazkaban.label描述Azkaban实例的标签。My Local Azkabanazkaban....

2019-12-03 13:48:08 793

原创 Azkaban简介及安装部署

Azkaban简介及安装部署1、概述Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有三个重要组件：关系数据库（目前仅支持mysql）web管理服务器－AzkabanWebServer...

2019-12-03 13:20:51 266

原创 Word 转换为 Markdown

Word 转换为 Markdown方法一：Writage + Pandoc – 双剑合璧！1.下载并安装 Writage，下载地址：http://www.writage.com/打开 Writage网页，点击Download，再点击Download Now完成下载运行安装程序，一般按照默认选项安装重启电脑，新建或打开任一 Word 文档，在文件菜单栏下选另存为，查看【保存...

2019-12-03 10:38:10 395

原创大数据学习-Hadoop生态章---(三)MapReduce

大数据学习-Hadoop生态章(三) MapReduce3.1.MapReduce是什么？MapReduce是一种分布式的离线计算框架，是一种编程模型，用于大规模数据集(大于1TB)的并行运算。将自己的程序运行在分布式系统上。概念是：&quot;Map(映射)“和&quot;Reduce(归约)”。指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保...

2019-01-13 18:16:43 189

原创大数据学习-Hadoop生态章---(二) HA高可用

大数据学习-Hadoop生态章(二) HA高可用2.1. Hadoop 2.0产生背景Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题。HDFS存在的问题（如下图）：NameNode单点故障，难以应用于在线场景NameNode压力过大，且内存受限，影响系统扩展性MapReduce存在的问题JobTracker访问压力大，影响系统扩展...

2019-01-13 18:14:19 199

原创大数据学习-Zookeeper

大数据学习-Zookeeper(一) ZookeeperZooKeeper是一个分布式的，开源的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。大部分应用需要开发私有的一个主控、协调器或控制器的协调程序来管理物理分布的子进程（如资源、任务分配等）。而协调程序的反复编写浪费，且难以形成通用、伸缩性好的协调器,所以zookeeper应用...

2019-01-13 18:10:36 173 1

原创大数据学习-Hadoop生态章---协同过滤算法

协同过滤算法参考：https://www.cnblogs.com/one--way/p/5648165.html(一)基于物品的协同过滤基于物品的协同过滤算法ItemCF基于item的协同过滤，通过用户对不同item的评分来评测item之间的相似性，基于item之间的相似性做出推荐。简单来讲就是：给用户推荐和他之前喜欢的物品相似的物品。用例说明：注：基于物品的协同过滤算法，是目...

2019-01-08 20:15:54 272

原创大数据学习-Hadoop生态章---TF-IDF及其算法

TF-IDF及其算法概念:TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引...

2019-01-08 14:00:29 263

原创大数据学习-Hadoop生态章---(一)HDFS

大数据学习-Hadoop生态章(一) Hadoop分布式简介Hadoop是分布式的系统架构，是Apache基金会顶级金牌项目。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。Hadoop的思想之源：来自于Google 03年发布3大论文， GFS、mapreduce、 Bigtable ；Dougcutting用J...

2019-01-07 22:33:43 308

原创大数据学习-Hadoop生态章---HDFS完全分布式(1.X版本)搭建及eclipse插件集成

完全分布式搭建(1.x版)一.环境的准备（详情参考Linux章）Linux 环境JDK准备至少3台机器（通过克隆虚拟机；配置好网络JDK 时间 hosts，保证节点间能互ping通）时间同步 (ntpdate time.nist.gov)ssh免秘钥登录 (两两互通免秘钥)二.完全分布式搭建下载解压缩Hadoop配置etc/hadoop/hadoop-en...

2019-01-07 22:32:23 176

原创大数据学习-Nginx章

大数据学习-Nginx章(一) 产生背景我们在日常生活中会遇见的一些问题：如：大学选课、12306网站、京东、淘宝，大量用户进行访问操作时，出现的故障。主要2大原因:巨大流量—海量的并发访问单台服务器资源和能力有限在海量并发的环境下，用户每一次请求服务器，都需要大量的创建线程，每一次的线程都必须分配资源（CPU、内存、带宽、磁盘IO等），当资源不足的时候就会使得服务器宕机而无法...

2019-01-02 22:36:37 271

原创大数据学习-linux章---(六) 网络指令

大数据学习-linux章(六) 网络指令1. 查看网络配置信息命令:ifconfig箭头1指的是本机IP，箭头2为广播地址，箭头3位子网掩码2.测试与目标主机的连通性命令：ping remote_ip图代表测试本机和remote_ip主机的网络情况，箭头1表示一共接收到了3个包，箭头2表示丢包率为0，表示两者之间的网络顺畅。注意：linux系统的ping命令会一直发送数据...

2019-01-01 17:17:08 1086 2

原创大数据学习-linux章---(五) 磁盘指令

weqwe

2019-01-01 16:03:02 598

原创大数据学习-linux章---(四) 文件传输

大数据学习-linux章(四)文件传输

2018-12-29 17:24:45 177

原创大数据学习-linux章---虚拟机克隆及相关配置

虚拟机克隆及相关配置1.克隆2.相关配置2.1.修改ip设置vi /etc/sysconfig/network-scripts/ifcfg-eth02.2.修改hostname设置vi /etc/sysconfig/network2.3.重启虚拟机...

2018-12-29 09:51:08 576

原创大数据学习-linux章---(三) 文件系统

大数据学习-linux章(三)文件系统Linux目录结构bin 存放二进制可执行文件(ls,cat,mkdir等) boot 存放用于系统引导时使用的各种文件dev 用于存放设备文件etc 存放系统配置文件home 存放所有用户文件的根目录lib 存放跟文...

2018-12-28 20:17:00 144

原创大数据学习-linux章---(二) 环境准备

大数据学习-linux章#(二) 环境准备2.1. Vmware2.1.1 Vmware简介大多数服务器的容量（CPU,内存，磁盘等）利用率不足 30%，这不仅导致了资源浪费，也加大了服务器的数量。实现服务器虚拟化后，多个操作系统可以作为虚拟机在单台物理服务器上运行，并且每个操作系统都可以访问底层服务器的计算资源，从而解决效率低下问题。Vmware虚拟机化技术由此诞生，它可以将一台服务...

2018-12-28 17:52:13 215

原创大数据学习-linux章---安装CentOS 6

安装CentOS 61.新建虚拟机2. 配置虚拟机3. 注意

2018-12-28 13:43:34 329

原创大数据学习-linux章--- (一) linux概述

大数据学习-linux章(一) linux概述1.1. 简介Linux是一个自由的，免费的，源码开放的操作系统。也是开源软件中最著名的例子。其最主要的目的就是为了建立不受任何商品化软件版权制约的，全世界都能使用的类Unix兼容产品.而我们将服务器部署在Linux将会更加的稳定、安全、高效以及出色的性能这时windows无法比的。1.2.Linux作者林纳斯·本纳第克特·托瓦兹（Lin...

2018-12-27 20:45:05 273 1

原创大O表示法

大O表示法是什么？用另一个（通常更简单的）函数来描述一个函数数量级的渐近上界。大O表示法：称一个函数g(n)是O(f(n))，当且仅当存在常数c>0和n0>=1对一切n>n0均有|g(n)|<=c|f(n)|成立，也称函数g(n)以f(n)为界或者称g(n)受限于f(n)。记作g(n)=O(f(n))。定义：如果一个问题的规模是n，解这一问题的某一算法所需要...

2018-10-18 21:33:40 441

原创尾递归

一、递归程序调用自身的编程技巧称为递归。由递归原理可知：不停调用自身，直到达到条件结束递归。这个过程在内存中就是开始不停的压栈，到结束不停弹栈。这需要占用相当大时间和空间消耗。二、尾递归如果一个函数中所有递归形式的调用都出现在函数的末尾，我们称这个递归函数是尾递归的。当递归调用是整个函数体中最后执行的语句且它的返回值不属于表达式的一部分时，这个递归调用就是尾递归...

2018-10-18 21:31:24 394

fg19941101的博客