forever428-CSDN博客

转载 Hadoop的元数据治理--Apache Atlas

Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。Apache Atlas目前是Apache下的孵化项目，最新版本为Apache Atlas 0.8:概述面对海量且持续增加的各式各样的数据对象，你是否有信心知道哪些数据从哪里来以及它...

2019-09-27 13:18:25 785

转载分布式机器学习之——Spark MLlib并行训练原理

1.Spark的分布式计算如何实现？2.Spark MLlib如何并行训练？3.Spark MLlib并行训练的局限性有哪些？这里是王喆的机器学习笔记的第二十五篇文章。接下来的几篇文章希望与大家一同讨论一下机器学习模型的分布式训练的问题。这个问题在推荐、广告、搜索领域尤为突出，因为在互联网场景下，动辄TB甚至PB级的数据量，几乎不可能利用单点完成机器学习模型的训练，分布式机器学习训练成...

2019-09-24 08:58:15 1773

转载快手 HBase 在千亿级用户特征数据分析中的应用与实践

1.快手千亿级日志面临着哪些挑战？2.技术选型和解决方案有哪些？3.最终的业务效果是什么样的？4.针对目前面临的业务场景未来的规划是怎样的?快手建设 HBase 差不多有2年时间，在公司里面有比较丰富的应用场景：如短视频的存储、IM、直播里评论 feed 流等场景。本次只分享其中的一个应用场景：快手 HBase 在千亿级用户特征数据分析中的应用与实践。为什么分享这个 Topic？主要原因...

2019-09-23 16:01:24 769 1

转载 OPPO数据中台之基石：基于Flink SQL构建实数据仓库

文章目录问题导读：一.OPPO 实时数仓的演进思路1.1.OPPO 业务与数据规模1.2.OPPO 数据中台1.3. 构建 OPPO 离线数仓1.4. 数仓实时化的诉求1.5. 离线到实时的平滑迁移1.6. 构建 OPPO 实时数仓二. 基于 Flink SQL 的扩展工作2.1.Why Flink SQL2.2. 基于 WEB 的开发 IDE2.3.AthenaX：基于 REST 的 SQL 管...

2019-09-20 09:28:59 230

原创 spark14--游戏项目,面试中的集群问题

一项目1.1 面试中需要掌握的项目流程项目描述项目实现后能够分析出来的维度, 能够让决策者有哪方面的把控技术架构. 该项目中用到的技术, 从以下几个方面进行描述数据的生成数据的采集数据的清洗源数据的存储需求分析结果的存储需求的理解和实现思路项目中分析的维度. 例如有用户维度, 地域维度, 浏览器维度等负责过哪些需求. 参与过哪些工作(包括实现需求...

2019-01-20 14:46:17 1011

原创 spark13--logstash安装与操作, 数据采集流程, 项目流程

一 logstash1.1 flume和logstash的区别logstashflume输入源inputsource中间处理filterchannel输出源outputsinklogstash优点: 轻量级, 配置以及安装简单, 可以和es无缝结合, 有断电续传的功能, filter可以直接对数据进行清洗, 将不需要的数据过滤掉减少网络之间的...

2019-01-20 14:45:26 361

原创 spark12--ElasticSearch安装, 插件, curl操作, Java操作

es提供了两种api, restful接口风格的api和java api

2019-01-20 14:44:42 322

原创 spark11--redis介绍,安装,集群搭建,命令操作

redis 介绍什么是NoSql为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案，就是NoSql数据库。NoSQL，泛指非关系型的数据库，NoSQL即Not-Only SQL，它可以作为关系型数据库的良好补充。但是它不能替代关系型数据库，而且它是存储在内存中，所以它的访问速度很快。Nosql的数据库分类键值(Key-Value)存储数据库相关产品： Tokyo...

2019-01-19 21:11:18 1348

原创 spark10--资源调度模式, yarn的任务调度流程

资源调度模式Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud.local 模式(本地模式)standalone 模式spark-on-yarn 模式mesos模式deckercloud…用哪种资源调度模式比较好?需要通过公司需求和运行速度来综合衡量哪种资源调度模...

2019-01-19 21:10:34 653

原创 spark09--Streaming对接kafka,Transformations和outputOperations,Receiver和Direct,Direct存储offset

文章目录使用Streaming对接kafkaDStream相关操作Transformations on DStreams特殊的特殊的Transformations实现历史批次累使用transform实现Wordcount窗口操作.Output Operations on DStreams使用Streaming对接kafkaimport org.apache.spark.{HashPartiti...

2019-01-10 19:31:51 421

原创 spark08--kafka组件,面试题,常用命令,可视化,api,Streaming简介,DStream,nc服务,Streaming实现Wordcount

kafka重要组件1. producer:生产者负责将数据传入kafka, 比如flume, java后台服务, logstash生产者可以有多个, 并且可以同时往一个topic中写数据, 也可以同时往同一个partition中写数据每一个生产者都是一个独立的进程, 而且单个生产者就具有分发数据的能力一个生产者可以同时往多个topic中分发数据2. kafka cluster:...

2019-01-09 19:09:21 479

原创 spark07--typed练习, 自定义udf,udaf,udaf实现Wordcount,kafka基本概念和集群部署

数据准备employee.json{&amp;quot;name&amp;quot;: &amp;quot;Leo&amp;quot;, &amp;quot;age&amp;quot;: 25, &amp;quot;depId&amp;quot;: 1, &amp;quot;gender&amp;quot;: &amp;quot;

2019-01-08 21:53:28 282

原创 spark06--累加器,spark2.0变化,sparkSQL,spark_on_hive,DSL和SQL

数值累加Accumulatorimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/* * @Description: 用foreach或map无法实现对Driver端的某个变量做分布式累加的过程 * ClassName AccumulatorDemo1 * @Au...

2019-01-07 19:32:33 522 1

原创 spark05--shuffle过程,算子,调优,checkpoint,spark任务管理器,JDBCRDD,自定义排序

shuffle发生shuffle的算子shuffle调优设置参数两种方式写到spark-env.sh中在程序中使用set设置属性名称默认值属性说明spark.reducer.maxSizeInFlight48mreduce task的buffer缓冲，代表了每个reduce task每次能够拉取的map side数据最大大小，如果内存充足，可以考虑加大，从...

2019-01-05 20:36:03 553

原创 spark04--算子总结,RDD类型,宽窄依赖,学科访问量统计,缓存,自定义分区,DAG,stage,执行任务时对象创建和序列化

文章目录算子总结map和mapPartitions的区别map和foreach的区别:foreach和foreachPartition的区别:RDD类型RDD依赖关系窄依赖宽依赖join有时宽依赖有时窄依赖算子总结map和mapPartitions的区别map是处理RDD里的每个元素, mapPartitions是用于处理RDD里的每个分区map和foreach的区别:map有返回值,...

2019-01-04 17:58:19 531

原创 spark03--textFile分区算法,常用算子使用,启动,任务提交流程, 基站案例

文章目录一 textFile分区算法二常用算子使用2.1 map mapPartitions2.2 mapPartitionsWithIndex2.3 aggregate2.4 aggregateByKey2.5 combineByKey2.6 countByKey** 和**countByValue2.7 filterByRange2.8 flatMapValues2.9 foldByKey2...

2019-01-03 20:26:10 846

原创 spark02--RDD概念,属性,类型,32个常用算子,创建,reduceByKey和groupByKey的区别

Java版本的Wordcountpackage Day01;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkCo...

2019-01-02 19:06:01 532

原创 spark01--spark环境搭建,程序执行,spark-shell,Wordcount

Spark的运行模式Local本地模式用于测试环境, 在eclipse或IDEA中Standalone是spark自带的一个调度系统,它支持完全分布式YARN 将spark使用YARN的资源调度来进行执行Mesos 也是一种资源调度, 用的人较少spark2.2.0 伪分布式搭建基本设置:时间同步, 免密登录, 安装JDK1.8上传spark2.2.0 的压缩包到指定的集...

2018-12-30 22:44:48 503

原创 scala05--泛型,AKKA通信模拟

泛型scala中的泛型可以作用在类, 方法, 函数中, 泛型本身占位符是没有任何意义的. 例如: scala中的泛型[T], 本身没有任何意义, 只有当传入参数的时候, 当前的占位符才会有真正的意义, T可以当做Any, 什么都可以接受在指定泛型的时候可以对泛型进行范围界定, 而不是让其随意传入一个类型, 而是传入指定类型, 这种方式就是scala中的[界定] (边界)Java中对泛型进行...

2018-12-30 21:19:29 243

原创 scala04--Actor,高阶函数,闭包,柯里化,隐式转换,Option

Option类型Option类型用来表示可能有值, 也可能没有值, 有两个子类None—&amp;amp;gt;无值Some—&amp;amp;gt;有值class OptionDemo { def main(args: Array[String]): Unit = { //option中的参数相当于是一个元组, val op: Option[(String, Int, Boolean)] = ...

2018-12-27 19:51:00 256

原创 scala03--Lazy,并行,类,伴生,特质,抽象,修饰,匹配,样例

Lazy关键字添加到变量之前, 做到延迟加载, 只有调用的时候才会执行计算类似于单例中的懒汉模式–&gt; 不调用方法之前对象是不存在的构造方法私有化创建一个静态私有变量数据类型是当前类的数据类型且不进行初始化提供一个公有静态的获取当前对象的方法进行判断, 若当前对象没有被创建, 创建对象, 否则返回object LazyDemo extends App { def init...

2018-12-26 16:52:11 265

原创 scala02--方法,函数,集合,数组,元组,列表,映射,Iterable

文章目录一方法和函数方法的定义函数的定义匿名函数的定义和使用高阶函数的定义和使用函数作为参数函数作为返回值二数组定长数组定长数组的定义定长数组的操作变长数组变长数组的定义变长数组的操作遍历数组数组转换数组常用算法三映射map构造值可变映射获取和修改映射中的值构建值不可变映射对比可变Map与不可变Map操作迭代映射数据四元组Tuple创建元组创建访问元组元组遍历操作五列表List不可变Li...

2018-12-25 20:18:05 327

原创 scala01--scala简介,安装,数据类型,运算符,控制流

文章目录一了解ScalaScala特点二什么是Scala?编程范式函数式编程特点三 Scala三大目标目标1：熟练的使用scala编写spark程序目标2：动手编写一个简易spark通信框架目标3: 可以阅读spark原码四 Scala安装Windows安装Linux安装五 scala中的解释器六编写第一个scala程序七 IDEA的配置安装scala插件创建scala项目八 scala基础...

2018-12-24 20:25:04 266

原创 hadoop19--hbase与mapreduce集成,rowkey热点,TSV,CSV

文章目录hbase与Mapreduce集成整合在hadoop中运行jar包小案例hbase import TSVhbase import CSVrowkey的热点与表的设计原则热点原理rowkey长度限制rowkey的设计原则hbase与Mapreduce集成整合在公司的实际开发中, 在多数情况下, 都是Mapreduce与Hbase联合使用, 在Hbase中对于Hbase来说, 就是读和写的...

2018-11-18 20:12:31 307

原创 hadoop18--JavaAPI, 读写流程, 物理模型

文章目录hbase的物理模型hbase中存在系统管理表hbase的读取流程hbase的写入流程hbase的Java APIhbase的物理模型hbase的物理模型, 就是说在hbase中数据是如何存储的, 以及存储的位置和原理在hbase中最小的存储单元是cell(单元格): rowkey + 列簇 + 时间戳 + value, 可以唯一确定一个单元格的值在hbase物理模型中, rowk...

2018-11-15 22:13:33 548

原创 maven的使用

下载以及基本配置下载maven加压文件到磁盘中, 最好是根目录下进入到conf目录下, 编辑settings.xml文件把这句话放在注释外面，并把中间的值改为&gt;D:\MAVEN\repository注意：repository可以是随便的文件夹这个是本地仓库这个添加的是中心仓库，修不修改都可以，但是修改到阿里的中心仓库下载会快一点这个是修改默认的jdk1.8，因为Ma...

2018-11-15 20:56:20 418

原创从零搭建hadoop高可用集群，hbase

文章目录一，集群规划二，虚拟机的配置1. 修改主机名临时修改永久修改2. hosts文件3. 网络配置4. 防火墙关闭防火墙【三台pc】关闭防火墙开机自启【三台pc】5. 设置SSH免密登陆安装ssh【三台pc】设置免密登陆【三台pc】6. 时间同步安装服务器【pc01】配置时间同步服务器【pc01】启动时间服务器安装客户端【pc02，pc03】同步时间三，安装配置JDK1.解压JDK安装包【三台...

2018-11-14 22:12:54 6296 9

原创 hadoop17--HBASE

文章目录HBASE的基本概念hive和HBASE区别HBASE与HDFS的区别HBASE与关系型数据库的区别HBASE的来源bigtable背景非关系型数据库关系型数据库HBASE解决的问题与诞生背景HBASE的特点HBASE的存储HBSE架构HBASE的安装HBASE完全分布式安装.启动HBASEHBASE的基本使用(shell操作)HBASE---DDLnamesacpe 的操作table的操...

2018-11-14 18:32:11 706

原创 hadoop16--sqoop

大数据协作框架在hadoop生态领域中, 协作框架主要分为以下四种:sqoop: 关系型数据库导入, 导出到HDFS, HIVE, HBASEflume: 日志收集框架, 主要收集日志服务器上产生的文件oozie: 任务调度框架, 在YARN上提交的任务有很多, 每个任务什么时候运行, 该如何运行, 都是需要调度的hue: 可视化工具sqoop 框架功能与版本介绍sqoop功能...

2018-11-13 18:36:02 283

原创 hadoop15--MR调优, 虚拟列, mysql

文章目录表的优化数据倾斜合理设置map数量可以影响map的数量的因素合理设置reduce数量并行执行严格模式JVM重用推测执行map端reduce端执行计划---查看SQL语句的执行过程虚拟列安装配置mysqlmysql的安装步骤设置密码,远程授权设置密码设置远程授权配置hive元数据保存在mysqlhiveserver21. beeline方式的连接2. jdbc的方式连接表的优化在表的优...

2018-11-12 17:19:32 210

原创 hadoop14--hive函数, 压缩, 调优, 日志分析

文章目录函数查看系统自带的函数自定义函数创建自定义函数的步骤压缩和存储格式压缩开启map端输出压缩配置开启reduce端的输出压缩文件的存储格式列式存储和行式存储安装snappy压缩支持调优fetch 抓取本地模式日志分析函数在hive中存在系统自带的函数, 如果说自带的函数不能满足开发需求的时候, 就必须编写自定义函数查看系统自带的函数ow functions=============...

2018-11-10 16:49:59 332

原创 hadoop13--hive导入导出, 基本查询,分组, 排序

数据导入Load 加载数据load data local inpath '/data/dept.txt' into table dept_partion;对于以上的加载数据的语法，可以从本地加载数据，也可以从HDFS加载数据。Local ：代表从本地加载数据HDFS: 把local 去掉代表从HDFS上加载数据把准备上传的数据，上传到HDFS 目录中 dfs -put /...

2018-11-09 20:50:12 311

原创 hadoop12--hive的概念, 配置,基本操作

文章目录hivehive的基本概念hive的基本操作数据库的操作数据表的操作管理表与外部表的区别hive常用交互命令hive常见属性配置创建自定义配置文件的步骤配置查询信息的显示（头信息）配置hive的日志信息参数的配置方式hive数据类型DDL数据定义1. 创建数据库,创建的数据库存储在 HDFS 上的默认路径是/user/hive/warehouse/*.db2. 删除数据库以下官网提供...

2018-11-08 17:58:57 503

原创 hadoop11--resourcemanager的HA配置以及hive的基本概念和操作

文章目录hadoop概述ResourceManager HA一、集群规划(3台)二、修改配置文件=====yarn-site.xml三、分发配置文件四、启动ResourceManagere五、查看状态及测试HiveHive是什么?hive的安装部署数据库操作一基本操作二本地数据导入到hive三删除数据库四删除表hadoop概述HDFS 分布式文件系统用于存储数据MapRed...

2018-11-07 19:11:50 555

原创 hadoop10--zookeeper安装和配置,job提交流程及优化

文章目录job在YARN上的提交流程优化推测执行mapreduce执行的慢的原因zookeeperzookeeper的安装与下载单机版安装配置文件的含义节点类型分布式安装一. HA集群规划(3台)二 . 环境准备三. 安装部署job在YARN上的提交流程（0）Mr 程序提交到客户端所在的节点。（1）Yarnrunner 向 Resourcemanager 申请一个 Application。...

2018-11-06 21:01:10 241

原创 hadoop09--map端及reduce端的join, 数据压缩

文章目录map端join算法实现原理阐述实现示例总结适用场景实现方式：代码实现缓存小表主函数Driverreduce端join实现实现自定义数据类型map端reduce端主函数Driver数据压缩作用常用的压缩的方式Snappy 特点使用压缩的情况使用阶段1.输入阶段2.map输出阶段3.reduce输出阶段map端join算法实现原理阐述适用于关联表中有小表的情形:可以将小表分发到所有的...

2018-11-06 19:57:18 188

原创 hadoop08--自定义inputFormat以及outputFormat

文章目录自定义inputFormat需求分析实现自定义InputFromat自定义RecordReadermap端reduce端主函数Driver自定义outputFormat需求分析实现自定义outputFormat自定义RecordWritermap端reduce端主函数Driver自定义inputFormat需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面...

2018-11-06 19:30:56 205

原创深入理解MapReduce

shuffle和排序MapReduce确保每个reducer的输入都是按键排序的. 系统执行排序, 将map输出作为输入给reducer的过程称为shuffle. 学习shuffle 是如何工作的, 有助于理解工作机制, shuffle属于不断被优化和改进代码的一部分map端map函数开始产生输出时, 并不是简单地将它写到磁盘. 这个过程相对比较复杂, 它利用缓冲的方式写到内存并处于效...

2018-11-01 10:06:16 311

原创 hadoop07--mapreduce工作流程,Combiner, 二次排序

MapReduce工作流程CombinerCombiner对于使用, 严格来说, 最适合的场景就是合并数量Combiner 输出的类型为K,V对. reduce的K,V对类型一致实例: 实现Combiner分析: 要想实现 Combiner 则需要继承一个reducer类, 在dirver 类中设置Combiner类继承Reducer类, 实现重载reduce方法import ...

2018-10-31 21:22:01 183

原创 hadoop06--自定义数据类型,自定义分区,排序

文章目录自定义数据类型(序列化)自定义数据类型自定义数据类型规则实例1使用hadoop提供的数据类型实现如上格式输出自定义数据类型 FlowWritable实现map方法实现reduce方法主函数 DriverMap的分片自定义分区实例2默认分区的源码上一层源码过程分析继承Partitioner类修改主函数Driver排序实例3修改FlowWritable 实现 WritableComparabl...

2018-10-30 18:37:25 298

空空如也

空空如也