- 博客(12)
- 收藏
- 关注
原创 kylin面试
kylin的核心的概念及特点是一个多维分析引擎它的建模思想始终贯穿“维度建模思想:星型思想(雪花模型)”它的查询速度之所以很快因为他是预计算的预计算的引擎:可以是MR,可以是spark,也可以是flink预计算是什么?预计算多维数据立方体cube(类似于hivesql中的whit cube 得到的结果)如果模型的维度高达几十个,则cube的计算量和结果的数据量都会爆表,怎么办:设计好恰当的维度剪枝方案维度剪枝优化方案有哪些?利用衍生纬度(定义为衍生纬度的纬度不参与计算)利用聚合组(大量
2020-11-01 21:29:00 269
原创 azkaban面试
azkaban是什么?azkaban是一个任务调度系统,可以调度、启动、监视各类数据运算任务,(spark任务,hive任务,MR任务,等其他一切可以由脚本执行的任务)azkaban怎样使用?准备好运算任务所需要的资源(jar包,shell文件),然后编写job配置文件,最后把所有的打成zip压缩包,上传到azkaban的控制台,并配置调度任务。azkaban遇到任务失败的策略?有三种策略finish current running :只运行完正在运行的job,并不会启动新的jobcancel
2020-11-01 21:01:45 430
原创 atlas使用原理面试题
1 atlas的使用包含两方面:注入元数据信息到atlas中(本质上是写入元数据到atlas中)注入方式一:通过atlas为数据系统开发好的hook来注入方式二:通过atlas自带的web-ui来认同填写元数据信息注入方式三:通过调用atlas对外暴露的接口来灵活注入修改atlas的元数据的方式方式一:通过atlas自带的web-ui界面来修改元数据信息方式二:调用atlas接口更加灵活 的修改元数据信息classification类别体系一个数据资产可以被分配到多个classifica
2020-11-01 20:36:52 905
原创 sqoop面试题
1 sqoop 的核心功能导入数据:从mysql,Oracle导入数据到hdfs,hive,hbase等数据存储系统。导出数据:从hadoop的文件系统中导出数据到关系型数据库mysql等,sqoop本质就是一个命令行工具2 sqoop的本质及迁移数据的方式本质:本质就是迁移数据迁移方式:就是把sqoop的迁移命令转换成MR程序,而且没有reduce task任务3 sqoop的工作机制?将导入或导出的吗,命令转换成MR程序来实现,然后翻译出来的MapReduce中主要是对inputfo
2020-11-01 17:46:49 903
原创 kafka 面试题
3. kafka怎么保证exactly one(数据准确唯一)只有ack = -1的时候才能保证exactly one4 kafka 怎样设计partition 的数量具体要看数据的吞吐量来决定,单kafka分区每秒的数据吞吐量为10M/s,假如有20M数据产生,就需要设计2-3个partition,这样才能保证和产生的数据量保持一致、5 kafka的幂等性一个和多次写入的结果是一样的6 kafka牺牲性能来换取稳定性,把数据落地到磁盘当中,每一个topic中的partition中的数据都是
2020-11-01 16:33:49 298
原创 spark算子(五)--action算子
Collectpackage com.doit.spark.demoDay05import org.apache.spark.SparkContext/** * @author 向阳木 * @date 2020/09/22/ 22:19 * @Description: * 将数据以数组形式收集回Driver端,数据按照分区编号有序返回 * 按照分区编号收集到内存中,内存中有一个阈值,达到上限后,便不会收集 */objec
2020-09-23 11:17:47 145
原创 spark算子(四)
cogrouppackage com.doit.spark.demoDay04import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDD/** * @author 向阳木 * @date 2020/09/21/ 20:16 * @Description: * cogroup 协分组 将两个或者多个RDD合并到一起进行分组, * 与group的区别为
2020-09-21 22:54:42 89
原创 scala案例akka-rpc通信
masterpackage com.doit.demo02import akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collection.mutableimport scala.concurrent.duration._/** * @author 向阳木 * @date 2020/09/14/ 17:36 * @Description: *
2020-09-16 22:24:09 104
原创 scala学习笔记(三)面向对象
1.面向对象1.1类和对象的详解1.1.1组成结构构造函数成员变量成员方法(函数)局部变量代码块1.1.2构造器每个类都有一个主构造器,这个构造器和类(class)定义"交织"在一起类名后边的内容就是主构造器.如果参数列表为空,括号(),可以省略.scala的类有且仅有一个主构造器,想要提供更加复杂的构造器,就需要使用辅助构造器this注意:主构造器会执行类中定义的所有的语句例子一 : 无参的主构造器class User { // 类默认有一个无参的主构造函数}val us
2020-09-12 16:23:38 122
原创 scala学习笔记(二):基本语法和流程控制
1.基本语法1.1.数据类型scala的数据类型和java的数据类型最大的区别在于 scala中的数据类型都是对象,scala中没有原生的数据类型scala中的数据类型分为两大类 AnyVal(数值类型)和AnyRef)(引用类型),两种对象都是属于Any,都是对象,因此scala中的数据类型都有各自的方法所有数据类型数据类型树状图Any : 所有的类型的父类,类似于java中的objectAnyVal : 数值类型(简单类型)AnyRef : 引用的数据类型Null : 应用类型的
2020-09-09 23:16:54 145
原创 scala 学习笔记(一):scala的简介和安装
1 scala介绍1.1scala概述scala是一种多范式编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。1.2scala的优点优雅给开发人员良好的编程体验速度快开发的速度快,一行代码可以实现java多行代码实现的功能;并且scala是静态编译的,运行速度也会比JRuby和Groovy快很多.能融合hadoop的生态圈hadoop现在是大数据的事实标准,spark并不是要取代hadoop,而是要
2020-09-06 20:37:52 455
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人