MeKa-CSDN博客

原创 HBase架构简谈

作者的思考，建议结合《HBase权威指南》第8章一起看。。。1.HBase是如何保证快速读取以支持实时数据开发的（相比Hive和hadoop的批处理）?HBase在HDFS上磁盘数据结构为LSM（可以看成B树），按RowKey有序，复杂度为log(n)（当然与树节点元素数量有关）：可以理解为对RowKey进行查询比传统数据库还快（如果没有对索引字段where查询）。关联知识：数据库原理索引：数据磁盘寻道、B树索引结构HBase的Region：HBase的一张表可以分成多个Region，.

2020-12-01 17:45:12 152

原创大数据平台构建数据仓库步骤

数据仓库生命周期：1.DW/BI项目规划2.获取业务需求：开发的优先顺序3.开发技术架构和产品选择4.物理设计方面的考虑5.BI应用设计与开发活动6.部署和维护维度建模过程：1.确定参与人，特别是业务代表2.业务需求评审：将业务需求转换为灵活的维度模型3.建立命名规则开发详细的维度模型：1.确定维度及其属性2.确定事实3.建立详细的表设计文档Hive构建数据仓库...

2020-12-21 15:28:46 515

原创 Kafka的生产者和消费者

1.生产者：通过API将数据发送到broker（先发送到对应的批次分区，再发送到broker），可通过合理的配置达到对应的开发需求（比如：保证数据发送成功、需要发送大量的数据仅记录错误）。2.消费者：每个消费者组分享同一个话题，每个消费者消费0到多个分区（消费者和分区不可多对一，大于分区数量的消费者无法消费数据），分区和正在处理数据的消费者数量变化会触发再均衡（消费者会挂掉，或创建新的分区，把相应的分区分配给其它消费者）；分区需要记录消费数据的偏移量，避免重复处理数据，有多种方式提交偏移量。...

2020-12-21 14:18:46 537

原创 hive实现update和delete

设置配置：set hive.support.concurrency=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;set hive.compactor.initiator.on=true;set hive.compactor.worker.threads=1;修改表存储格式(store)为orc,

2020-11-17 16:27:26 407

原创 elasticsearch7.x安装问题

1.jdk需要11，系统版本为8：elasticserch自带jdk，在文件目录下，向bin/elasticserch加入一行：export JAVA_HOME=/usr/local/hadoop/elasticsearch-7.9.1/jdk/2.不能用root用户执行elasticserch：创建用户elasticsearchadduser elasticsearchpasswdelasticsearchchown -R elasticsearch elasticsea..

2020-09-14 14:01:29 123

原创 shell 算术，{if,elif,else}判断语句，布尔运算符，字符串比较，文件判断命令

shell基础算术： a=20 b=10 加： echo `expr $a 空格+空格（下同） $b ` 输出：30 减： echo `expr $a - $b ` 输出：10 乘： echo `expr $a空格\*空格$b ` 输出：200 除： echo `expr $a / $b ` 输出：2 取余： echo...

2020-08-10 10:48:20 5650

原创 superset地图汉化不显示中文问题

浏览器之前加载过地图界面，后面即使改过geojson地图名，因为浏览器已经加载过，所以不会重复加载页面，不会显示修改后的页面。解决：清除浏览器缓存，如用腾讯电脑管家或360杀毒软件做电脑清理。...

2020-07-02 15:38:51 734

原创 cdh安装踩坑

agent安装失败：报yum源的问题，清除yum源缓存重新更新。agent收不到反馈，看/var/log/cloudera-scm-agent日志出现下面错误：MainThread downloader ERROR Failed rack peer update: [Errno 111] Connection refused这个问题最后发现是/etc/hosts主机映射，把127.0.0.1 ......和0:::等删掉，只留192.168.216.113 hadoop等自己的。...

2020-06-16 12:07:29 1435 3

原创关于ssh免登录遇到的问题

只有两台机器互有对方公钥才可以连接，单方面有对方公钥而对方没有你的公钥，连接会失败，提示输入密码。

2020-02-21 15:33:33 216

原创 Scala编程(第20章：抽象成员)

抽象成员概述、类型成员、抽象的val、抽象的var、初始化抽象的val、抽象类型、枚举

2019-09-09 17:50:42 141

原创 Scala编程(第19章：类型参数化)

函数式队列、型变注解、检查型变注解、下界、逆变、上界

2019-09-08 11:55:32 194

原创 Scala编程(第21章：隐式转换和隐式参数)

隐式转换、隐式规则、转换接收端、隐式参数

2019-09-03 21:47:21 107

原创 Stage的创建

1.简介：任务提交调用：private def doOnReceive(event: DAGSchedulerEvent): Unit = event match { case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties) => dagScheduler.hand...

2019-09-01 20:14:50 272

原创 Spark任务提交

1.简介：当DAG创建好后就开始提交任务：println(rdd3.collect().toList)2.runJob：点进collect后一直跟着runJob前进，点进submitJob:eventProcessLoop.post(JobSubmitted( jobId, rdd, func2, partitions.toArray, callSite, waiter,...

2019-08-31 20:59:20 115

原创 DAG的创建

从最简单的WordCount开始：def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("WordCount").setMaster("local") val sc = new SparkContext(conf) val rdd1 = sc.textFile("C...

2019-08-30 17:08:07 267

原创 SparkEnv中RpcEnv的创建

1.描述：RpcEnv可以简单的描述为远程通信环境，在SparkContext创建SparkEnv过程中创建并传入多个部件中。部分不详细的地方可以参考：https://blog.csdn.net/qq_38601362/article/details/1000070902.SparkEnv.scala文件：源码第249行：val rpcEnv = RpcEnv.create(sys...

2019-08-24 17:12:26 168

原创 SparkEnv

1.简介：保存正在运行的Spark实例（主服务器或工作服务器）的所有运行时环境对象，包括序列化程序，RpcEnv，块管理器，映射输出跟踪器等。目前Spark代码通过全局变量查找SparkEnv，因此所有线程都可以访问相同的SparkEnv。它可以通过SparkEnv.get访问（例如在创建SparkContext之后）。2.构造方法：class SparkEnv ( val ...

2019-08-22 21:04:32 99

原创 SparkContext创建SparkEnv过程描述

1.简介：SparkContext是Spark的驱动器，SparkEnv是Spark的环境，这是创建驱动器环境的过程(其它的还有执行器环境)，说的是创建驱动器环境的关键方法。2.相关方法：SparkContext.scala文件：创建的开始：//在SparkContext初始化中，源码第434行。调用createSparkEnv方法创建//_conf:配置，isLocal...

2019-08-22 16:44:08 320

原创 SparkContext

1.简介：SparkContext是Spark的驱动器，她的初始化中包含任务调度器、资源管理器、事件管理器和状态跟踪器等。2.构造方法：主构造方法：//传入配置参数SparkConfclass SparkContext(config: SparkConf) extends Logging 辅助构造方法：def this() = this(new SparkConf(...

2019-08-21 19:22:35 1500

原创 SparkConf

1.简介：SparkConf是Spark的配置管理器，是Spark 的开始--驱动器SparkContext的构造器重要的传参（虽然可以不传），意在更好地设置自己所需要的配置。2.构造方法：主构造方法：//loadDefaults是否加载默认值class SparkConf(loadDefaults: Boolean) extends Cloneable with Loggi...

2019-08-21 08:46:23 356

原创配置Spark-sql踩的关于配置的坑

网上有配置说在spark-env.sh里配置这个：SPARK_CONF_DIR 把这个指向hadoop配置文件这个是什么呢?修改Spark的配置文件位置。这时候你就会发现一个问题，在spark/conf目录下无论怎么修改配置，就是没反应。请看第一行配置，你自己说看配置请去hadoop目录。。。...

2019-08-11 15:18:18 218

原创 Scala编程(第17章：使用其他集合类)

序列、集和映射、元组

2019-08-07 20:42:14 178

原创 Scala编程(第16章：使用列表)

列表模式、List类的初阶方法、List类的高阶方法、List对象方法、同时处理多个列表

2019-08-04 14:39:34 353

翻译 Scala编程(第15章：样例类和模式匹配)

1.一个简单的例子：假定你需要编写一个操作算术表达式。样例类：abstract class Exprcase class Var(name:String) extends Exprcase class Number(num:Double) extends Exprcase class UnOp(operator:String,arg:Expr) extends Exprcase ...

2019-07-31 17:03:38 174

翻译 Scala编程(第13章：包和引入)

将代码放进包中、对相关代码的精简访问、引入、隐式引入、访问修饰符、包对象

2019-07-27 22:34:11 168

原创 Scala编程(第12章：特质)

特质如何工作、矩形对象、Ordered特质、作为可叠加修改的特质

2019-07-27 08:36:34 168

原创 Scala编程(第11章：Scala的继承关系)

Scala的类继承关系、基本类型的实现机制、底类型、定义自己的值类

2019-07-24 19:57:03 372

翻译 Scala编程(第十章：组合和继承)

抽象类、定义无参方法、扩展类、override重写方法和字段、定义参数化字段、调用超类构造方法、多态和绑定、声明final成员、定义工厂对象

2019-07-24 08:33:42 186

原创 Scala编程(第九章：控制抽象)

传名参数和柯里化

2019-07-21 22:16:31 112

原创 Scala编程(第八章：函数和闭包)

占位符语法、闭包、特殊的函数调用形式、尾递归

2019-07-19 21:39:05 126

原创 Scala编程(第七章：内建的控制结构)

if、while、for、try等

2019-07-17 17:34:51 132

原创 Scala编程(第六章：函数式对象)

前置条件、自引用、辅助构造方法、定义操作符、隐式转换

2019-07-12 20:58:24 195

原创 Scala编程(第五章：基础类型和操作)

字面量、字符串插值、操作符即方法、算术操作、关系和逻辑操作、位运算操作、对象相等性、操作符优先级和结合性

2019-07-11 16:31:25 165

原创 Scala编程(第四章：类和对象)

分号推断、单例对象

2019-07-08 19:44:49 131

原创 Python操作Spark Mllib函数

文章是对函数的简单理解和应用，需要理解更深层次的可能要失望了。如对代码有什么疑问，下载有决策树示例代码。推荐算法(矩阵因式分解)和决策树多元分类没有很好的测试数据，暂告段落。不说废话，直接正题相关函数包名：import pysparkfrom time import timeimport numpy as npfrom pyspark.mllib.regression ...

2019-06-29 10:34:16 2151

原创 pyspark使用anaconda3报：error=13, Permission denied问题

网上找了很久，都没有解决。如果找不到，那就自己来吧。小红母鸡说。百度上各种花里胡哨的操作，解决办法:在/etc/profile或者$SPARK_HOME/conf/spark-env中export个环境，PYSPARK_PYTHON=/root/anaconda3/bin/python3.7去看安装anaconda3的文件，环境设置具体到哪一个能用的版本，就解决了。...

2019-06-22 19:32:35 3246

原创 hive3.0.0操作集锦(下)

4.查询 (1)select...from语句select name,salary,subordinates[0],deductions['State Taxes'],address.state,salary*(1-deductions['Federal Taxes'])from employee; 使用函数：https://www.cnblogs.com/MOBIN/p...

2019-05-12 17:03:54 588

原创 hive3.0.0操作集锦(上)

建议配合官方文档学习。官方文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual作者大纲是<<hive编程指南>>，这本书有点老，很多最新的更新都没有[笑哭]，不过这些都经过测试，写出来的都能用。注：易于操作的命令：可以在$HIVE_HOME/conf目录下创建.hiverc文件，...

2019-04-16 15:13:57 855

原创 HBase shell基础命令

官方文档：http://hbase.apache.org/hbase shell建表：create 表名，列组名（family）,列组名。。。。。增： put 表名，行名，列组名：列名，值删：deleteall 表名，行名 delete 表名，行名，列组名：列名查：scan表名，其它如{VERSIONS=>3}改：用put可以覆盖查看表属性：de...

2019-04-03 15:22:12 157

原创 python语言spark弹性分布式数据集-RDD（Spark快速大数据分析）（下）

（4）二元组操作（key-value键值对操作）开始：创建PairRDD。就是(key,value)这样的二元组。（以键值对集合[(1,2),(3,4),(3,6)]为例）reduceByKey()：合并具有相同键的值。传入一个有两个形参的函数，处理过程：进入一条数据，根据key值hash()到一个分区内，分区内如果有其它或之前合并后的元素，调用函数处理两个元素的value值（两个形...

2019-03-12 18:07:57 595 1