自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 资源 (5)
  • 收藏
  • 关注

原创 HBase架构简谈

作者的思考,建议结合《HBase权威指南》第8章一起看。。。1.HBase是如何保证快速读取以支持实时数据开发的(相比Hive和hadoop的批处理)?HBase在HDFS上磁盘数据结构为LSM(可以看成B树),按RowKey有序,复杂度为log(n)(当然与树节点元素数量有关):可以理解为对RowKey进行查询比传统数据库还快(如果没有对索引字段where查询)。关联知识:数据库原理索引:数据磁盘寻道、B树索引结构HBase的Region:HBase的一张表可以分成多个Region,.

2020-12-01 17:45:12 152

原创 大数据平台构建数据仓库步骤

数据仓库生命周期:1.DW/BI项目规划2.获取业务需求:开发的优先顺序3.开发技术架构和产品选择4.物理设计方面的考虑5.BI应用设计与开发活动6.部署和维护维度建模过程:1.确定参与人,特别是业务代表2.业务需求评审:将业务需求转换为灵活的维度模型3.建立命名规则开发详细的维度模型:1.确定维度及其属性2.确定事实3.建立详细的表设计文档Hive构建数据仓库...

2020-12-21 15:28:46 515

原创 Kafka的生产者和消费者

1.生产者:通过API将数据发送到broker(先发送到对应的批次分区,再发送到broker),可通过合理的配置达到对应的开发需求(比如:保证数据发送成功、需要发送大量的数据仅记录错误)。2.消费者:每个消费者组分享同一个话题,每个消费者消费0到多个分区(消费者和分区不可多对一,大于分区数量的消费者无法消费数据),分区和正在处理数据的消费者数量变化会触发再均衡(消费者会挂掉,或创建新的分区,把相应的分区分配给其它消费者);分区需要记录消费数据的偏移量,避免重复处理数据,有多种方式提交偏移量。...

2020-12-21 14:18:46 537

原创 hive实现update和delete

设置配置:set hive.support.concurrency=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;set hive.compactor.initiator.on=true;set hive.compactor.worker.threads=1;修改表存储格式(store)为orc,

2020-11-17 16:27:26 407

原创 elasticsearch7.x安装问题

1.jdk需要11,系统版本为8:elasticserch自带jdk,在文件目录下,向bin/elasticserch加入一行:export JAVA_HOME=/usr/local/hadoop/elasticsearch-7.9.1/jdk/2.不能用root用户执行elasticserch:创建用户elasticsearchadduser elasticsearchpasswdelasticsearchchown -R elasticsearch elasticsea..

2020-09-14 14:01:29 123

原创 shell 算术,{if,elif,else}判断语句,布尔运算符,字符串比较,文件判断命令

shell基础算术: a=20 b=10 加 : echo `expr $a 空格+空格(下同) $b ` 输出:30 减: echo `expr $a - $b ` 输出:10 乘: echo `expr $a空格\*空格$b ` 输出:200 除: echo `expr $a / $b ` 输出:2 取余: echo...

2020-08-10 10:48:20 5650

原创 superset地图汉化不显示中文问题

浏览器之前加载过地图界面,后面即使改过geojson地图名,因为浏览器已经加载过,所以不会重复加载页面,不会显示修改后的页面。 解决:清除浏览器缓存,如用 腾讯电脑管家或360杀毒软件做电脑清理。...

2020-07-02 15:38:51 734

原创 cdh安装踩坑

agent安装失败:报yum源的问题,清除yum源缓存重新更新。agent收不到反馈,看/var/log/cloudera-scm-agent日志出现下面错误:MainThread downloader ERROR Failed rack peer update: [Errno 111] Connection refused这个问题最后发现是/etc/hosts主机映射,把127.0.0.1 ......和0:::等删掉,只留192.168.216.113 hadoop等自己的。...

2020-06-16 12:07:29 1435 3

原创 关于ssh免登录遇到的问题

只有两台机器互有对方公钥才可以连接,单方面有对方公钥而对方没有你的公钥,连接会失败,提示输入密码。

2020-02-21 15:33:33 216

原创 Scala编程(第20章:抽象成员)

抽象成员概述、类型成员、抽象的val、抽象的var、初始化抽象的val、抽象类型、枚举

2019-09-09 17:50:42 141

原创 Scala编程(第19章:类型参数化)

函数式队列、型变注解、检查型变注解、下界、逆变、上界

2019-09-08 11:55:32 194

原创 Scala编程(第21章:隐式转换和隐式参数)

隐式转换、隐式规则、转换接收端、隐式参数

2019-09-03 21:47:21 107

原创 Stage的创建

1.简介:任务提交调用:private def doOnReceive(event: DAGSchedulerEvent): Unit = event match { case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties) => dagScheduler.hand...

2019-09-01 20:14:50 272

原创 Spark任务提交

1.简介:当DAG创建好后就开始提交任务:println(rdd3.collect().toList)2.runJob:点进collect后一直跟着runJob前进,点进submitJob:eventProcessLoop.post(JobSubmitted( jobId, rdd, func2, partitions.toArray, callSite, waiter,...

2019-08-31 20:59:20 115

原创 DAG的创建

从最简单的WordCount开始:def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("WordCount").setMaster("local") val sc = new SparkContext(conf) val rdd1 = sc.textFile("C...

2019-08-30 17:08:07 267

原创 SparkEnv中RpcEnv的创建

1.描述:RpcEnv可以简单的描述为远程通信环境,在SparkContext创建SparkEnv过程中创建并传入多个部件中。部分不详细的地方可以参考:https://blog.csdn.net/qq_38601362/article/details/1000070902.SparkEnv.scala文件:源码第249行:val rpcEnv = RpcEnv.create(sys...

2019-08-24 17:12:26 168

原创 SparkEnv

1.简介:保存正在运行的Spark实例(主服务器或工作服务器)的所有运行时环境对象,包括序列化程序,RpcEnv,块管理器,映射输出跟踪器等。目前Spark代码通过全局变量查找SparkEnv,因此所有线程都可以 访问相同的SparkEnv。 它可以通过SparkEnv.get访问(例如在创建SparkContext之后)。2.构造方法:class SparkEnv ( val ...

2019-08-22 21:04:32 99

原创 SparkContext创建SparkEnv过程描述

1.简介:SparkContext是Spark的驱动器,SparkEnv是Spark的环境,这是创建驱动器环境的过程(其它的还有执行器环境),说的是创建驱动器环境的关键方法。2.相关方法:SparkContext.scala文件:创建的开始://在SparkContext初始化中,源码第434行。调用createSparkEnv方法创建//_conf:配置,isLocal...

2019-08-22 16:44:08 320

原创 SparkContext

1.简介:SparkContext是Spark的驱动器,她的初始化中包含任务调度器、资源管理器、事件管理器和状态跟踪器等。2.构造方法:主构造方法://传入配置参数SparkConfclass SparkContext(config: SparkConf) extends Logging 辅助构造方法:def this() = this(new SparkConf(...

2019-08-21 19:22:35 1500

原创 SparkConf

1.简介:SparkConf是Spark的配置管理器,是Spark 的开始--驱动器SparkContext的构造器重要的传参(虽然可以不传),意在更好地设置自己所需要的配置。2.构造方法:主构造方法://loadDefaults是否加载默认值class SparkConf(loadDefaults: Boolean) extends Cloneable with Loggi...

2019-08-21 08:46:23 356

原创 配置Spark-sql踩的关于配置的坑

网上有配置说在spark-env.sh里配置这个:SPARK_CONF_DIR 把这个指向hadoop配置文件这个是什么呢?修改Spark的配置文件位置。这时候你就会发现一个问题,在spark/conf目录下无论怎么修改配置,就是没反应。请看第一行配置,你自己说看配置请去hadoop目录。。。...

2019-08-11 15:18:18 218

原创 Scala编程(第17章:使用其他集合类)

序列、集和映射、元组

2019-08-07 20:42:14 178

原创 Scala编程(第16章:使用列表)

列表模式、List类的初阶方法、List类的高阶方法、List对象方法、同时处理多个列表

2019-08-04 14:39:34 353

翻译 Scala编程(第15章:样例类和模式匹配)

1.一个简单的例子:假定你需要编写一个操作算术表达式。样例类:abstract class Exprcase class Var(name:String) extends Exprcase class Number(num:Double) extends Exprcase class UnOp(operator:String,arg:Expr) extends Exprcase ...

2019-07-31 17:03:38 174

翻译 Scala编程(第13章:包和引入)

将代码放进包中、对相关代码的精简访问、引入、隐式引入、访问修饰符、包对象

2019-07-27 22:34:11 168

原创 Scala编程(第12章:特质)

特质如何工作、矩形对象、Ordered特质、作为可叠加修改的特质

2019-07-27 08:36:34 168

原创 Scala编程(第11章:Scala的继承关系)

Scala的类继承关系、基本类型的实现机制、底类型、定义自己的值类

2019-07-24 19:57:03 372

翻译 Scala编程(第十章:组合和继承)

抽象类、定义无参方法、扩展类、override重写方法和字段、定义参数化字段、调用超类构造方法、多态和绑定、声明final成员、定义工厂对象

2019-07-24 08:33:42 186

原创 Scala编程(第九章:控制抽象)

传名参数和柯里化

2019-07-21 22:16:31 112

原创 Scala编程(第八章:函数和闭包)

占位符语法、闭包、特殊的函数调用形式、尾递归

2019-07-19 21:39:05 126

原创 Scala编程(第七章:内建的控制结构)

if、while、for、try等

2019-07-17 17:34:51 132

原创 Scala编程(第六章:函数式对象)

前置条件、自引用、辅助构造方法、定义操作符、隐式转换

2019-07-12 20:58:24 195

原创 Scala编程(第五章:基础类型和操作)

字面量、字符串插值、操作符即方法、算术操作、关系和逻辑操作、位运算操作、对象相等性、操作符优先级和结合性

2019-07-11 16:31:25 165

原创 Scala编程(第四章:类和对象)

分号推断、单例对象

2019-07-08 19:44:49 131

原创 Python操作Spark Mllib函数

文章是对函数的简单理解和应用,需要理解更深层次的可能要失望了。如对代码有什么疑问,下载有决策树示例代码。推荐算法(矩阵因式分解)和决策树多元分类没有很好的测试数据,暂告段落。不说废话,直接正题相关函数包名:import pysparkfrom time import timeimport numpy as npfrom pyspark.mllib.regression ...

2019-06-29 10:34:16 2151

原创 pyspark使用anaconda3报:error=13, Permission denied问题

网上找了很久,都没有解决。如果找不到,那就自己来吧。小红母鸡说。百度上各种花里胡哨的操作,解决办法:在/etc/profile或者$SPARK_HOME/conf/spark-env中export个环境,PYSPARK_PYTHON=/root/anaconda3/bin/python3.7去看安装anaconda3的文件,环境设置具体到哪一个能用的版本,就解决了。...

2019-06-22 19:32:35 3246

原创 hive3.0.0操作集锦(下)

4.查询 (1)select...from语句select name,salary,subordinates[0],deductions['State Taxes'],address.state,salary*(1-deductions['Federal Taxes'])from employee; 使用函数:https://www.cnblogs.com/MOBIN/p...

2019-05-12 17:03:54 588

原创 hive3.0.0操作集锦(上)

建议配合官方文档学习。官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual作者大纲是<<hive编程指南>>,这本书有点老,很多最新的更新都没有[笑哭],不过这些都经过测试,写出来的都能用。注:易于操作的命令:可以在$HIVE_HOME/conf目录下创建.hiverc文件,...

2019-04-16 15:13:57 855

原创 HBase shell基础命令

官方文档:http://hbase.apache.org/hbase shell建表:create 表名,列组名(family),列组名。。。。。增: put 表名,行名,列组名:列名,值删:deleteall 表名,行名 delete 表名,行名,列组名:列名查:scan表名,其它如{VERSIONS=>3}改:用put可以覆盖查看表属性:de...

2019-04-03 15:22:12 157

原创 python语言spark弹性分布式数据集-RDD(Spark快速大数据分析)(下)

(4)二元组操作(key-value键值对操作)开始:创建PairRDD。就是(key,value)这样的二元组。(以键值对集合[(1,2),(3,4),(3,6)]为例)reduceByKey():合并具有相同键的值。传入一个有两个形参的函数,处理过程:进入一条数据,根据key值hash()到一个分区内,分区内如果有其它或之前合并后的元素,调用函数处理两个元素的value值(两个形...

2019-03-12 18:07:57 595 1

Spark_mllib_DecisionTree.py

博客Spark Mllib python给出的决策树实例代码,如博客有不清楚的地方,可以下载,更易理解

2019-06-29

c语言简单管理系统

可实现简单的增删查改,加入C语言时间操作,可参考借鉴。

2018-06-05

c语言简单成绩管理系统

基本的控制台文件增删查改,简单可参考借鉴,摘要必须大于50个字节!

2018-06-05

c语言控制台双人对战,基本算法人机五子棋

看网上一篇文章写的,很简单,可以参考借鉴,听说这个要写50字节!

2018-06-05

Java基于TCP协议的简单聊天工具代码

可能会感觉很简单,可以参考一下,但是这个摘要必须大于50个字节!

2018-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除