自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 收藏
  • 关注

原创 Azkaban安装部署

Azkaban安装部署1、下载后编译修改 build.gradle文件中的maven仓库地址为http://maven.aliyun.com/nexus/content/groups/public/执行命令./gradlew build./gradlew clean./gradlew installDist./gradlew test./gradlew build -x test如果报错:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LeVrPT9V-164

2022-03-10 17:39:23 10940

原创 python设置清华源镜像

1、设置临时清华源镜像pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package2、设置默认永久清华源镜像#升级pip install pip -U#设置pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

2021-10-07 00:47:28 6339

原创 centos7中安装pip

1、安装epel-releasesudo yum -y install epel-release2、安装python-pipsudo yum -y install python-pip3、升级pipsudo pip install --upgrade pip4、检查pip版本 pip --version5、修改pip源[root@localhost ~]# cd ~ #回到家目录[root@localhost ~]# mkdir .pip #创建.pip目录[root@loc

2021-05-21 22:18:58 5492

原创 python基础编程总结

"""python基础语法python- Python是一门效率极高的语言,相对于其他编程语言,用Python编写程序,所使用的代码更少。- 更容易阅读、调试和扩展。- 数据科学领域应用非常广泛,有丰富的第三方库,如Numpy,Pandas,Matplotlib,scikit-learn等- Web开发,游戏开发等""""""python基本数据类型,字符型,数值型"""#python单行注释"""python多行注释,shili"""#python字符型

2021-05-19 12:33:25 294

原创 如果在配置文件中修改了集群名字的配置

由于集群的名称配置成了带有下划线的名称,hdfs是不识别带特殊符号(中间线除外)的名称的,导致hive连接时报错。于是修改配置,重新设置集群名称并修改集群名称相关的所有配置。hadoop集群配置中,如果修改了core-site.xml中的fs.defaultFS属性及hdfs-site.xml中的dfs.nameservices属性等集群相关的属性,该如何处理呢?首先,要删除掉所有节点tmp目录下的dfs文件夹,然后启动每个节点的journalnode进程,然后在主节点上对namenode格式化(bin

2021-04-25 16:06:40 2706

原创 datanode无法启动

查看日志报错如下:2021-04-24 15:00:17,359 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/bdlog/hadoop/tmp/dfs/data/in_use.lock acquired by nodename 11815@apa-node012021-04-24 15:00:17,360 WARN org.apache.hadoop.hdfs.server.common.Storage:

2021-04-25 13:42:37 300

原创 数据库范式总结

第一范式(1NF):如果一个关系模式的所有属性都是不可分的基本数据项,则该关系模式满足第一范式。第一范式规定了原子性。第二范式(2NF):若关系模式满足第一范式,并且每一个非主属性都完全函数依赖于关系模式的码,则该关系模式满足第二范式。第二范式表示每个表必须有且仅有一个主键,其他属性完全依赖于主键。第三范式(3NF):关系模式中的每一个非主属性既不部分函数依赖于候选码,也不传递函数依赖于候选码。BC范式(BCNF):设关系模式满足第一范式,关系模式中的每个决定因素都包含码,该关系模式满足BC范式。三

2021-03-30 21:06:31 490

原创 linux下忘记mysql的密码

在配置文件my.cnf(存放目录一般在/etc)中添加skip-grant-tables,然后重新启动mysql服务。

2020-12-28 11:37:41 77

原创 Spark MLlib 机器学习算法(一)

一 协同过滤算法协同过滤(Collaborative filtering)算法是一种基于群体用户或者物品的典型推荐算法,主要有两种:一种是通过考察具有相同爱好的用户对相同物品的评分标准进行计算。一种是考察具有相同特质的物品从而推荐给选择了某件物品的用户。协同过滤算法关键是计算相似度,主要有以下几种方法:1、 基于欧几里得距离计算公式:主要从不同目标的绝对差异性考虑2、 基于余弦角度计算公式:主要从方向趋势上考虑3、 交替最小二乘法(ALS)Val ratings = data.map

2020-12-25 11:34:56 425

原创 Spark MLlib数据类型和数理统计

一、 数据类型Spark MLlib基本数据类型包括:1) 本地向量集,主要向spark提供一组可操作的数据集。向量包括稀疏型数据集(spares)和密集型数据集(dense)。代码示例如下: val vd:Vector = Vectors.dense(2,0,6) //密集型 val vs:Vector = Vectors.sparse(4,Array(0,1,2,3),Array(9,5,2,7))2) 向量标签,让用户能够分类不同的数据集合。代码示例如下: //使

2020-12-24 18:37:55 463 1

原创 ubuntu、centos系统下卸载openjdk,安装sunjdk

ubuntu(我的是18)系统卸载openjdk,安装sunjdk一、 卸载openjdksudo apt-get remove openjdk*二、 安装jdk1、 下载压缩包,解压到/usr/lib/java2、 配置环境变量sudo gedit /etc/profile在文档末尾添加export JAVA_HOME=/usr/lib/java/jdk1.8.0_261export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAV

2020-12-17 10:46:51 299

原创 设计模式-----访问者模式

一、 定义访问者模式(Visitor),表示一个作用于某个对象结构中的各元素的操作。它使你可以在不改变各元素的类的前提下定义作用于这些元素的新操作。访问者模式适用于数据结构相对稳定的系统。它把数据结构和作用于结构之上的操作之间的耦合解脱开,使得操作集合可以相对自由的演化。对于有比较稳定的数据结构,又有易于变化的算法的情况,适合用访问者模式。访问者模式的优点就是增加新的操作很容易。二、 结构图三、 示例代码(男人女人对比为例,待补充)...

2020-12-15 10:06:52 77

原创 设计模式------解释器模式

一、 定义解释器模式(interpreter),给定一个语言,定义它的文法的一种表示,并定义一个解释器,这个解释器使用该表示来解释语言中的句子。解释器模式的好处是很容易改变和扩展文法。二、 结构图三、 示例代码(乐谱翻译为例,待补充)...

2020-12-14 18:55:01 71

原创 shell统计wordcount

cat aa0file.txt | tr ’ ’ ‘\n’ | sort -k 1 | uniq -c | awk ‘{print $2 “\t”$1}’ | sort -k2 -nr | head

2020-12-10 17:10:10 140

原创 设计模式------享元模式

一、 定义享元模式(Flyweight),运用共享技术有效地支持大量细粒度的对象。应用:1)如果一个应用程序使用了大量的对象,而大量的这些对象造成了很大的存储开销时就应该考虑使用2)对象的大多数状态可以外部状态,如果删除对象的外部状态,那么可以用相对较少的共享对象取代很多组对象,可以考虑使用享元模式。二、 结构图三、 示例代码...

2020-12-10 16:03:03 80

原创 设计模式------中介者模式

一、 定义中介者模式(Mediator),用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显示的相互引用,从而使其耦合松散,而且可以独立的改变它们之间的交互。中介者减少了其他一系列对象的交互,但是由于对其他一系列对象控制集中到了中介者类上,如果此类出现问题,则整个系统都会出问题。选用中介者模式要考虑清楚,尤其是多对多的关系时。二、 结构图三、 示例代码...

2020-12-10 15:03:33 62

原创 设计模式------职责链模式

一、 定义职责链模式(Chain of Responsibility),使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系。将这个对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它。优点:二、 结构图三、 示例代码(以公司的请假审批流程为例,待补充)...

2020-12-10 12:51:35 84

原创 设计模式------命令模式

一、 定义命令模式(Command),将一个请求封装为一个对象,从而使你可用不同的请求对客户进行参数化;对请求排队或记录请求日志,以及支持可撤销的操作。二、 结构图三、 示例代码(以烤肉店点餐为例,待补充)...

2020-12-09 18:17:09 74

原创 设计模式------桥接模式

一、 定义桥接模式(Bridge),将抽象部分与它的实现分离,使它们都可以独立地变化。可以理解为实现系统可能有多角度分类,每一种分类都有可能变化,那么就把这种多角度分离出来让它们独立变化,以减少它们之间的耦合。二、 结构图三、 示例模式...

2020-12-08 18:49:26 63

原创 设计模式------单例模式

一、 定义单例模式(Singleton),保证一个类仅有一个实例,并提供一个访问它的全局访问点。二、 示例代码(待补充)

2020-12-08 18:05:33 75

原创 设计模式------迭代器模式

一、 定义迭代器模式(Iterator),提供一种方法顺序访问一个聚合对象中各个元素,而不暴露该对象的内部表示。当需要访问一个聚集对象,而且不管这些对象是什么都需要遍历的时候,考虑用迭代器模式。二、 结构图三、 示例代码(待补充)...

2020-12-08 18:04:38 47

原创 设计模式------组合模式

一、 定义组合模式(Composite),将对象组合成树形结构以表示‘部分-整体’层次结构。组合模式使得用户对单个对象和组合对象的使用具有一致性。当需求中是体现部分与整体层次的机构时,或者希望用户可以忽略组合对象与单个对象的不同,统一的使用组合结构中的所有对象时,就应该考虑用组合模式了。二、 结构图三、 示例代码(待补充)...

2020-12-08 18:03:33 41

原创 NIO的Buffer对象

Buffer对象的四个变量capacity、position、limit、mark。capacity:缓冲区数组的总长度只读position:下一次读或写的位置(数组的下标)limit:可读或可写的最大位置,limit<capacitymark:用于标记一个位置,默认是-1.缓冲区的新建及clear()后,position=0,limit=capacity。Buffer.clear()并未真正的清除数据,设置好变量的值后,原有的数据会被覆盖。写入数据的过程是移动position的位置,例如

2020-12-08 16:36:22 74

原创 Tez引擎

Tez计算框架采用DAG,最大的改进在于避免中间数据集从内存写入磁盘的操作,同时减少了中间作业集,增加了硬件资源利用率。

2020-12-08 10:07:32 419

原创 设计模式------备忘录模式

一、 定义备忘录模式(Memento),在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态。以后就可将该对象恢复到原先保存的状态。当功能比较复杂,需要维护和记录的属性历史的类,或者需要保存的属性只是众多属性中的一小部分时,可以使用备忘录模式。二、 结构图三、 示例代码...

2020-12-04 19:05:53 60

原创 设计模式------适配器模式

一、 定义适配器模式(Adapter),将一个类的接口转换成客户希望的另外一个接口。Adapter模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。当系统的数据和行为都正确,但接口不符时,考虑用适配器模式。二、 结构图三、 示例代码(待补充)...

2020-12-04 19:04:27 53

原创 设计模式------状态模式

一、 定义状态模式(State),当一个对象的内在状态改变时允许改变其行为,这个对象看起来像是改变了其类。主要解决的是控制一个对象状态转换的条件表达式过于复杂时的情况,把状态的判断逻辑转移到表示不同状态的一系列类当中,可以把复杂的判断逻辑简化。当一个对象的行为取决于它的状态,并且它必须在运行时刻根据状态改变它的行为时,可以考虑用状态模式。二、 结构图 具体的状态类中,每一个子类实现一个与Context的一个状态相关的行为,子类之间可以有状态的跳转。三、 示例代码(以工作时间的工作状态为例,待补

2020-12-03 11:05:34 84

原创 设计模式------抽象工厂模式

一、 定义抽象工厂模式(Abstract Factory),提供一个创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类。二、 结构图抽象工厂模式的抽象工厂类可以使用一个抽象类来实现,通过反射(依赖注入)和配置等方式,使代码面对需求变化时,改动最少。三、 示例代码(以数据库访问为例,待补充)...

2020-12-03 11:04:16 138

原创 Hadoop 相关调优

作业调优检查的范围:Mapper的数量mapper需要运行多长时间?如果平均只运行几秒钟,则可以看是否能用更少mapper运行更长时间,通常一分钟左右。时间长度取决于使用的输入格式。Reducer的数量为了达到最高性能,集群中reducer数应该少于reducer的任务槽数。这将使reducer能够在同一个周期完成任务,并在reducer阶段充分使用集群––Combiner作业能否充分利用combiner来减少通过shuffle传输的数据量中间值的压缩对map

2020-12-01 16:26:22 93

原创 Hadoop 文档操作命令

Hadoop fsck / -files –blocks 显示块信息Md5 aa.txt bb.txtHadoop URLCat hdfs://localhost/user/tom/aa.txtHadoop FileSystemCat hdfs://……Hadoop FileCopyWithProgress …aa.txt hdfs://…Hadoop ListStatus hdfs://localhost hdfs://localhost/usr/… 显示路径集目录列表

2020-12-01 15:49:10 88

原创 HDFS 数据读写流程

读流程1) 客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说,这个对象是分布式文件系统(DistributedFileSystem)的一个实例。2) DistributedFileSystem通过使用RPC来调用namenode,以确定起始块的位置。对于每一个快,namenode返回存有该块副本的datanode地址。这些datanode根据它们与客户端的距离来排序。如果该客户端本身是一个datanode,并保存有相应数据块的一个副本时,该节点就会从本地d

2020-12-01 14:13:02 232

原创 设计模式----观察者模式

一、 定义观察者模式(又叫发布-订阅模式),定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象。这个主题对象在状态发生变化时,会通知所有观察者对象,使它们能够自动更新自己。应用场景:当一个对象的改变需要同时改变其他多个对象时,并且它不知道具体有多少对象有待改变时,考虑使用观察者模式。观察者模式主要是解除耦合,让耦合的双方都依赖于抽象而不是依赖于具体。二、 结构图三、 示例代码(以观察老板的状态为例,待补充)...

2020-12-01 14:09:39 47

原创 设计模式------建造者模式

一、 定义建造者模式(Builder),将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。该模式主要用于一些复杂的对象,这些对象内部构建间的建造顺序通常是稳定的,但对象内部的构建通常面临着复杂的变化。建造者模式是在当创建复杂对象的算法应该独立于该对象的组成部分以及它们的装配方式时适用的模式。二、 结构图三、 示例代码(以游戏中建造不同的小人为例)...

2020-11-27 17:47:31 51

原创 设计模式------外观模式

一、 定义外观模式(Facade),为子系统中的一组接口提供一个一致的界面,此模式定义了一个高层接口,这个接口使得这一子系统更加容易使用。外观模式是迪米特法则的典型应用。二、 结构图三、 示例代码(理财基金为例,待补充)...

2020-11-26 16:47:12 81

原创 设计模式------模板方法模式

一、 定义模板方法模式(TemplateMethod),定义一个操作中的算法的骨架,而将一些步骤延迟到子类中。模板方法使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。二、 结构图三、 示例代码(考试场景为例,待补充)...

2020-11-26 16:46:10 70

原创 Yarn RPC 通信实例

一、 代码结构如图二、 实例编程步骤及代码(1) 定义Calculate接口,提供加法和减法计算package org.example.YarnRpcTest;public interface Calculate { public int add(int num1,int num2); public int minus(int num1,int num2);}(2) 定义两个proto文件,CalculateMessage.proto定义请求的消息,CalculateSer

2020-11-25 11:36:20 229

原创 RPC简单实例

什么是RPC?远程过程调用(Remote Procedure Call,RPC)是一个计算机通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,同时将网络的通信细节隐藏起来,而程序员无需额外的为这个交互作用编程。RPC采用客户机/服务器模型。请求过程如图:客户端程序->客户端Stub程序 ->通信模块 -> 远程请求 -> 通信模块 -> 调度程序 -> 服务器端Stub程序 -> 服务程序**实例代码:**package org.e

2020-11-25 11:17:45 2001

原创 Protocol Buffer 简介

Protocol Buffer是一种轻便高效的结构化数据存储格式,可以用于结构化数据序列化和反序列化,适合做RPC的数据交换格式。具有平台无关性、可扩展性等。如何使用protocol buffer?(java)1) 编写.proto文件代码如下:Student.protopackage tutorial;option java_package = "org.example";option java_outer_classname = "StudentProtos";message Stu

2020-11-25 10:33:36 541

原创 设计模式-----原型模式

一、 定义原型模式(Prototype),用原型实例指定创建对象的种类,并且通过拷贝这些原型创建对象,就是从一个对象再创建另外一个可定制的对象,而且不需要指定任何创建的细节。拷贝涉及到深拷贝和浅拷贝,浅拷贝指被复制对象的所有变量都含有与原来的对象相同的值,而所有的对其他对象的引用都仍然指向原来的对象。深拷贝,把引用对象的变量指向复制过得新对象,而不是原有的被引用对象。原型模式通常适用于以下场景。• 对象之间相同或相似,即只是个别的几个属性不同的时候。• 创建对象成本较大,例如初始化时间长,占用CP

2020-11-25 09:50:04 50

原创 设计模式------工厂方法模式

一、 定义工厂方法模式(Factory Method),定义一个用于创建对象的接口,让子类决定实例化哪一个类,使一个类的实例化延迟到子类。简单工厂模式中工厂类包含了必要的逻辑判断,根据客户端的选择条件动态实例化相关的类。工厂方法模式中,客户端决定实例化哪一个工厂,这里相当于把简单工厂模式中在工厂类中的逻辑判断移到了客户端代码中判断。工厂方法模式克服了简单工厂模式中开放-封闭原则的不足。二、 结构图三、 示例代码(待补充)...

2020-11-20 18:38:23 71

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除