fanyongyao-CSDN博客

原创 log4j 动态调整日志级别一

log4j 集成 springboot 动态调整日志级别

2023-10-18 14:31:36 414

原创 flink Too many fields referenced from an atomic type

flink Too many fields referenced from an atomic type这个问题来源于你的pojo，基本类没有无参构造器代码这个问题来源于你的pojo，基本类没有无参构造器代码POJO 类public class WC{ public String name; public Integer age; public WC(){} public WC(String name,Integer age){

2021-01-07 12:16:50 3150 1

原创 linux压缩解压

linux压缩和解压缩命令tar解包：tar zxvf filename.tar打包：tar czvf filename.tar dirnamegz命令解压1：gunzip filename.gz解压2：gzip -d filename.gz压缩：gzip filename.tar.gz 和 .tgz解压：tar zxvf filename.tar.gz压缩：tar zcvf...

2019-09-10 08:32:43 121

原创分布式锁

当多个服务需要抢夺资源时，避免对资源的超额使用等情况，应使用分布式锁常用的分布式锁 Mysql Redis Zookeeper分布式锁的原理，多个服务抢占资源，只有一个能抢到，其它的需要等待Mysql实现分布式锁mysql实现分布式锁的原理：mysql可以用表的主键当做竞争条件，或则用唯一索引列当做竞争条件，多个服务谁先写入该条数据谁则获取了处理权利。处理完后将锁释放，也就是将该条数据...

2019-04-15 19:09:25 181

原创 Zookeeper的ZAB

Paxos 和 ZAB 和zookeeper的选举机制Paxos：是分布式一致性的一种思想，主要是少数服从多数的思想。Paxos算法流程中的每条消息描述如下：1.Prepare: Proposer生成全局唯一且递增的Proposal ID (可使用时间戳加Server ID)，向所有Acceptors发送Prepare请求，这里无需携带提案内容，只携带Proposal ID即可。2.Pr...

2019-04-15 11:54:06 775

原创 hdfs的Namenode和secondNamenode的工作机制

1、客户端请求建立连接。2、client发送增删改请求。3、写入editlog日志，刷入内存，对应datanode的写流程。4、SecondNamenode定时向namenode发送询问是否需要checkpoint（默认一分钟）。5、namenode检查是否需要checkpoint，条件：1H未checkpoint，操作发生了100w次。返回给SecondNamenode需要checkpo...

2019-04-10 08:59:59 1679

原创 Hdfs的读数据流程

1、client请求namenode，请求相应文件。2、那么node检查权限，检查时候有该文件，通过机架感知和负载情况，返回比较合适的三个datanode给client，如果文件有多个块，一个块一组datanode。3、client开启一个流，首先请求第一个块，首先请求第一个节点，如果第一个节点不可访问，则请求第二个节点。4、datanode返回相应数据，client将相应块写入文件。5、...

2019-04-10 08:31:48 113

原创 hdfs的文件的写入

1、客户端对应上传的文件进行切分，首先按照文件进行切分，如果文件大的话会按照，大小进行切分。大小默认为128M也就是块大小。一块块的进行长传。2、namenode相应。3、首先与namenode加你连接，通过rpc，请求上传块。4、namenode收到请求，检查权限，检查文件是否存在，写入Editlog日志，同步内存，通过机架感知，返回相应的可以存储的节点和块号。5、client接到相应，...

2019-04-09 21:26:13 250 1

原创 MapReduce的Shuffle过程

1、map方法写完数据，调用分区函数，确定自己所在分区。然后写入环形缓冲区，环形缓冲区分两半，一般记录key和value的值，另一半记录分区数，key和value在缓冲区的地址，缓冲区默认100M。2、环形缓冲区达到80%的时候进行溢写，溢写时分区存储，并进行了排序（快速排序）。然后写入磁盘。3、排完顺序后，可以用combiner进行一次map端的数据的合并，视情况而使用。4、每次缓冲区溢写...

2019-04-09 20:59:27 239

原创 hdfs的优缺点和mapreduce的优缺点

hdfs的优缺点优点：1、高可靠。有大量备份，内部的机架感知机制。2、可以搭建在廉价机器上。组成集群。3、可扩展。可以增加大量的datanode节点。4、能处理大量数据。缺点：1、实时性差。2、不可随机修改，可以追加。3、小文件过多会造成寻址缓慢，对应读取块信息时间会延长。mr的优缺点优点1、高可靠，任务失败会自动找其他机器再次执行。2、可扩展，3、可搭建在廉价机器中。...

2019-04-09 11:12:55 525

原创 mysql主从复制延时问题解决

关于mysql主从的搭建不在多说，大家都知道主从复制时，丛机通relay_log的方式同步主机的数据。但是既然是两台机器，必然会出现网络，线程。。等原因，造成从机不能及时的同步主机信息。这种问题是不可避免的。部分公司应用主从的时候，往往将主机用来读，从机用来读，这样就很大可能出现读不到最新数据。解决方案，将已经写入主机的数据，放一份缓存放入redis，去从机读之前先去redis读就好...

2019-03-26 18:43:34 557

原创 Hbase

Hbase：主要用来存储数据，支持增删改，底层是hdfs。hive：主要是运算，调用MR。hbase特点：支持高并发，列存储，稀疏，海量存储，易扩容。hbase名词解析：hmaster：hregionServer：region：store：Memstore：列族：安装：命令行：原理：API：优化：...

2019-03-26 18:36:27 115

原创 Zookeepr

zookeeper：注册中心，用来管理服务，服务注册到zookeeper，进行负载均衡，进行统一管理。zookeeper集群，所有节点配置信息一致。目录结构：树型结构，类似于linux安装：启动：操作：集群配置：leader选取：zookeeper实现分布式锁：监听器的原理：集群同步数据的原理：...

2019-03-22 19:05:34 223

原创大数据hadoop，mapReduce

hdfsday2配置详解（端口号都是多少）（所有配置都是第一默认配置的覆盖）日志查看namenode的格式化（删除data和logs）配置历史服务器（mapreduse的运行历史）日志聚集功能配置（将日志信息长传到hdfs方便查看）yarn.sitehdfs数据存储目录 data下的（blockid如何生成，poolid如何生成，大文件多个快存储副顺序）day03crontab...

2019-03-21 18:37:57 242

原创 hadoop集群搭建之伪分布式

伪分布式：具有分布式的配置，但是其节点只有一个。准备：linux服务器一台。（也可是虚拟机）jdk的tar包一个（本服务采用1.8）。可以在官网下载。hadoop的tar包一个（本服务采用2.7.3）。可以在官网下载。配置主机名vim /etc/sysconfig/networkhadoop101修改/etc/hosts文件ip hadoop101在/opt 下创建module...

2019-03-20 21:23:05 195

原创 hdfs长传文件报错

Util.checkBlockOpStatus(DataTransferProtoUtil.java:140)at org.apache.hadoop.hdfs.DFSOutputStreamDataStreamer.createBlockOutputStream(DFSOutputStream.java:1363)atorg.apache.hadoop.hdfs.DFSOutputStream...

2019-03-20 19:53:33 277

原创 centOS中自带的jdk卸载

查看相应RPM安装包rpm -qu|grep java卸载相应安装包rpm -e --nodeps + 文件名

2019-03-20 11:58:18 396

原创 shell脚本

shell 是什么shell其实是一个命令解释器，它的作用是解释用户输入的命令和程序，命令和程序可以理解成我们图中的应用程序，我们linux系统中的那些命令其实也都是一个个的小程序，只不过完成的是系统的应用功能。我们在系统的终端中输入一条命令，可以立马看到一条或者几条系统回复我们的信息，其实就是shell在帮我们回复，所以shell可以称之为命令解释器。其实在linux提供的命令行窗口执行命令...

2019-03-18 23:10:28 114

原创 hdfs创建文件夹报错

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform解决：export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native"运行即可

2019-03-18 20:21:27 616

原创 hadoop的搭建

前提准备：1：服务器或虚拟机一台（本版本采用centOS版本）2：jdk的tar包一个（可以到oracle官网下载本文采用1.8）3：hadoop的tar包一个（可以到apache官网下载本文采用2.7.2）可以先在linux中，/opt下建立文件夹便于存放和安装hadoopmkdir /opt/moudle 存放hadoop的包mkdir /opt/software 存放压缩包将j...

2019-03-16 22:18:57 97

原创大数据整体分析

大数据整体解析大数据（BigData），毫无疑问大数据是对大量处理用的，它包括数据的存储（HDFS）和计算功能（MapReduse），由yarn进行cpu的调度。大数据天生就是自带分布式的，对大量的数据的处理，需要分布式的数据存储，数据量过大需要分布式的计算，还需要集群模式的数据的收集（flum），还有实时的计算和离线的计算等。大数据的特点：4V Volum大量 Velocity高速 ...

2019-03-15 23:24:44 337

原创 javaweb与大数据

大数据和javaweb的发展方向javaweb1、主要做web交互方便的工作，java为后台，对接pc端页面，或者ios，安卓的手机app。2、由数据量的增长，慢慢的重单个springBoot项目发展为springClould集群项目，采用分布式+集群的方式进行扩展。数据库采用分库分表，redis采用集群等分布式架构来解决。3、对应技术选型，nginx，springBoot，SpringC...

2019-03-15 11:53:24 2244

原创动态代理

根据上篇静态代理，现在写一下动态代理静态代理的使用，是一对一的一个代理类对应一个被代理类，如果被代理的类多的话，代码会很繁杂。动态代理可以解决这一个问题，动态代理是对代理类进行统一整理，采用一个通用的代理类，代理所有的需要代理的别代理类的使用。代码实例：interface Human{String say();void fly();}//被代理类class SuperMan i...

2019-03-14 16:05:59 81

原创静态代理

静态代理jing静态代理，是接口的一种应用方式。首先由一个接口，然后对应接口有一个实现。代理就是不需要本类去操作，而是让人家去操作。比如，你需要买一张票，让黄牛代替你去买。代理类和被代理类共同实现一同一个接口，这样代理类就具有被代理类的相同的功能方法。然后代理类需要获取到被代理类的实例，用来执行被代理类的操作，所以代码实现中，代理类中应该能获取到接口或者具体被代理类的对象，这样才能做被代...

2019-03-13 20:50:33 144

原创 git最新分支切换

git最新分支的切换有时候git分支切换时，发现找不到最新的分支，但是git仓库是有的本地却没有。解决方案git fetch 命令会把远程服务器上所有的更新都拉取下来git branch -a 查看分支即可发现最新的分支git checkout 分支名即可切换分支...

2018-12-17 15:04:29 2294 1

fanyongyao的博客