自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(205)
  • 资源 (1)
  • 收藏
  • 关注

原创 本地文件上传到 HDFS 的shell执行脚本

目录1.功能:将本地日志上传到hdfs中。 2.实现:分两步进行,第一步将文件复制到待上传目录,第二步将文件设置标志(copy)循环逐条复制hdfs中,并更改标志(done) 3.代码及结果展示1.功能:将本地日志上传到hdfs中。2.实现:分两步进行,第一步将文件复制到待上传目录, 第二步将文件设置标志(copy)循环逐条复制hdfs中,并更改标志(done)3.代...

2019-03-19 10:16:48 6332 1

原创 Redis 中哨兵sentinel 机制、从宕机及恢复、主库宕机及恢复解决方案

目录什么是哨兵 原理 环境 设置哨兵 从宕机及恢复 主宕机及恢复 配置多个哨兵1、什么是哨兵哨兵是对Redis的系统的运行情况的监控,它是一个独立进程,功能有二个:监控主数据库和从数据库是否运行正常; 主数据出现故障后自动将从数据库转化为主数据库;2、原理单个哨兵的架构:多个哨兵的架构:多个哨兵,不仅同时监控主从数据库,而且哨兵之间互为监控。多...

2018-09-09 08:49:10 13061

原创 短信微服务开发 SpringBoot + ActiveMQ + 阿里大于短信API

1、项目简介       短信微服务开发,其应用场景一般是注册时短信验证码的接收、提示用户注册成功等场景。在短信微服务开发中,本文主要使用技术为:SpringBoot ,快速搭建web应用,即:消息的生产者,消息的消费者; ActiveMQ,消息的中间件,消息的异步接收及异步发送;调用第三方短信服务接口,阿里大于短信API,使用阿里云提供的短信服务。2、项目架构图3、生产者项目构建...

2018-08-11 18:33:54 4021

原创 RPC 王者归来--Dubbo 1

Dubbo是什么?Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。RPC是什么?RPC(Remote Procedure Call)—远程过程调用。它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式

2022-05-28 23:21:58 184

原创 Windows常用命令(直接在运行终端上使用的命令)

1. 注册表编辑器输入“regedit”命令后按回车2. 计算器输入“calc”命令后按回车3. 记事本输入“notepad”命令后按回车4.远程桌面连接输入“mstsc”命令按回车

2022-05-09 11:28:43 695

原创 生产环境解决slowSQL 方案

慢SQL场景处理方案

2022-05-06 14:49:20 1482

原创 在linux 服务器上,上传及下载文件。

使用xshell来操作服务非常方便,传文件也比较方便。就是使用rz,sz首先,服务器要安装了rz,szyum install lrzsz当然你的本地windows主机也通过ssh连接了linux服务器运行rz,会将windows的文件传到linux服务器运行sz filename,会将文件下载到windows本地...

2021-09-07 09:22:31 174

原创 消息队列MessageqQueue 连环炮

1.为什么使用消息队列?先说一下消息队列的常见使用场景吧,其实场景有很多,但是比较核心的有3个:解耦、异步、削峰。解耦:现场画个图来说明一下,A系统发送个数据到BCD三个系统,接口调用发送,那如果E系统也要这个数据呢?那如果C系统现在不需要了呢?现在A系统又要发送第二种数据了呢?A系统负责人濒临崩溃中。再来点更加崩溃的事儿,A系统要时时刻刻考虑BCDE四个系统如果挂了咋办?我要不要重发?我要不要把消息存起来?头发都白了啊。技巧:你需要去考虑一下你负责的系统中是否有类似的场景,就是一个系.

2021-03-10 17:09:10 148

原创 对pojo对象进行单元测试方法

//1.根据Class.forName找到类 Class<?> clz = Class.forName("com.learn.java.portal.web.TestPojo"); Object object = clz.newInstance(); String name = ""; String type = ""; //2.通过clz.getDeclaredFields()获取类的所有属性,遍历,...

2020-07-07 15:29:05 1015

原创 Java8 之 NumbericStream

1、IntegerStream 转为 IntStreamstream = Arrays.stream(new Integer[]{1, 2, 3, 4, 5, 6, 7});int resultNumber = stream.mapToInt(i -> i.intValue()).filter(i -> i > 3).sum();System.out.println(...

2019-11-26 22:27:16 199

原创 JAVA-8 learn 03-04

0、lambda 定义(parameters)-> expression (parameters) -> { statements; }1、 predicate boolean test(T t)2、Consumer accept(T t)3、Functioin<T, R> R apply(T, t)4、Supplier<T> T...

2019-11-16 07:01:13 150

原创 JAVA-8 learn 01-02

package com.tianmeng.java8;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import static java.lang.Thread.currentThread;/** * @program: java8 * @descriptioin: *...

2019-11-14 23:43:48 206 1

原创 Java 项目中常用名词解释

目录一、Java 项目中常用名词解释一、Java 项目中常用名词解释POJO(PlainOrdinaryJavaObject): 在本手册中,POJO专指只有 setter/getter/ toString的简单类,包括 DO/DTO/BO/VO等,一个POJO持久化以后就是PO;直接用它传递、传递过程中就是DTO;直接用来对应表示层就是VO。 GAV(GroupId、...

2019-09-02 10:40:37 821 1

原创 elasticsearch之document写入流程实现可靠存储

目录1、refresh 过程 2、flush 过程 3、document 写入流程 4、总结1、refresh 过程数据写入os cache,并被打开供搜索的过程,叫做refresh,默认是每隔1秒refresh一次。2、flush 过程将os cache上的数据fsync到 os disk的过程。3、document 写入流程(1)document 数据写入buf...

2019-08-20 20:09:46 286

原创 elasticsearch 之 深入探秘type底层数据结构

目录1、理论知识 2、案例实战 3、最后总结1、理论知识type,是一个index中用来区分类似的数据的,类似的数据,但是可能有不同的fields,而且有不同的属性来控制索引建立、分词器。 field的value,在底层的lucene中建立索引的时候,全部是opaque(不透明) bytes类型,即:不区分类型的。 lucene是没有type的概念的,在document中,实际上...

2019-08-19 21:47:10 640

原创 elasticsearch 之阶段总结

目录1、distribute document store 2、使用场景1、distribute document store 到目前为止,一个直观的感觉,知道了es是分布式的,包括一些基本的原理,然后花了不少时间在学习document本身相关的操作,增删改查。一句话点出来,归纳总结一下,其实我们应该思考一下,es的一个最最核心的功能。Elasticsearch在跑起来以后,...

2019-08-17 21:46:36 175

原创 elasticsearch 之 聚合分析 aggregate analysis

目录0、构造数据 1、第一个聚合分析的需求:计算每个tag下的商品数量 2、第二个聚合分析的需求:对名称中包含yagao的商品,计算每个tag下的商品数量 3、第三个聚合分析的需求:先分组,再算每组的平均值,计算每个tag下的商品的平均价格 4、第四个聚合分析的需求:计算每个tag下的商品的平均价格,并且按照平均价格降序排序 5、第五个聚合分析的需求:按照指定的价格范围区间进行分组,...

2019-08-17 08:47:37 817

原创 elasticsearch 之 实战学习

目录1、es 中的数据格式 2、集群管理 3、CRUD 操作 4、多种搜索1、es 中的数据格式与传统的数据库的关系型数据格式不同,es的数据格式是面向文档 document ,而不是面向对象的。 应用系统的数据结构都是面向对象的,它是比较复杂的,对象数据存储到数据库中,只能拆解开来,变为扁平的多张二维表,每次查询的时候,还要还原对象格式,故很麻烦。 es是面向文档docume...

2019-08-16 11:46:23 484

原创 elasticsearch 之 索引管理:基于scoll、bulk、索引别名技术实现零停机重建索引

目录1、思路 2、实验 3、总结1、思路一个field的设置是不能被修改的,如果要修改一个Field,那么应该重新按照新的mapping,建立一个index_new,然后将数据批量查询出来,重新用bulk api写入index_new中批量查询的时候,建议采用scroll api,并且采用多线程并发的方式来reindex数据,每次scoll就查询指定日期的一段数据,交给一个线程即可,...

2019-08-14 19:45:29 170

原创 elasticsearch 之 环境搭建 & 核心概念

目录0、环境搭建 1、elasticsearch的前世今生 2、elasticsearch的核心概念 3、elasticsearch核心概念 vs 数据库核心概念0、环境搭建(1)安装JDK,至少1.8.0_73以上版本,使用 java -version 查看(2)下载和解压缩Elasticsearch安装包,例如:elasticsearch-5.2.0.zip(3)启动E...

2019-08-11 08:07:22 135

原创 spark2 之 交互式用户行为分析

目录1、离线式行为分析 2、交互式行为分析 3、DataSet 案例实战1、离线式行为分析每天凌晨对昨天的数据进行批量处理和分析,统计出各种指标和报表,放入MySQL等关系型数据库中。第二天就可以看到昨天以及昨天以前的数据分析结果。2、交互式行为分析用户在需要的时候,选择对应的查询和分析条件,然后由我们的系统立即运行一个大数据处理分析作业,在最短的时间内给用户提供他们想要的数...

2019-08-08 23:18:34 306

原创 Spark2 的 Whole-stage Code Generation、Vectorization 技术 与Spark1 的 Volcano Iterator Model 技术 的对比分析

目录1、Spark1 的 Volcano Iterator Model 技术 2、Spark2 的 Whole-stage Code Generation、vectorization 技术 3、总结1、Spark1 的 Volcano Iterator Model 技术 Spark 1.x会使用一种最流行、最经典的查询求值策略,该策略主要基于 Volcano Iterat...

2019-08-01 21:03:03 643

原创 Spark2 之 新特性易用性、高性能、智能化

目录1、新特性之易用性 2、新特性之高性能 3、新特性之智能化1、新特性之易用性(1)在标准化SQL支持方面,引入了新的ANSI-SQL解析器,提供标准化SQL的解析功能,而且还提供了子查询的支持。Spark现在可以运行完整的99个TPC-DS查询,这就要求Spark包含大多数SQL 2003标准的特性。这么做的好处在于,SQL一直是大数据应用领域的一个最广泛接受的标准,比如说Had...

2019-08-01 20:27:20 390

原创 Spark 之 作业调度(在yarn-client模式下动态资源调度)

目录1、静态资源调度 2、动态资源调度 3、配置 hadoop 中 yarn 相关文件 4、启动 spark 作业查看是否动态资源调度1、静态资源调度 当一个spark application运行在集群中时,会获取一批独立的executor进程专门为自己服务,比如运行task和存储数据。如果多个用户同时在使用一个集群,并且同时提交多个作业,那么根据cluster ma...

2019-07-28 18:21:36 801

原创 spark 之 运维管理使用CURL RESTful 方式查看spark 中 applications、jobs、stages

目录1、软件安装 2、查看过程1、软件安装安装curl工具,来发送http请求:故使用 以下命令安装:yum install -y curl2、查看过程使用curl RESTful 方式查看 spark applications 、jobs、stages命令行输入:curl http://192.168.2.201:18080/api/v1/applicati...

2019-07-23 20:42:19 1360

原创 Spark 之 日志框架 Flume 和 Kafka 使用场景

目录1、Spark 结合 Flume 的使用场景 2、Spark 结合 Kafka 的使用场景1、Spark 结合 Flume 的使用场景 若实时数据流产出的频率不固定,比如有时候是一秒十万条,有时候是一小时一万条,可以选择将数据用nginx日志来表示,每隔一段时间将日志文件,放到flume监控的目录中,然后呢,spark streaming来计算。2、Spark 结合...

2019-07-17 18:14:08 384

原创 spark 之报错 System memory 202768384 must be at least 4.718592E8. Please use a larger heap size

目录1、问题:System memory 202768384 must be at least 4.718592E8. Please use a larger heap size 2、解决1、问题: System memory 202768384 must be at least 4.718592E8. Please use a larger heap size.2、解决...

2019-07-16 23:01:26 337

原创 spark 之 运行报错:Failed to allocate a page (67108864 bytes), try again.

目录:1、问题:Failed to allocate a page (67108864 bytes), 2、解决1、问题WARN memory.TaskMemoryManager: Failed to allocate a page (67108864 bytes), try again.2、解决spark-submit shell 中 driver 和 executor 的...

2019-07-15 21:54:00 5491

原创 hadoop 之 yarn 使用命令行查看日志、结束作业

目录1、yarn 命令行查看日志 2、yarn 命令行结束作业1、yarn 命令行查看日志yarn logs -applicationId 【作业id】例如yarn logs -applicationId application_1562937465914_0001【注意】在yarn-site.xml 中添加以下配置<property> <name...

2019-07-12 22:17:09 4946

原创 Hadoop 之 动态添加一个新节点(dataNode)到集群中(nameNode)

目录1、新节点操作 2、主节点操作 3、web UI 查看 4、修改副本数1、新节点操作手动启动 datanode命令:hadoop-daemon.sh start datanode手动启动 nodemanager命令:yarn-daemon.sh start nodemanager2、主节点操作刷新datanode节点命令:hadoop dfsadmin...

2019-07-11 22:40:55 1555

原创 Spark 之 shuffle 相关的算子

目录1、repartition 类 2、byKey类 3、join类 4、使用建议1、repartition 类repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等。重分区: 一般会shuffle,因为需要在整个集群中,对之前所有的分区的数据进行随机、均匀地打乱,然后把数据放入下游新...

2019-07-11 11:09:33 386

原创 Spark 之 算子的闭包原理

目录1、何为闭包 2、原理分析 3、spark 相关算子1、何为闭包 闭包跟在RDD的算子中操作作用域外部的变量有关,所谓RDD算子中,操作作用域外部的变量,指的是,类似下面的语句: val a = 0; rdd.foreach(i -> a += i)。此时,对rdd执行的foreach算子的作用域,其实仅仅是它的内部代码,但是这里却操作了作用域外部的a变量,根据...

2019-07-10 09:57:12 424

原创 Spark 之 yarn-client模式 与 yarn-cluster模式 对比分析

目录1、yarn-client 模式 2、yarn-cluster 模式 3、对比分析1、yarn-client 模式1、driver在本机启动 2、driver跟cluster manager申请资源,yarn-client,ResourceManager 3、RM分配一个container资源,在一个NM上,启动AM(ExecutorLauncher) 4、AM会找RM...

2019-07-08 19:09:34 835

原创 Spark 之 standalone 模式多个application(作业)资源调度

目录1、默认情况 2、修改配置1、默认情况 standalone集群对于同时提交上来的多个作业,仅仅支持FIFO调度策略,也就是先入先出;默认情况下,集群对多个作业同时执行的支持是不好的,没有办法同时执行多个作业;因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源,此时相当于就是只能支持作业串行起来,一个一个运行了。2、修改配置 我们希望能够...

2019-07-08 11:13:14 1177

原创 Spark 之 BlockManager 原理分析

目录:1、BlockManagerMaster 2、BlockManager 3、MemoryStore 4、DiskStore 5、ConnectionManager 6、BlockManagerWoker 7、四个组件关系(总结)1、BlockManagerMaster1.1 存在位置:Driver 中的 DAGscheduler上;1.2 功能:BlockM...

2019-06-26 18:16:14 245

原创 Spark 之 Task 原理分析

目录1、接收请求,准备操作 2、处理阶段 ShuffleMapTask 3、处理阶段 ResultTask1、接收请求,准备操作Executor 接收到了LaunchTask的请求后,在TaskRunner中会做一些准备工作,例如:反序列化Task,因为Task发送过来时,是被序列化的。然后通过网络拉取需要的文件,jar包等。在准备工作之后,运行task的run()方法,该方法最核心...

2019-06-26 14:28:40 538

原创 Spark Streaming 架构原理分析

目录:1、StreamingContext 2、ReceiveTracker 组件 3、DStreamGraph组件 4、JobGenerator 组件 5、JobScheduler 组件1、StreamingContext streamingContext 是 spark steaming 程序入口,类似 spark core 程序 创建 sparkContext。...

2019-06-23 22:35:20 469

原创 关于MySQL中删除操作 drop、truncate 和 delete 对比分析

目录1、三个关键字的删除强度 2、三个关键字的区别1、三个关键字的删除强度删除强度(强 -> 弱):drop > truncate > delete2、三个关键字的区别drop table tb删除表结构和表中所有的数据 并无法找回truncate tb删除表中所有的数据 不能与where连用 不可以rollback,删除整表数据(ddl...

2019-06-17 19:45:15 249

原创 spark 性能调优之shuffle

目录1、shuffle block file 合并 2、提高缓存数值 3、延迟失败次数,提高失败重试次数 4、提高reduce 端内存占比1、shuffle block file 合并new SparkConf().set("spark.shuffle.consolidateFiles", "true")spark.shuffle.consolidateFiles:是否开启sh...

2019-06-13 11:32:45 169

原创 spark 内核架构分析

目录1、sparkcontext 2、TaskScheduler 组件 3、DAGScheduler组件1、sparkcontext spark-submit,这个shell 脚本会有自己编写的spark程序 Application,以及相关要求资源信息。由于基于Standalone模式,其会根据反射的方式,创建和构造一个Driver 进程。 Driver 进程...

2019-06-11 22:47:58 149

django-1.8tar.gz

Django 项目是一个python定制框架,它源自一个在线新闻 Web 站点,于 2005 年以开源的形式被释放出来。

2017-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除