字母的艺术-CSDN博客

原创本地文件上传到 HDFS 的shell执行脚本

目录1.功能：将本地日志上传到hdfs中。 2.实现：分两步进行，第一步将文件复制到待上传目录，第二步将文件设置标志（copy）循环逐条复制hdfs中，并更改标志（done） 3.代码及结果展示1.功能：将本地日志上传到hdfs中。2.实现：分两步进行，第一步将文件复制到待上传目录，第二步将文件设置标志（copy）循环逐条复制hdfs中，并更改标志（done）3.代...

2019-03-19 10:16:48 6332 1

原创 Redis 中哨兵sentinel 机制、从宕机及恢复、主库宕机及恢复解决方案

目录什么是哨兵原理环境设置哨兵从宕机及恢复主宕机及恢复配置多个哨兵1、什么是哨兵哨兵是对Redis的系统的运行情况的监控，它是一个独立进程，功能有二个：监控主数据库和从数据库是否运行正常；主数据出现故障后自动将从数据库转化为主数据库；2、原理单个哨兵的架构：多个哨兵的架构：多个哨兵，不仅同时监控主从数据库，而且哨兵之间互为监控。多...

2018-09-09 08:49:10 13061

原创短信微服务开发 SpringBoot + ActiveMQ + 阿里大于短信API

1、项目简介短信微服务开发，其应用场景一般是注册时短信验证码的接收、提示用户注册成功等场景。在短信微服务开发中，本文主要使用技术为：SpringBoot ，快速搭建web应用，即：消息的生产者，消息的消费者； ActiveMQ，消息的中间件，消息的异步接收及异步发送；调用第三方短信服务接口，阿里大于短信API，使用阿里云提供的短信服务。2、项目架构图3、生产者项目构建...

2018-08-11 18:33:54 4021

Dubbo是什么？Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。RPC是什么？RPC（Remote Procedure Call）—远程过程调用。它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式

2022-05-28 23:21:58 184

原创 Windows常用命令（直接在运行终端上使用的命令）

1. 注册表编辑器输入“regedit”命令后按回车2. 计算器输入“calc”命令后按回车3. 记事本输入“notepad”命令后按回车4.远程桌面连接输入“mstsc”命令按回车

2022-05-09 11:28:43 695

原创生产环境解决slowSQL 方案

慢SQL场景处理方案

2022-05-06 14:49:20 1482

原创在linux 服务器上，上传及下载文件。

使用xshell来操作服务非常方便，传文件也比较方便。就是使用rz，sz首先，服务器要安装了rz，szyum install lrzsz当然你的本地windows主机也通过ssh连接了linux服务器运行rz，会将windows的文件传到linux服务器运行sz filename，会将文件下载到windows本地...

2021-09-07 09:22:31 174

原创消息队列MessageqQueue 连环炮

1.为什么使用消息队列？先说一下消息队列的常见使用场景吧，其实场景有很多，但是比较核心的有3个：解耦、异步、削峰。解耦：现场画个图来说明一下，A系统发送个数据到BCD三个系统，接口调用发送，那如果E系统也要这个数据呢？那如果C系统现在不需要了呢？现在A系统又要发送第二种数据了呢？A系统负责人濒临崩溃中。再来点更加崩溃的事儿，A系统要时时刻刻考虑BCDE四个系统如果挂了咋办？我要不要重发？我要不要把消息存起来？头发都白了啊。技巧：你需要去考虑一下你负责的系统中是否有类似的场景，就是一个系.

2021-03-10 17:09:10 148

原创对pojo对象进行单元测试方法

//1.根据Class.forName找到类 Class<?> clz = Class.forName("com.learn.java.portal.web.TestPojo"); Object object = clz.newInstance(); String name = ""; String type = ""; //2.通过clz.getDeclaredFields()获取类的所有属性，遍历，...

2020-07-07 15:29:05 1015

原创 Java8 之 NumbericStream

1、IntegerStream 转为 IntStreamstream = Arrays.stream(new Integer[]{1, 2, 3, 4, 5, 6, 7});int resultNumber = stream.mapToInt(i -> i.intValue()).filter(i -> i > 3).sum();System.out.println(...

2019-11-26 22:27:16 199

原创 JAVA-8 learn 03-04

0、lambda 定义（parameters）-> expression (parameters) -> { statements; }1、 predicate boolean test（T t）2、Consumer accept(T t)3、Functioin<T, R> R apply(T, t)4、Supplier<T> T...

2019-11-16 07:01:13 150

原创 JAVA-8 learn 01-02

package com.tianmeng.java8;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import static java.lang.Thread.currentThread;/** * @program: java8 * @descriptioin: *...

2019-11-14 23:43:48 206 1

原创 Java 项目中常用名词解释

目录一、Java 项目中常用名词解释一、Java 项目中常用名词解释POJO（PlainOrdinaryJavaObject）: 在本手册中，POJO专指只有 setter/getter/ toString的简单类，包括 DO/DTO/BO/VO等，一个POJO持久化以后就是PO；直接用它传递、传递过程中就是DTO；直接用来对应表示层就是VO。 GAV（GroupId、...

2019-09-02 10:40:37 821 1

原创 elasticsearch之document写入流程实现可靠存储

目录1、refresh 过程 2、flush 过程 3、document 写入流程 4、总结1、refresh 过程数据写入os cache，并被打开供搜索的过程，叫做refresh，默认是每隔1秒refresh一次。2、flush 过程将os cache上的数据fsync到 os disk的过程。3、document 写入流程（1）document 数据写入buf...

2019-08-20 20:09:46 286

原创 elasticsearch 之深入探秘type底层数据结构

目录1、理论知识 2、案例实战 3、最后总结1、理论知识type，是一个index中用来区分类似的数据的，类似的数据，但是可能有不同的fields，而且有不同的属性来控制索引建立、分词器。 field的value，在底层的lucene中建立索引的时候，全部是opaque（不透明） bytes类型，即：不区分类型的。 lucene是没有type的概念的，在document中，实际上...

2019-08-19 21:47:10 640

原创 elasticsearch 之阶段总结

目录1、distribute document store 2、使用场景1、distribute document store 到目前为止，一个直观的感觉，知道了es是分布式的，包括一些基本的原理，然后花了不少时间在学习document本身相关的操作，增删改查。一句话点出来，归纳总结一下，其实我们应该思考一下，es的一个最最核心的功能。Elasticsearch在跑起来以后，...

2019-08-17 21:46:36 175

原创 elasticsearch 之聚合分析 aggregate analysis

目录0、构造数据 1、第一个聚合分析的需求：计算每个tag下的商品数量 2、第二个聚合分析的需求：对名称中包含yagao的商品，计算每个tag下的商品数量 3、第三个聚合分析的需求：先分组，再算每组的平均值，计算每个tag下的商品的平均价格 4、第四个聚合分析的需求：计算每个tag下的商品的平均价格，并且按照平均价格降序排序 5、第五个聚合分析的需求：按照指定的价格范围区间进行分组，...

2019-08-17 08:47:37 817

原创 elasticsearch 之实战学习

目录1、es 中的数据格式 2、集群管理 3、CRUD 操作 4、多种搜索1、es 中的数据格式与传统的数据库的关系型数据格式不同，es的数据格式是面向文档 document ，而不是面向对象的。应用系统的数据结构都是面向对象的，它是比较复杂的，对象数据存储到数据库中，只能拆解开来，变为扁平的多张二维表，每次查询的时候，还要还原对象格式，故很麻烦。 es是面向文档docume...

2019-08-16 11:46:23 484

原创 elasticsearch 之索引管理：基于scoll、bulk、索引别名技术实现零停机重建索引

目录1、思路 2、实验 3、总结1、思路一个field的设置是不能被修改的，如果要修改一个Field，那么应该重新按照新的mapping，建立一个index_new，然后将数据批量查询出来，重新用bulk api写入index_new中批量查询的时候，建议采用scroll api，并且采用多线程并发的方式来reindex数据，每次scoll就查询指定日期的一段数据，交给一个线程即可，...

2019-08-14 19:45:29 170

原创 elasticsearch 之环境搭建 & 核心概念

目录0、环境搭建 1、elasticsearch的前世今生 2、elasticsearch的核心概念 3、elasticsearch核心概念 vs 数据库核心概念0、环境搭建（1）安装JDK，至少1.8.0_73以上版本，使用 java -version 查看（2）下载和解压缩Elasticsearch安装包，例如：elasticsearch-5.2.0.zip（3）启动E...

2019-08-11 08:07:22 135

原创 spark2 之交互式用户行为分析

目录1、离线式行为分析 2、交互式行为分析 3、DataSet 案例实战1、离线式行为分析每天凌晨对昨天的数据进行批量处理和分析，统计出各种指标和报表，放入MySQL等关系型数据库中。第二天就可以看到昨天以及昨天以前的数据分析结果。2、交互式行为分析用户在需要的时候，选择对应的查询和分析条件，然后由我们的系统立即运行一个大数据处理分析作业，在最短的时间内给用户提供他们想要的数...

2019-08-08 23:18:34 306

原创 Spark2 的 Whole-stage Code Generation、Vectorization 技术与Spark1 的 Volcano Iterator Model 技术的对比分析

目录1、Spark1 的 Volcano Iterator Model 技术 2、Spark2 的 Whole-stage Code Generation、vectorization 技术 3、总结1、Spark1 的 Volcano Iterator Model 技术 Spark 1.x会使用一种最流行、最经典的查询求值策略，该策略主要基于 Volcano Iterat...

2019-08-01 21:03:03 643

原创 Spark2 之新特性易用性、高性能、智能化

目录1、新特性之易用性 2、新特性之高性能 3、新特性之智能化1、新特性之易用性（1）在标准化SQL支持方面，引入了新的ANSI-SQL解析器，提供标准化SQL的解析功能，而且还提供了子查询的支持。Spark现在可以运行完整的99个TPC-DS查询，这就要求Spark包含大多数SQL 2003标准的特性。这么做的好处在于，SQL一直是大数据应用领域的一个最广泛接受的标准，比如说Had...

2019-08-01 20:27:20 390

原创 Spark 之作业调度（在yarn-client模式下动态资源调度）

目录1、静态资源调度 2、动态资源调度 3、配置 hadoop 中 yarn 相关文件 4、启动 spark 作业查看是否动态资源调度1、静态资源调度当一个spark application运行在集群中时，会获取一批独立的executor进程专门为自己服务，比如运行task和存储数据。如果多个用户同时在使用一个集群，并且同时提交多个作业，那么根据cluster ma...

2019-07-28 18:21:36 801

原创 spark 之运维管理使用CURL RESTful 方式查看spark 中 applications、jobs、stages

目录1、软件安装 2、查看过程1、软件安装安装curl工具，来发送http请求:故使用以下命令安装：yum install -y curl2、查看过程使用curl RESTful 方式查看 spark applications 、jobs、stages命令行输入：curl http://192.168.2.201:18080/api/v1/applicati...

2019-07-23 20:42:19 1360

原创 Spark 之日志框架 Flume 和 Kafka 使用场景

目录1、Spark 结合 Flume 的使用场景 2、Spark 结合 Kafka 的使用场景1、Spark 结合 Flume 的使用场景若实时数据流产出的频率不固定，比如有时候是一秒十万条，有时候是一小时一万条，可以选择将数据用nginx日志来表示，每隔一段时间将日志文件，放到flume监控的目录中，然后呢，spark streaming来计算。2、Spark 结合...

2019-07-17 18:14:08 384

原创 spark 之报错 System memory 202768384 must be at least 4.718592E8. Please use a larger heap size

目录1、问题：System memory 202768384 must be at least 4.718592E8. Please use a larger heap size 2、解决1、问题： System memory 202768384 must be at least 4.718592E8. Please use a larger heap size.2、解决...

2019-07-16 23:01:26 337

原创 spark 之运行报错：Failed to allocate a page (67108864 bytes), try again.

目录：1、问题：Failed to allocate a page (67108864 bytes), 2、解决1、问题WARN memory.TaskMemoryManager: Failed to allocate a page (67108864 bytes), try again.2、解决spark-submit shell 中 driver 和 executor 的...

2019-07-15 21:54:00 5491

原创 hadoop 之 yarn 使用命令行查看日志、结束作业

目录1、yarn 命令行查看日志 2、yarn 命令行结束作业1、yarn 命令行查看日志yarn logs -applicationId 【作业id】例如yarn logs -applicationId application_1562937465914_0001【注意】在yarn-site.xml 中添加以下配置<property> <name...

2019-07-12 22:17:09 4946

原创 Hadoop 之动态添加一个新节点（dataNode）到集群中（nameNode）

目录1、新节点操作 2、主节点操作 3、web UI 查看 4、修改副本数1、新节点操作手动启动 datanode命令：hadoop-daemon.sh start datanode手动启动 nodemanager命令：yarn-daemon.sh start nodemanager2、主节点操作刷新datanode节点命令：hadoop dfsadmin...

2019-07-11 22:40:55 1555

原创 Spark 之 shuffle 相关的算子

目录1、repartition 类 2、byKey类 3、join类 4、使用建议1、repartition 类repartition类的操作：比如repartition、repartitionAndSortWithinPartitions、coalesce等。重分区: 一般会shuffle，因为需要在整个集群中，对之前所有的分区的数据进行随机、均匀地打乱，然后把数据放入下游新...

2019-07-11 11:09:33 386

原创 Spark 之算子的闭包原理

目录1、何为闭包 2、原理分析 3、spark 相关算子1、何为闭包闭包跟在RDD的算子中操作作用域外部的变量有关，所谓RDD算子中，操作作用域外部的变量，指的是，类似下面的语句: val a = 0; rdd.foreach(i -> a += i)。此时，对rdd执行的foreach算子的作用域，其实仅仅是它的内部代码，但是这里却操作了作用域外部的a变量，根据...

2019-07-10 09:57:12 424

原创 Spark 之 yarn-client模式与 yarn-cluster模式对比分析

目录1、yarn-client 模式 2、yarn-cluster 模式 3、对比分析1、yarn-client 模式1、driver在本机启动 2、driver跟cluster manager申请资源，yarn-client，ResourceManager 3、RM分配一个container资源，在一个NM上，启动AM（ExecutorLauncher） 4、AM会找RM...

2019-07-08 19:09:34 835

原创 Spark 之 standalone 模式多个application（作业）资源调度

目录1、默认情况 2、修改配置1、默认情况 standalone集群对于同时提交上来的多个作业，仅仅支持FIFO调度策略，也就是先入先出；默认情况下，集群对多个作业同时执行的支持是不好的，没有办法同时执行多个作业；因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源，此时相当于就是只能支持作业串行起来，一个一个运行了。2、修改配置我们希望能够...

2019-07-08 11:13:14 1177

原创 Spark 之 BlockManager 原理分析

目录：1、BlockManagerMaster 2、BlockManager 3、MemoryStore 4、DiskStore 5、ConnectionManager 6、BlockManagerWoker 7、四个组件关系（总结）1、BlockManagerMaster1.1 存在位置：Driver 中的 DAGscheduler上；1.2 功能：BlockM...

2019-06-26 18:16:14 245

原创 Spark 之 Task 原理分析

目录1、接收请求，准备操作 2、处理阶段 ShuffleMapTask 3、处理阶段 ResultTask1、接收请求，准备操作Executor 接收到了LaunchTask的请求后，在TaskRunner中会做一些准备工作，例如：反序列化Task，因为Task发送过来时，是被序列化的。然后通过网络拉取需要的文件，jar包等。在准备工作之后，运行task的run（）方法，该方法最核心...

2019-06-26 14:28:40 538

原创 Spark Streaming 架构原理分析

目录：1、StreamingContext 2、ReceiveTracker 组件 3、DStreamGraph组件 4、JobGenerator 组件 5、JobScheduler 组件1、StreamingContext streamingContext 是 spark steaming 程序入口，类似 spark core 程序创建 sparkContext。...

2019-06-23 22:35:20 469

原创关于MySQL中删除操作 drop、truncate 和 delete 对比分析

目录1、三个关键字的删除强度 2、三个关键字的区别1、三个关键字的删除强度删除强度（强 -> 弱）：drop > truncate > delete2、三个关键字的区别drop table tb删除表结构和表中所有的数据并无法找回truncate tb删除表中所有的数据不能与where连用不可以rollback，删除整表数据(ddl...

2019-06-17 19:45:15 249

原创 spark 性能调优之shuffle

目录1、shuffle block file 合并 2、提高缓存数值 3、延迟失败次数，提高失败重试次数 4、提高reduce 端内存占比1、shuffle block file 合并new SparkConf().set("spark.shuffle.consolidateFiles", "true")spark.shuffle.consolidateFiles：是否开启sh...

2019-06-13 11:32:45 169

原创 spark 内核架构分析

目录1、sparkcontext 2、TaskScheduler 组件 3、DAGScheduler组件1、sparkcontext spark-submit，这个shell 脚本会有自己编写的spark程序 Application，以及相关要求资源信息。由于基于Standalone模式，其会根据反射的方式，创建和构造一个Driver 进程。 Driver 进程...

2019-06-11 22:47:58 149

django-1.8tar.gz

空空如也