点点滴滴z-CSDN博客

原创 HIVE总结

HIVE总结hive简介简介**Hive是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop中大规模数据的机制。**Hive 定义了简单的类 SQL查询语言，称为 HQL ，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉 MapReduce的开发者开发自定义的 mappe...

2019-09-23 22:52:55 384

原创 Redis简介（二）

Redis简介（二）Redis高级特性以及用法生存时间在Redis中，可以使用expire命令设置一个键的生存时间，生存时间到了以后Redis会自动删除它expire 设置生存时间ttl 查看剩余生存时间生存时间没了会显示-2persist 取消生存时间就是永久存在的会显示-1expireat 设置生存时间时间戳事务Re...

2019-09-16 20:28:28 275

原创 Map阶段环形缓冲区详细分析

Map阶段环形缓冲区详细分析这几天不是很忙，抽了点闲着的时间回头看了一下hadoop，看到map阶段的环形缓冲区想到自己刚开始的的时候每太弄明白，这次好好仔细看了一下，顺便把学习成果记录了下来在map阶段，每个map都有一个环形缓冲区，用于存储map的输出。这个环形缓冲区的默认大小是100MB，一旦数据达到我们的阈值0.8（可修改）的时候，会有一个后台线程将内容溢写到磁盘的指定目录下的一个...

2019-09-10 18:42:36 2193 2

原创 Redis简介以及简单操作

Redis简介Redis是一个面向键值对数据类型的内存数据库，可以满足我们对海量数据的快速读写的需求是一个nosql 非关系型数据库Redis的键只能是字符串类型的值可以是很多种数据类型String 字符串hash 哈希list 字符串列表set 字符串集合sorted set 有序字符串集合Redis的特点高性能：读11w/s 写8.1w/s 是一个单...

2019-09-09 20:29:44 297

原创 kafka

kafka消息队列的简介消息队列的介绍消息队列（message queue）简称为MQ是消息加队列，即保存消息的队列。消息传输过程中的容器主要是提供了消费、生产接口供外部调用，做数据的存储以及读取消息队列的分类消息队列大致可分为两种：点对点（P to P) 发布订阅（Pub/Sub）两者的共同点消息生产者生产消息发送到queue中，然后消息消费者从queue中读取...

2019-09-05 21:43:36 156

原创 Zookeeper简单总结

Zookeeper简单总结简介zookeeper是一个分布式协调服务分布式应用程序可以基于它实现同步服务，配置维护以及命名维护等zookeeper可以保证数据在zookeeper集群之间的数据的事务性一致zookeeper中的组件角色leader 领导者，负责进行肉票的发起以及决议，更新系统状态learner 学习者，包括follower 跟随者以及 observer ...

2019-09-05 11:53:42 127

原创 Flink详细介绍

Flink详细介绍Flink API的抽象级别-Flink DataStreamAPIDataSourcesource是程序的数据源输入，可以通过StreamExecutionEnvironment.addSource(sourceFunction来给程序添加一个sourceFlink提供了大量已经实现好的source方法，我们也可以自定义source通过实现sou...

2019-09-03 11:52:07 230

原创 Flink入门简介

Flink入门简介Flink的基本原理以及应用场景Flink的简介-Flink是一个开源的分布式、高性能、高可用、准确的流处理框架。支持实时流处理以及实时批处理，批处理其实就是流处理的一个特例原生支持迭代计算、内存管理、程序优化等Flink的架构图：Flink的基本组件：Flink的流处理与批处理在大数据领域中，批处理任务以及流处理任务一般被认为是两种不同的...

2019-08-31 22:09:06 182 1

原创 Linux常用指令

Linux简介是一个免费开源的操作系统组成部分内核shell文件系统应用程序重要指令常用指令pwd 列出当前全路径ls ll ll -a 列出目录下所有文件加a会列出隐藏文件touch 创建一个空文件mkdir -p 创建目录加p是递归创建目录且若目录存在不报错mv old new 重命名连接硬链接 ln 文件...

2019-08-29 10:08:09 80

原创 Shell

Shellshell介绍Shell是用户与Linux系统进行操作沟通的桥梁shell的种类有很多，介绍的这种是bash 也就是Bourne Again Shellshell文件的后缀通常是 .shshell脚本中的第一行通常是 #！bin/bash脚本执行方式a.sh 已经配置过环境变量且脚本有足够的权限bash a.sh 直接执行bash -x a.s...

2019-08-28 23:11:21 166

原创 Python提高

Python提高Python操作文件# coding=utf8'''读文件操作'''def fun(): #此方式如果遇到错误就直接导致程序出错建立的连接无法关闭可以使用try也可以使用with #打开文件 r 模式只读文件不存在就会报错 file = open("D:\\data\\pythontest.txt",'r') for line i...

2019-08-27 22:57:38 142

原创 Python快速入门

Python快速入门Python简介Python是著名的“龟叔”Guido van Rossum（吉多·范罗苏姆）在1989年圣诞节期间，为了打发无聊的圣诞节而编写的一个编程语言；1991年初，Python发布了第一个公开发行版。Python是用C编写的高级的、面向对象的、开放源代码的编程语言。龟叔给Python的定位是“优雅”、“明确”、“简单”，所以Python程序看上去总是简单易懂...

2019-08-27 20:57:33 287 2

原创 Elasticsearch问题以及调优

Elasticsearch问题以及调优Elasticsearch脑裂问题分析脑裂问题的图解[外链图片转存失败(img-09EzQT3W-1566829347750)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1566822492817.png)]脑裂问题就是在集群环境之中，由于节点之间的通信问题导致...

2019-08-26 22:22:14 148

原创 Elasticsearch脑裂问题详细分析以及解决方案

Elasticsearch脑裂问题详细分析以及解决方案什么是脑裂问题脑裂问题其实就是同一个集群的不同节点对于整个几位群的状态有不同的理解，导致操作错乱，类似于精神分裂怎么发现集群产生脑裂问题吧Elasticsearch出现查询非常缓慢的情况通过命令查看集群的状态curl -XGET ‘http://localhost:9200/_cluster/health’发现集群状态...

2019-08-26 22:20:01 1803

原创 Elasticsearch高级二

Elasticsearch高级二Elasticsearch查询详解查询Query代码public class EsDemo2 { static String index = "test"; static String type = "emp"; public static void main(String[] args) throws Exception{...

2019-08-26 22:18:07 136

原创 ELK简单部署以及使用

ELK简单部署以及使用简介此项目是使用filebeat轻量化日志采集工具，将日志采集到kafka，在使用logstash工具将日志采集到Elasticsearch中，使用kibana工具在web界面上进行各种搜索查看建立图标等操作。下载安装进入到官网https://www.elastic.co找到产品-点击下载选择需要下载的工具点击下载在past rel...

2019-08-26 14:10:38 354

原创 Elasticsearch高级

Elasticsearch高级Elasticsearch批量操作的查询类型Bulk批量查询的Java实现package EsTest;import org.elasticsearch.action.bulk.BulkItemResponse;import org.elasticsearch.action.bulk.BulkRequestBuilder;import org.el...

2019-08-24 22:58:46 174

原创 Spark简介

Spark简介Spark概述Spark是一个一站式大数据计算框架。可以通过一个技术堆栈处理大数据各种领域的各种计算任务。就是一个通用的大数据快速处理引擎。Spark的各个组成部分Spark core 用于离线计算Spark SQL 用于交互式的查询Spark StreamingSpark MLlib 用于机器学习Spark GraphX 用于图计算Spark主要用于大数据...

2019-08-22 23:10:26 146

原创 Elasticsearch Head Plugin详细安装教程

Elasticsearch Head Plugin 详细安装教程Elasticsearch Head Plugin站点插件可以以网页形式展现ES注意：这个插件依赖于nodejs,phantomjs所以我们在安装插件之前需要安装nodejs以及gruntnodejs下载地址https://nodejs.org/dist/v10.15.3/node-v10.15.3-linux-x64...

2019-08-22 20:27:42 537

原创 Elasticsearch的安装部署

Elasticsearch安装部署安装JDK版本最好在1.8以上（因为这个比较基础就不详细解释了）下载Elasticsearch网址：https://www.elastic.co/downloads/past-releases/elasticsearch-6-4-3选择合适的版本下载就可以下载完成以后上传到Linux系统中，解压进入到解压后的文件中尝试进行开启...

2019-08-22 20:24:56 96

原创 Elasticsearch简介

ElasticsearchElasticsearch简介 Elasticsearch是一个实时分布式搜索和分析引擎。它对Lucene进行了封装。能够满足实时搜索的稳定、可靠、快速等。基于REST接口。ES与MySQL的对比ElasticsearchMySQLindex 索引库database 数据库type 类型table 类型document 文档...

2019-08-22 20:21:17 195

原创 Storm高级及优化

Storm高级Storm核心之流分组stream grouping 分类Shuffle Grouping：随机分组。将stream中的tuple缓存后随机发放给所有bolt，可以使每个bolt中的数据量大致相等（可以较好的实现负载均衡）Fields Grouping：按字段分组，例如按groupID字段进行分组，将同一个分组的tuple分到统一任务中All Grouping:广播发送...

2019-08-20 21:02:11 255

原创 Storm的简单分析

Storm的详细分析Storm人的概述Storm是Twitter开源的一个实时处理框架Storm能够实现高频数据和大规模数据的实时处理Storm与MapReduce的区别StormtypeMapReduceStorm数据来源hdfs上TB级别历史数据实时新增的某一条数据处理过程map阶段和reduce阶段可以有很多阶段包含spout以及bolt...

2019-08-19 20:01:12 236

原创 Java基础--常用DOS指令

Java基础–常用DOS指令在学习Java之前我们要先了解一下到底什么是软件，什么是编程？首先我们来说一下什么是软件一个完整的计算机操作系统是由硬件系统以及软件系统组成，常见的硬件有CPU、显卡、内存条等，软件系统就包括计算机的操作系统（Windows、Linux等）、计算机的应用（qq、微信、LOL等）。在一台完整的计算进中除了硬件系统以外，其他的所有都可称为软件。然后我们在说一...

2019-05-13 16:29:43 314

qq_42244078的博客