自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

z_xiaozhuT的博客

个人博客

  • 博客(90)
  • 收藏
  • 关注

转载 awk命令详解【学awk这一篇就够了】

Linux三剑客之awk命令awk简介awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。awk是一种很棒的语言,它适合文本处理和报表生成,其语法较为常见,借鉴了某些语言的一些精华.

2020-08-12 19:36:26 2044

转载 Redis概况

转载自:https://www.cnblogs.com/bigben0123/p/9115597.html1、为什么使用redis分析:博主觉得在项目中使用redis,主要是从两个角度去考虑:性能和并发。当然,redis还具备可以做分布式锁等其他功能,但是如果只是为了分布式锁这些其他功能,完全还有其他中间件(如zookpeer等)代替,并不是非要使用redis。因此,这个问题主要从性...

2019-11-06 17:22:15 632

转载 CA证书扫盲,https讲解

1.什么是CA证书。看过一些博客,写的比较形象具体。 ◇ 普通的介绍信  想必大伙儿都听说过介绍信的例子吧?假设 A 公司的张三先生要到 B 公司去拜访,但是 B 公司的所有人都不认识他,他咋办捏?常用的办法是带公司开的一张介绍信,在信中说:兹有张三先生前往贵公司办理业务,请给予接洽......云云。然后在信上敲上A公司的公章。  张三先生到了 B 公司后,把介绍信递给 B ...

2019-07-04 18:49:41 869

转载 HTTPS原理和CA证书申请(满满的干货)

众所周知,WEB服务存在http和https两种通信方式,http默认采用80作为通讯端口,对于传输采用不加密的方式,https默认采用443,对于传输的数据进行加密传输目前主流的网站基本上开始默认采用HTTPS作为通信方式,一切的考虑都基于对安全的要求,那么如何对自己的网站配置HTTPS通信,是本文着重介绍的本文的主要内容包括:https加密传输的原理、如何申请https所用的CA证书,...

2019-07-04 18:48:11 341

转载 和安全有关的那些事(非对称加密、数字摘要、数字签名、数字证书、SSL、HTTPS及其他)

对于一般的开发人员来说,很少需要对安全领域内的基础技术进行深入的研究,但是鉴于日常系统开发中遇到的各种安全相关的问题,熟悉和了解这些安全技术的基本原理和使用场景还是非常必要的。本文将对非对称加密、数字摘要、数字签名、数字证书、SSL、HTTPS等这些安全领域内的技术进行一番简要的介绍,解释他们之间的关系,同时补充一些周边话题。0. 概览--常用安全技术及其之间的关联安全领域的技术众多,但...

2019-07-02 17:28:49 252

转载 浅析Linux中的零拷贝技术

转载自:https://www.jianshu.com/p/fad3339e3448本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念,我们拿一个常用的场景进行引入:引文##在写一个服务端程序时(Web Server或者文件服务器),文件下载是一个基本功能。这时候服务端的任务是:将服务端主机磁盘中的文件不做修改地从已连接的socket发出...

2019-06-13 14:23:16 144

转载 网络基础:二、网络通信过程详解

在当今的以太网络通信中,在IP数据包中有两个必不可少的地址,那就是IP地址和网卡地址(即MAC地址),在数据包中,无论是IP地址还是MAC地址,都有源地址和目标地址,因为通信是双方的,所以就必须同时拥有双方的地址!在同一IP网络中通信,将会发生以下事件:主机A与主机B通信,这时主机A肯定首先要封装这些需要发给主机B的数据包,那么对于主机A来说,自己的IP地址和MAC自己肯定能够轻易得到,对于主机...

2019-05-30 17:44:19 546

转载 互联网协议入门(二)

转载自:http://www.ruanyifeng.com/blog/2012/06/internet_protocol_suite_part_ii.html作者:阮一峰上一篇文章分析了互联网的总体构思,从下至上,每一层协议的设计思想。这是从设计者的角度看问题,今天我想切换到用户的角度,看看用户是如何从上至下,与这些协议互动的。========================...

2019-05-29 19:41:50 122

转载 互联网协议入门(一)

转载自:http://www.ruanyifeng.com/blog/2012/05/internet_protocol_suite_part_i.html作者:阮一峰转载过来方便日后查阅!================================================我们每天使用互联网,你是否想过,它是如何实现的?全世界几十亿台电脑,连接在一起,两两通信。上海...

2019-05-29 19:40:23 104

转载 网络基础:一、网络协议篇

转载自:https://www.cnblogs.com/linhaifeng/articles/5937962.html一.操作系统基础 操作系统:(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在“裸机”上的最基本的系统软件,任何其他软件都必须在操作系统的支持下才能运行。注:计算机(硬件)->os->应用软件...

2019-05-25 14:38:19 163

转载 Hbase的原理及架构概括

Hbase概述 hbase是一个构建在HDFS上的分布式列存储系统。HBase是ApacheHadoop生态系统中的重要 一员,主要用于海量结构化数据存储。从逻辑上讲,HBase将数据按照表、行和列进行存储。 如图所示,Hbase构建在HDFS之上,hadoop之下。其内部管理的文件全部存储在HDFS中。与HDFS相比两者都具有良好的容错性...

2019-03-29 16:54:33 295

转载 Git配置、初始化及常用命令

前言:开发有段时间了,发现没有git相关的记录文档,补上;git初始化配置步骤:1.配置自己的git的名字和邮箱$ git config --global user.name "your name"$ git config --global user.email"[email protected]"创建一个想用来存放git文件作为版本库的本地文件夹,进入该文件夹 mkdir gi...

2019-03-20 13:28:45 295

转载 Linux中Cache内存占用过高解决办法

在Linux系统中,我们经常用free命令来查看系统内存的使用状态。在一个RHEL6的系统上,free命令的显示内容大概是这样一个状态:(补充一下:- buffers/cache 表示应用程序占用多少内存 ,等于 used - buffers - cached;+ buffers/cache 表示还能提供给应用程序多少内存,等于 free + buffers + cached)这里的默...

2019-03-18 11:57:31 1030

转载 Thrift系列之二:Server端的几种工作模式

Thrift为服务器端提供了多种工作模式,本文中将涉及以下5中工作模式:TSimpleServer、TNonblockingServer、THsHaServer、TThreadPoolServer、TThreadedSelectorServer,这5中工作模式的详细工作原理如下:1.      TSimpleServer模式TSimpleServer的工作模式只有一个工作线程,循环监听新请...

2019-02-27 10:34:00 334

转载 Hbase系列之一:Rowkey的设计原则及案例

一、引言HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,...

2019-02-22 17:14:34 878

转载 Thrift系列之一:Thrift初步认识

 一. 与 Thrift 的初识也许大多数人接触 Thrift 是从序列化开始的。每次搜索 “java序列化” + “方式”、“对比” 或 “性能” 等关键字时,搜索引擎总是会返回一大堆有关各种序列化方式的使用方法或者性能对比的结果给你,而其中必定少不了 Thrift,并且其性能还不错嘞,至少比那战斗力只有1的渣渣 java 原生序列化要强很多(好吧原谅我的小情绪……)。然而,我最初接触 ...

2019-02-18 15:15:06 955 1

转载 Java中的Date和时区转换

1.Date中保存的是什么在java中,只要我们执行Date date = new Date();就可以得到当前时间。如:Date date = new Date();System.out.println(date);输出结果是:Thu Aug 24 10:15:29 CST 2017也就是我执行上述代码的时刻:2017年8月24日10点15分29秒。是不是Date对象里存...

2019-01-07 16:33:15 1424

转载 数据仓库系列——6.数据仓库系统的实现与使用(含OLAP重点讲解)

前言        上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工具(OLAP)和商务智能(BI)应用等。        本文将对这些方面做一个总体性的介绍(尤其是OLAP),旨在让读者对数据仓库的认识提升到一个全局性的高度。创建数据仓库        数据仓库的创建方法和数据...

2018-10-27 16:04:06 878

转载 数据仓库系列——5.数据仓库与数据集市建模

前言        本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。 维度建模的基本概念        维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。        它本身属于一种关系建模方法,但和之前在操作型...

2018-10-27 16:01:58 499

转载 spark streaming 中 direct 直连方式从kafka中怎么拉取数据

我们知道 SparkStreaming 用 Direct 的方式拉取 Kafka 数据时,是根据 kafka 中的 fromOffsets 和 untilOffsets 来进行获取数据的,而 fromOffsets 一般都是需要我们自己管理的,而每批次的 untilOffsets 是由 Driver 程序自动帮我们算出来的。 于是产生了一个疑问:untilOffsets 是怎么算出来的? 接下...

2018-10-26 16:53:05 970

转载 数据仓库系列——4.如何优雅地设计数据分层

一、文章主题本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。 各种重复计算,严重浪费了...

2018-10-26 15:16:06 563

转载 数据仓库系列——3.维度建模概述及案例

概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。 各种数据建模方法,如维度建模。 调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。因此,下面的将详细地阐述数据建模...

2018-10-26 10:52:08 3813

转载 数据仓库系列——2.什么是OLAP

最近由于很多人问我什么是OLAP,从而发现目前OLAP对大多数人来说还是个新名词,这里我来简单讲讲OLAP(联机分析)。        联机分析(OLAP)是由关系数据库之父E.F.Codd于1993年提出的一种数据动态分析模型,它允许以一种称为多维数据集的多维结构访问来自商业数据源的经过聚合和组织整理的数据。以此为标准,OLAP作为单独的一类产品同联机事务处理(OLTP)得以明显区分。  ...

2018-10-26 10:49:32 765

转载 数据仓库系列——01.拉链表(原理、设计以及在Hive中的实现)

0x00 前言过了半年时间,对数据仓库的理解又有了一些不同的认识,翻出来之前写的关于拉链表的内容,稍作修改重新发出来。本篇将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。内容全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的...

2018-10-26 10:47:43 1714

转载 storm acker 机制详解

首先来看一下什么叫做记录级容错?storm允许用户在spout中发射一个新的源tuple时为其指定一个message id, 这个message id可以是任意的object对象。多个源tuple可以共用一个message id,表示这多个源 tuple对用户来说是同一个消息单元。storm中记录级容错的意思是说,storm会告知用户每一个消息单元是否在指定时间内被完全处理了。那什么叫做完全处理呢...

2018-09-14 17:06:48 607

转载 Linux环境变量 bash_profile、profile、bashrc详解

为使Bash更好地为我们服务,我们需定制bash shell环境。 ~/.bash_profile、~/.bashrc、和~/.bash_logout1.上面这三个文件是bash shell的用户环境配置文件,位于用户的主目录下。其中.bash_profile是最重要的一个配置文件,它在用户每次登录系统时被读取,里面的所有命令都会被bash执行。.profile(由Bourne She...

2018-09-12 17:04:59 3704

转载 mapreduce参数调优

废话不说直接来一张图如下: 从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??    Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源;    Mapper数太小,并发度过小,Job执行时间过长,无...

2018-09-03 20:02:48 1738

转载 IDEA排查maven项目依赖冲突问题

 使用Intellij idea,想看看它的maven依赖图,在打开的pom.xml文件上右键Diagrams--Show Dependencies,就可以看到了。对于pom.xml配置的依赖,idea默认不是立即更新的,需要运行Maven--Reimport才能生效。不过可以根据提示将Reimport操作设置为自动的。Intellij idea图显示是这样的在图里选中一个arti...

2018-08-29 16:47:09 1540

转载 JVM内存模型及调优

一、JVM内存模型及垃圾收集算法 1.根据Java虚拟机规范,JVM将内存划分为:New(年轻代) Old(年老代) 永久代(Perm)  其中New和Old属于堆内存,堆内存会从JVM启动参数(-Xmx:3G)指定的内存中分配,Perm不属于堆内存,有虚拟机直接分配,但可以通过-XX:PermSize -XX:MaxPermSize 等参数调整其大小。 年轻代(New):年...

2018-08-17 17:45:36 253

转载 关于log4j的相关组件介绍

Log4J的三个组件:Logger:日志记录器,负责收集处理日志记录     (如何处理日志)Appender:日志输出目的地,负责日志的输出  (输出到什么 地方)Layout:日志格式化,负责对输出的日志格式化(以什么形式展现)类结构图一个logger可以对应多个appender,一个appender只能对应一个layout。1、Logger:logger可以有选择的启动和禁用日志的输出,我们...

2018-06-14 14:58:23 434

转载 深入理解Http请求、DNS劫持与解析

背景前段时间在处理iOS端的HTTPDNS相关SDK,在接入和测试环节发现大家对HTTP的整体请求流程包括HTTP劫持原理以及HTTPDNS的工作原理并不是太清楚,所以写下这边文章帮助大家深入web请求过程:如何发起请求,HTTP协议解析,DNS域名解析。HTTP发起一个请求过程当我们在手机端请求一个@"www.baidu.com"的域名的时候 1.请求到达运营商的DNS服务器并...

2018-06-06 16:03:34 3172 2

转载 JDK动态代理详解(源码剖析)

一、什么是代理? 代理是一种常用的设计模式,其目的就是为其他对象提供一个代理以控制对某个对象的访问。代理类负责为委托类预处理消息,过滤消息并转发消息,以及进行消息被委托类执行后的后续处理。代理模式UML图:简单结构示意图: 为了保持行为的一致性,代理类和委托类通常会实现相同的接口,所以在访问者看来两者没有丝毫的区别。通过代理类这中间一层,能有效控制对委托类对象的直接访问...

2018-06-06 00:07:36 296

转载 关于mapreduce 几个参数的解释

一、mapreduce.map.java.opts、mapreduce.reduce.java.opts    以map任务为例,Container其实就是在执行一个脚本文件,而脚本文件中,会执行一个 Java 的子进程,这个子进程就是真正的 Map Task,mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时,传递给虚拟机的启动参数,而默认值 -Xmx200m 表示这...

2018-05-25 10:38:53 11505 2

转载 MySQL理解索引、添加索引的原则

索引用于快速找出在某个列中有一特定值的行。不使用索引,MySQL必须从第1条记录开始然后读完整个表直到找出相关的行,还需要考虑每次读入数据页的IO开销。而如果采取索引,则可以根据索引指向的页以及记录在页中的位置,迅速地读取目标页进而获取目标记录。大多数情况下都(默认)采用B树来构建索引。只是空间列类型的索引使用R-树,并且MEMORY表还支持hash索引。B树是平衡多叉树,每个节点存放多少个值取决...

2018-05-09 20:48:24 1713

转载 Hive中避免科学计数法表示浮点数和长整数

在Hive中进行计算的时候经常会遇到数据结果以科学计数的方式显示出来,这并不是原本想要的结果。可以考虑用【cast(列名 as bigint/decimal(m,n))】的方式避免科学计数法结果的出现。1、浮点数非科学计数法展示[sql] view plain copyhive> select pay_uid_rate_90,cast(pay_uid_rate_90 as decimal(3...

2018-05-09 20:45:26 10448

转载 hive中Lateral View用法 与 Hive UDTF explode的用法

Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View?当我们想对hive表中某一列进行split之后,想对其转换成1 to N的模式,即一行转多列。hive不允许我们在UDTF函数之外,再添加其它select语句。如下,我们想将登录某个游戏的用户id放在一个字段use...

2018-05-09 20:44:08 2262

转载 hive解析json数组

hive中解析一般的json是很容易的,get_json_object就可以了。但如果字段是json数组,比如[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"},{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"

2018-05-09 20:42:12 4476

转载 Executors创建线程的实例

Java通过Executors提供四种线程池,分别为:newCachedThreadPool创建一个可缓存线程池,如果线程池长度超过处理需要,可灵活回收空闲线程,若无可回收,则新建线程。newFixedThreadPool 创建一个定长线程池,可控制线程最大并发数,超出的线程会在队列中等待。newScheduledThreadPool 创建一个定长线程池,支持定时及周期性任务执行。newSingl...

2018-04-16 17:48:47 326

原创 关于hive的一些操作记录

1、collect_set函数        需求:求用户消费的 TOP 100,需要的数据格式是:ID    消费金额    nickname        分析:消费 TOP 比较简单 group by uuid order by allCnt 可以解决,但是用户的nickname(昵称)是有多个的,随机取一个就行,但是 hive 取的数据字段中必须在 group by 中出现,取nickna...

2018-04-16 17:34:05 599

转载 Hive优化小结

基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select… from AjoinBon A.key= B.keywhereA.userid>10 andB.userid<10 and A.dt='20120417' and B.dt='20120417';应该改写为:select...

2018-04-13 15:16:03 236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除