自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

跋跋寒的博客

热爱大数据,热爱机器学习

  • 博客(109)
  • 资源 (9)
  • 收藏
  • 关注

原创 Hive 大查询报警

原文地址Hive 大查询报警背景在知乎内部,Hive 主要被应用与两个场景:1. ETL 核心链路任务 2. Adhoc 即席查询。在 ETL 场景下,Hive SQL 任务都比较固定而且稳定,但是在 Adhoc 场景下,用户提交的 Hive SQL 比较随机多变。在用户对 SQL 没有做好优化的情况下,启动的 MapReduce 任务会扫描过多的数据,不仅使得任务运行较慢,还会对 HDFS 造成巨大压力,影响集群的稳定性,这种情况在季度末或者年底出现得极为频繁,有些用户会扫描一季度甚至一整年的数据

2021-09-02 11:21:29 492

原创 TIDB安装

所有机器添加tidb用户,添加sudo权限useradd tidbpasswd tidbtouch /etc/sudoers.d/tidbecho 'tidb ALL=(ALL) NOPASSWD: ALL' >/etc/sudoers.d/tidbssh添加su - tidbssh-keygencat ~/.ssh/id_rsa.pub >~/.ssh/authorized_keyschmod 600 /home/tidb/.ssh/authorized_key

2020-06-28 16:09:53 512

原创 高并发基础:高并发IO的底层原理

写在前面:本文是拜读了《Netty、Redis、Zookeeper高并发实战》后整理的笔记或者想法1.IO读写的基础原理说到IO,肯定就是读和写(read/write),这里有一个和我们想象的不一样的是,代码调用read并不是直接从物理设备的数据读取到内存中,同理,write的调用也不是直接把内存中的数据写入到物理设备上。不管read还是write都会涉及到缓存区,我们调用read实际...

2020-01-21 21:07:53 1620

原创 什么是HTTP?为什么是不安全的?

我们在输入网址的时候一般是www.baidu.com,浏览器都会自动帮我们加上HTTP或者HTTPS这样的前缀,国内对于HTTPS讲解的书很少,最近有空拜读了《深入浅出https:从原理到实战》这本书,接下来会分几次表述一下对于这本书的一些笔记或者理解。了解HTTPS之前需要先了解HTTP,知道了HTTP的局限,才能掌握HTTPS安全的本质。基本概念在TCP/IP网络协...

2020-01-21 18:54:22 10737

原创 微服务学习核心关键点

1.微服务的服务治理当我们架构微服务应用时首先遇到的一个问题是,作为消费者如何访问并调用服务提供者所提供的服务,作为服务提供者如何能让服务消费者知道并进行消费。在传统应用开发时,通常是在开发语言层面上解决这个问题,可能我们从来也没有考虑过这个问题,甚至可以说这个问题在传统开发时根本不存在。但在微服务架构下,同-一个微服务可能同时存在多个实例,并且这些微服务实例还在不停上线、下线, 那么...

2019-11-28 11:34:00 436

原创 spark读写Elasticsearch

关于scala代码和Elasticsearch集成已经很常见了直接一个maven配置<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-hadoop</artifactId> <version>6.1.0</ve...

2019-11-22 14:51:59 912

转载 SpringBoot整合Elasticsearch

版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/chen_2890/article/details/83895646学习本章内容的前提:1.能独立搭建SpringBoot项目。(SpringBoot的快速入门)2.Elasticsearch环境搭建完毕。(Elasticsear...

2019-11-12 16:35:57 482

原创 Hive优化实践

不管是对于流行的分布式数据计算框架(如离线的 MapReduce、流计算 Storm、 迭代内 存计算 Spark),还是分布式计算框架新贵(如 Flink、 Beam),抑或是商业性的大数据解决 方案(如 Teradata 数据库、 EMC Greeplum、 HP Vertica、 Oracle Exadata),“数据量大”从 来都不是问题,因为理论上来说,都可以通过增加并发的节点数来解决。...

2019-11-11 18:02:59 813

原创 ES源码之路(一):源码本地编译启动

ES源码之路(一):源码本地编译启动先来一段客套话,介绍一下ES:ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch用于云计算中,能够达到实时搜索,稳定,可...

2019-10-28 10:54:24 1730 1

原创 hive数据压缩和sql执行测试

1.创建库create database hivetest;hive默认有一个default库,不指定库名的话,所有的表都在里面hive&gt; show databases;defaulthivetest2.建表建表语句基本和mysql差不多create table querylog (time string,userid string,keyword string...

2019-03-05 14:41:51 509 1

原创 Hbase资源管理 Quotas

生产中,每个业务之间的重要性是不一致的,每个业务的数据量、读写需求也不一致,在1.1之前,一个集群中往往有很多个业务,有的同学可以执行一个耗时的scan操作,整个集群的资源被大量占用,其它非常重要的业务就被挤压的资源,造成一系列的事故,所以,很多时候,都会把hbase分成很多个集群,重要的业务单独一个集群,不重要的、数据量不大的再凑合凑合,又是一个集群,这样往往一个集群不会很大,造成一系列问题,集...

2019-01-10 21:38:37 2806

原创 StructuredStreamingInSQL项目实现动态更新 新版(直接替换,无需重启)。

CREATE TABLE kafkaTable( word string)WITH( type='kafka', kafka.bootstrap.servers='kafka001:9092', processwindow='10 seconds,10 seconds', watermark='10 seconds', subscribe='te...

2019-01-03 17:34:45 543 1

原创 StructuredStreamingInSQL项目SQL的动态添加

改变sql语句而不用重启项目实现更新目前只实现了动态添加,动态删除待实现kafka的配置为CREATE TABLE kafkaTable( word string, wordcount int)WITH( type='kafka', kafka.bootstrap.servers='dfttshowkafka001:9092', proces...

2018-12-17 17:11:07 529 1

原创 SQL实现Structured Streaming

需要的配置只有一个sql文件1.实现socket输入 console输出配置:CREATE TABLE SocketTable( word String, valuecount int)WITH( type='socket', host='hadoop-sh1-core1', port='9998', delimiter=' ');...

2018-12-12 14:19:09 785 3

转载 HIVE的十项企业级调优

原文地址:https://blog.csdn.net/Superman404/article/details/84074771话不多说直接上货。。。。。。。。。。。。。。。。。。。。。。。。。。。1.Fetch抓取 set hive.fetch.task.conversion=more(默认)Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。...

2018-11-23 10:09:56 212

原创 kudu 1.7  源码安装

kudu 1.7  源码安装一. 安装环境依赖yum install autoconf automake cyrus-sasl-devel cyrus-sasl-gssapi \  cyrus-sasl-plain flex gcc gcc-c++ gdb \  krb5-server krb5-workstation libtool make openssl-devel patc...

2018-11-22 18:00:48 2093 4

转载 Waterdrop帮你快速玩转Spark数据处理

原文地址:https://blog.csdn.net/gaoyingju/article/details/79394729Waterdrop 项目地址:https://interestinglab.github.io/waterdropDatabricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此...

2018-11-19 19:01:20 1399

转载 工厂模式

一、设计模式的分类总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两...

2018-11-16 11:23:14 193

原创 Flink安装、部署、KafkaSource、SinKToMysql

flink安装、部署、测试下载flink安装包flink下载地址https://archive.apache.org/dist/flink/flink-1.5.0/因为例子不需要hadoop,下载flink-1.5.0-bin-scala_2.11.tgz即可上传至机器的/opt目录下解压tar -zxf flink-1.5.0-bin-scala_2.11.tgz -...

2018-11-16 10:27:35 3133 2

原创 Nginx配置hbaseweb转发

目标为了公司集群的安全考虑,hadoop和hbase的web访问只能供有限的人访问 而要实现内网机器给外网访问,要解决的问题是:  1.hadoop、hbase页面上的url替换成外网能访问的url  2.通过有限的端口、外网ip对外提供整集群访问  下面就通过nginx反向代理的方式实现步骤整个实现步骤为:### 1.下载nginx_substitutions_filter并解...

2018-11-15 16:00:41 761

转载 如何从根源上解决 HDFS 小文件问题

原文地址:https://www.iteblog.com/archives/2320.html我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的时候会将这些元数据全部加载到内存...

2018-10-16 10:43:28 3227

转载 基于Kafka和ElasticSearch,LinkedIn如何构建实时日志分析系统?

今天,和跟大家分享我们在用ElasticSearch和Kafka做日志分析的时候遇到的问题,系统怎么样一步一步演变成现在这个版本。你如果想拿ElasticSearch和Kafka来做日志分析的话,会有一些启发。全文主要包括以下几个Topic: 日志分析系统的基本需求;LinkedIn的日志系统演进过程;我们的经验和教训。 为什么要做日志分析系统?首先,什么是日志?简单的...

2018-09-19 17:16:11 5344 2

转载 互联网大数据面试题集锦

原文地址:http://hbase.group/article/89以下面试题都是群里小伙伴提供的,现场真题(包含校招题)1.网易大数据面试题说说项目 Spark哪部分用得好,如何调优 Java哪部分了解比较好 聊聊并发,并发实现方法,volatile关键字说说 HashMap的底层原理 为什么要重写hashcode和equals 说说jvm 各个垃圾收集器运用在什么情形 ...

2018-09-17 10:04:57 5959

原创 HBase的Region定位为什么只需一个META表

Hbase就不介绍了,直入正题。为了让客户端找到包含特定主键的region,Hbase0.96之前提供了两张特殊的目录表-ROOT-和.META表,一下简称root和meta。root表用来查询所有meta表中热region的位置。meta表则是用来查找所有table的region的位置。Hbase原来的设计中只有一个root region,则root从不拆分,从而保证类似于B+树结构...

2018-09-14 13:47:59 8333

转载 美图个性化推荐的实践与探索

互 联网技术将我们带入了信息爆炸的时代,面对海量的信息,一方面用户难以迅速发现自己感兴趣的信息,另一方面长尾信息得不到曝光。为了解决这些问题,个性化推荐系统应运而生。美图拥有海量用户的同时积累了海量图片与视频,通过推荐系统有效建立了用户与内容的连接,大幅度提升产品的用户体验。在第七期美图技术沙龙中美图技术专家 蔡淇森分享了美图技术团队在个性化推荐上的实践与探索,希望对打开本篇文章的你有所启发...

2018-09-13 09:46:03 5233

转载 Flink 原理与实现:内存管理

原文地址:https://yq.aliyun.com/articles/57815?spm=a2c4e.11153940.blogrightarea64820.29.71e5167cM5y5cc摘要: 如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存...

2018-09-07 11:35:13 8091

转载 从将机器学习模型转化成真正产品和服务中学到的经验教训

人工智能依然处于它的幼年时期。今天,只有15%的企业在使用机器学习,但是有30%的企业已经在它们未来的发展路线图里包括了机器学习。像Intel的CEO这样的公众人物宣称,每一个企业都应该有一个机器学习的战略,否则就会有落后的风险。那么机器学习进入你的组织机构就仅仅只是个时间问题。当然,它目前还没有进入。然而在与希望在其企业中实施机器学习的CEO交谈时我们发现:将机器学习从科学转向生产似乎存在一...

2018-09-02 10:09:16 5900 1

原创 Hbase集群间实现数据相互同步

本次测试机器master2 、node1为第一个集群,node2、node3第二个集群,版本均为1.2.6在第一个集群的每个节点下添加如下配置:&lt;property&gt;&lt;name&gt;hbase.replication&lt;/name&gt;&lt;value&gt;true&lt;/value&gt;&lt;/property&gt;重启,使配置生效...

2018-08-30 09:29:24 11615 1

转载 Hive性能优化(全面)

原文地址:https://mp.weixin.qq.com/s/sVtfUFwoAbAyUq93W2M0wA1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始...

2018-08-27 14:32:55 6315 1

转载 Java GC 及HBase RegionServer GC调优

原文地址:https://blog.csdn.net/wwwxxdddx/article/details/509810891背景1.1问题描述HBase RegionServer由于GC等原因Stop World超过40s,RS在ZK上创建的临时节点被删除,造成Master认为RS已经下线,重新分配该RS上的Region。RS恢复后,由于种种原因(WAL被其它RSSplit并删除,Ma...

2018-08-24 13:47:02 5709

转载 SparkSQL – 从0到1认识Catalyst

原文地址:http://hbasefly.com/2017/03/01/sparksql-catalyst/最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有...

2018-08-23 21:13:59 9330 4

转载 HBase最佳实践-CMS GC调优

原文地址:http://hbasefly.com/2016/08/09/hbase-cms-gc/HBase发展到当下,对其进行的各种优化从未停止,而GC优化更是其中的重中之重。从0.94版本提出MemStoreLAB策略,Memstore Chuck Pool策略对写缓存Memstore进行优化开始,到0.96版本提出BucketCache以及堆外内存方案对读缓存BlockCache进行优化...

2018-08-23 19:53:16 6943

转载 HBase GC的前生今世(二)

原文地址:http://hbasefly.com/2016/05/29/hbase-gc-2/最原始的HBase CMS GC相当严重,经常会因为碎片过多导致Promotion Failure,严重影响业务的读写请求。幸运的是,HBase并没有止步不前,很多优化方案相继被提出并贡献给社区,本文要介绍的就是几个比较重要的核心优化,分别是针对Memstore所作的两个优化:Thread-Local...

2018-08-23 19:52:10 6111

转载 HBase GC的前生今世(一)

原文地址:http://hbasefly.com/2016/05/21/hbase-gc-1/在之前的HBase BlockCache系列文章中已经简单提到:使用LRUBlockCache缓存机制会因为CMS GC策略导致内存碎片过多,从而可能引发臭名昭著的Full GC,触发可怕的’stop-the-world’暂停,严重影响上层业务;而Bucket Cache缓存机制因为在初始化的时候就申...

2018-08-23 19:51:09 6072

转载 Spark的调度系统

一,简介Spark调度机制可以理解为两个层面的调度。首先,是Spark Application调度。也就是Spark应用程序在集群运行的调度,应用程序包括Driver调度和Executor调度。其次,就是每个Spark Application都会有若干Jobs(Spark Actions),然后这些job是以何种机制,在Executor上执行的,也是需要一个调度管理的机制,该层面调度也可以理解...

2018-08-23 09:32:59 8805

转载 Flink在唯品会的实践

本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。本文主要内容如下: 唯品会实时平台现状 Flink在唯品会的实践 Flin...

2018-08-23 09:30:45 6143

原创 kafka性能测试之Comsumer

接下来看看消费者的性能测试[root@hadoop-sh1-core1 bin]# ./kafka-consumer-perf-test.sh --helpMissing required argument "[topic]"Option Description -...

2018-08-16 16:02:16 7193

翻译 spark监控

有几种方法可以监控Spark应用程序:Web UI,指标和外部检测。Web界面默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括:调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要 环境信息。 有关运行执行程序的信息您只需http://&lt;driver-node&gt;:4040在Web浏览器中打开即可访...

2018-08-14 16:51:59 7424

翻译 spark调优

数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 概要由于大多数Spark计算的内存特性,Spark程序可能会受到群集中任何资源的瓶颈:CPU,网络带宽或内存。大多数情况下,如果数据适合内存,瓶颈就是网络带宽,但有时候,您还需要进行一些...

2018-08-14 16:49:27 6063

转载 Spark推测执行spark.speculation

1. 背景hadoop的推测执行   推测执行(Speculative Execution)是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生...

2018-08-14 15:16:32 6622

头条推荐原理讲解

头条推荐原理ppt详细解析 你值得拥有,还有其他资源呦

2018-08-13

Hive、Hbase、Mahout

内含mahout实践指南,hive编程指南,hbase权威指南,hbase实战,hbase企业应用实战,mahout实战等等7本书,你值得拥有

2018-05-24

机器学习与数据挖掘

内含推荐系统实战,机器学习实战,机器学习算法原理与编程实践,机器学习:实用案例解析,机器学习导论,数据挖掘:概念与技术,数据挖掘十大算法等等8本书,你值得拥有

2018-05-24

Hadoop指南、源码等6本

内含Hadoop权威指南第三版和第四版,Hadoop技术内幕Yarn与common与Hdfs架构设计原理,Mapreduce详解等6本书

2018-05-24

kafka书籍,三本

内含kafka权威指南,kafka源码解析与实战、Apache kafka源码剖析等三本书,你值得拥有

2018-05-24

hadoop、hive、spark、storm、机器学习

内含hadoop、hive、spark、机器学习、数据挖掘、storm、hbase等124本书,你值得拥有

2018-05-24

Hbase参数优化

里面是Hbase相关参数的优化

2018-05-17

Hive编程指南

这是大数据部分hive学习的编程指南,欢迎下载

2017-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除