自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (3)
  • 收藏
  • 关注

原创 clickhouse 入门介绍和预演

一:简介ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。简称CK, 与Hadoop, Spark相比,ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月15日开源, 开发语言为C++。这对保守俄罗斯人来说是个特大事。更让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件,例如Vertica。(如果你没有听过Vertica,那你一定听过 Michael Stonebraker,2014年图灵奖的获得者,Pos...

2020-08-25 14:38:48 1132

原创 sonarqube简介+架构+搭建+不同语言详细用法

SonarQube一,简介Sonar 是一个很优秀的代码分析工具,可以帮助程序员们发现很多潜在的问题和BUG。Sonar可以从以下七个维度检测代码质量。1. 不遵循代码标准sonar可以通过PMD,CheckStyle,Findbugs等等代码规则检测工具规范代码编写。2. 潜在的缺陷sonar可以通过PMD,CheckStyle,Findbugs等等代码规则检测工具检测出潜在的缺陷。3. 糟糕的复杂度分布文件、类、方法等,如果复杂度过高将难以改变,这会...

2020-06-13 16:38:24 7880 1

原创 kylin 重点介绍

Kylin是ebay开发的一套OLAP系统,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,采用多维立方体(Cube)预计算技术,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中,通过预计算的方式缓存了所有需要查询的的数据结果,需要大量的存储空间(原数据量的10+倍),可以将某些场景下的大数据 SQL 查询速度提升到亚秒级别。Kylin系统架构...

2019-09-16 13:38:05 1143

转载 数据仓库常用几种建模方法

本文主要的主线就是回答下面三个问题:什么是数据模型为什么需要数据模型如何建设数据模型最后,我们在本文的结尾给大家介绍了一个具体的数据仓库建模的样例,帮助大家来了解整个数据建模的过程。一、 什么是数据模型数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过...

2019-02-18 14:43:31 16271

原创 druid 小测试

单机版安装记录1,下载并解压tar -xzvf ruid-0.12.1-bin.tar.gz2,安装好zk过程略3,配置Druid# vi conf-quickstart/druid/_common/common.runtime.properties---# 配置zookeeper连接,如果zookeeper端口是2181可以不写端口号,多个zookeeper使用英文逗号...

2018-12-04 18:16:38 747 1

转载 Druid系统架构

什么是DruidDruid是一个高效的数据查询系统,主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入,进入到Druid后立即可查,同时数据是几乎是不可变。通常是基于时序的事实事件,事实发生后进入Druid,外部系统就可以对该事实进行查询。Druid系统架构Druid是一组系统,按照职责分成不同的角色。目前存在五种节点类型:Historical: 历史节点的职责主要...

2018-11-14 15:41:11 382 1

原创 hive常用调优666

一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;    默认值:strict   描述:strict是避免全分区字段是...

2018-11-09 16:43:30 159

原创 hbase+phoenix开发预演小例子

************************建表**************************HBASE中创建表,为了防止数据倾斜,建表时要建立预分区create_namespace 'CPLC'create 'CPLC:B_STUDENTS','F1','F2',SPLITS => ['001','002','003']查看所有表list查看表内容scan 'CPL

2017-09-25 22:28:14 322

原创 ubuntu中ssh安装使用小结

ubuntu默认并没有安装ssh服务,如果通过ssh链接ubuntu,需要自己手动安装ssh-server。判断是否安装ssh服务,可以通过如下命令进行:$ ssh localhostssh: connect to host localhost port 22: Connection refused如上所示,表示没有还没有安装,可以通过apt安装,命令如下:安装

2017-01-21 16:18:49 298

原创 Phoenix安装小结

安装Phoenix首先注意安装phoenix的节点要安装zookeeper,否则会出现客户端连接不上的情况1。将phoenix-4.5.2-HBase-1.1-bin/目录下phoenix-core-4.5.2-HBase-1.1.jar、phoenix-4.5.2-HBase-1.1-server.jar拷贝到各个 hbase的lib目录下。2。官网没有这一步,参考网上资料做

2017-01-08 15:28:33 360

原创 hive知识点小结

hive------------------数据仓库,OLAP,分析处理,存储和分析,延迟较高。数据库:  OLTP,在线事务处理,低延迟,事务支持。运行在hadoop,类SQL方法方式运行,SQL(HiveQL,HQL),MR运算。操纵的结构化数据。schema(模式,元信息存放到数据库中),HDFS文件。derby,mysql。数据库和表都是路径。hiv

2016-11-13 12:42:38 1775

原创 Storm简单介绍

storm------------------实时计算系统。使用场景:实时分析、在线机器学习、持续计算。         流计算。速度快,每秒每节点处理数据百万tuple级别.topology:无状态,集群状态和分布式环境信息在zk中保存。确保每个消息至少被消费一次。核心概念-----------------1.tuple :元组数据结构

2016-10-12 14:18:59 302

原创 maven的安装与maven本地仓库的搭建过程

maven的安装与maven本地仓库的搭建过程maven的安装-----------------------         1.下载并解压apache-maven-3.3.9-bin.tar.gz到/soft下.         2.创建符号连接                   $>cd /soft                   $>ln -s apache

2016-09-23 17:53:06 1702

原创 Hadoop的伪分布和完全分布安装配置过程

客户机环境处理修改win7 hosts文件以便查看web UI--------------------         [C:\Windows\System32\drivers\etc\hosts]         127.0.0.1localhost         192.168.238.128 s100         192.168.238.129 s102

2016-09-21 19:13:50 1926

flink零基础入门.pdf

Apache Flink 进阶(一):Runtime 核心机制剖析 4 Apache Flink 进阶(二):时间属性深度解析 18 Apache Flink 进阶(三):Checkpoint 原理剖析与应用实践 30 Apache Flink 进阶(四):Flink on Yarn/K8s 原理剖析及实践 41 Apache Flink 进阶(五):数据类型和序列化 60 Apache Flink 进阶(六):Flink 作业执行深度解析 71 Apache Flink 进阶(七):网络流控及反压剖析 88 Apache Flink 进阶(八):详解 Metrics 原理与实战 112 Apache Flink 进阶(九):Flink Connector 开发 125 Apache Flink 进阶(十):Flink State 最佳实践 141 Apache Flink 进阶(十一):TensorFlow On Flink 149 Apache Flink 进阶(十二):深度探索 Flink SQL 159 Apache Flink 进阶(十三):Python API 应用实践 181

2020-06-09

spark 2.0 详解

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

2019-02-19

hadoop权威指南第3版

hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

2018-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除