biwenjun999-CSDN博客

原创 clickhouse 入门介绍和预演

一：简介ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。简称CK, 与Hadoop, Spark相比，ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月15日开源, 开发语言为C++。这对保守俄罗斯人来说是个特大事。更让人惊讶的是，这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件，例如Vertica。（如果你没有听过Vertica，那你一定听过 Michael Stonebraker，2014年图灵奖的获得者，Pos...

2020-08-25 14:38:48 1132

原创 sonarqube简介+架构+搭建+不同语言详细用法

SonarQube一，简介Sonar 是一个很优秀的代码分析工具，可以帮助程序员们发现很多潜在的问题和BUG。Sonar可以从以下七个维度检测代码质量。1. 不遵循代码标准sonar可以通过PMD,CheckStyle,Findbugs等等代码规则检测工具规范代码编写。2. 潜在的缺陷sonar可以通过PMD,CheckStyle,Findbugs等等代码规则检测工具检测出潜在的缺陷。3. 糟糕的复杂度分布文件、类、方法等，如果复杂度过高将难以改变，这会...

2020-06-13 16:38:24 7880 1

原创 kylin 重点介绍

Kylin是ebay开发的一套OLAP系统，它是一个MOLAP系统，主要用于支持大数据生态圈的数据分析业务，采用多维立方体（Cube）预计算技术，它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中，通过预计算的方式缓存了所有需要查询的的数据结果，需要大量的存储空间（原数据量的10+倍），可以将某些场景下的大数据 SQL 查询速度提升到亚秒级别。Kylin系统架构...

2019-09-16 13:38:05 1143

转载数据仓库常用几种建模方法

本文主要的主线就是回答下面三个问题：什么是数据模型为什么需要数据模型如何建设数据模型最后，我们在本文的结尾给大家介绍了一个具体的数据仓库建模的样例，帮助大家来了解整个数据建模的过程。一、什么是数据模型数据模型是抽象描述现实世界的一种工具和方法，是通过抽象的实体及实体之间联系的形式，来表示现实世界中事务的相互关系的一种映射。在这里，数据模型表现的抽象的是实体和实体之间的关系，通过...

2019-02-18 14:43:31 16271

原创 druid 小测试

单机版安装记录1，下载并解压tar -xzvf ruid-0.12.1-bin.tar.gz2，安装好zk过程略3，配置Druid# vi conf-quickstart/druid/_common/common.runtime.properties---# 配置zookeeper连接，如果zookeeper端口是2181可以不写端口号，多个zookeeper使用英文逗号...

2018-12-04 18:16:38 747 1

转载 Druid系统架构

什么是DruidDruid是一个高效的数据查询系统，主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入，进入到Druid后立即可查，同时数据是几乎是不可变。通常是基于时序的事实事件，事实发生后进入Druid，外部系统就可以对该事实进行查询。Druid系统架构Druid是一组系统，按照职责分成不同的角色。目前存在五种节点类型：Historical：历史节点的职责主要...

2018-11-14 15:41:11 382 1

原创 hive常用调优666

一、查看执行计划explain extended hql；可以看到扫描数据的hdfs路径二、hive表优化分区（不同文件夹）：动态分区开启：set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; 默认值：strict 描述：strict是避免全分区字段是...

2018-11-09 16:43:30 159

原创 hbase+phoenix开发预演小例子

************************建表**************************HBASE中创建表，为了防止数据倾斜，建表时要建立预分区create_namespace 'CPLC'create 'CPLC:B_STUDENTS','F1','F2',SPLITS => ['001','002','003']查看所有表list查看表内容scan 'CPL

2017-09-25 22:28:14 322

原创 ubuntu中ssh安装使用小结

ubuntu默认并没有安装ssh服务，如果通过ssh链接ubuntu，需要自己手动安装ssh-server。判断是否安装ssh服务，可以通过如下命令进行：$ ssh localhostssh: connect to host localhost port 22: Connection refused如上所示，表示没有还没有安装，可以通过apt安装，命令如下：安装

2017-01-21 16:18:49 298

原创 Phoenix安装小结

安装Phoenix首先注意安装phoenix的节点要安装zookeeper,否则会出现客户端连接不上的情况1。将phoenix-4.5.2-HBase-1.1-bin/目录下phoenix-core-4.5.2-HBase-1.1.jar、phoenix-4.5.2-HBase-1.1-server.jar拷贝到各个 hbase的lib目录下。2。官网没有这一步，参考网上资料做

2017-01-08 15:28:33 360

原创 hive知识点小结

hive------------------数据仓库，OLAP，分析处理，存储和分析，延迟较高。数据库: OLTP,在线事务处理，低延迟，事务支持。运行在hadoop，类SQL方法方式运行，SQL(HiveQL,HQL),MR运算。操纵的结构化数据。schema(模式，元信息存放到数据库中)，HDFS文件。derby，mysql。数据库和表都是路径。hiv

2016-11-13 12:42:38 1775

原创 Storm简单介绍

storm------------------实时计算系统。使用场景：实时分析、在线机器学习、持续计算。流计算。速度快，每秒每节点处理数据百万tuple级别.topology:无状态，集群状态和分布式环境信息在zk中保存。确保每个消息至少被消费一次。核心概念-----------------1.tuple :元组数据结构

2016-10-12 14:18:59 302

原创 maven的安装与maven本地仓库的搭建过程

maven的安装与maven本地仓库的搭建过程maven的安装----------------------- 1.下载并解压apache-maven-3.3.9-bin.tar.gz到/soft下. 2.创建符号连接 $>cd /soft $>ln -s apache

2016-09-23 17:53:06 1702

原创 Hadoop的伪分布和完全分布安装配置过程

客户机环境处理修改win7 hosts文件以便查看web UI-------------------- [C:\Windows\System32\drivers\etc\hosts] 127.0.0.1localhost 192.168.238.128 s100 192.168.238.129 s102

2016-09-21 19:13:50 1926

flink零基础入门.pdf

Apache Flink 进阶（一）：Runtime 核心机制剖析 4 Apache Flink 进阶（二）：时间属性深度解析 18 Apache Flink 进阶（三）：Checkpoint 原理剖析与应用实践 30 Apache Flink 进阶（四）：Flink on Yarn/K8s 原理剖析及实践 41 Apache Flink 进阶（五）：数据类型和序列化 60 Apache Flink 进阶（六）：Flink 作业执行深度解析 71 Apache Flink 进阶（七）：网络流控及反压剖析 88 Apache Flink 进阶（八）：详解 Metrics 原理与实战 112 Apache Flink 进阶（九）：Flink Connector 开发 125 Apache Flink 进阶（十）：Flink State 最佳实践 141 Apache Flink 进阶（十一）：TensorFlow On Flink 149 Apache Flink 进阶（十二）：深度探索 Flink SQL 159 Apache Flink 进阶（十三）：Python API 应用实践 181

2020-06-09

spark 2.0 详解

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

2019-02-19

hadoop权威指南第3版

hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

2018-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人