- 博客(45)
- 收藏
- 关注
原创 kettle的行转列主键用法详解
前言: 工作需要,目前常常使用到kettle,我也是第一次用kettle来工作,在使用中遇到一些问题!我分享出来,希望对你们有所帮助的同时也是属于我自己的一份笔记,加深影响!废话不多说,kettle小白,勿喷!! 使用场景: 一会实例演示的场景是将一同一个人的数据拆分为多条数,废话不多说,看图: ...
2018-11-14 14:53:55 4266 2
原创 事实表和维度表的定义
一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。 首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是...
2018-08-26 23:29:46 14768 4
转载 什么是数据分层,数据分层的作用!
大数据环境下该如何优雅地设计数据分层0x00 前言最近出现了好几次同样的对话场景:问:你是做什么的?答:最近在搞数据仓库。问:哦,你是传统行业的吧,我是搞大数据的。答:......发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使...
2018-08-25 11:04:36 22350
转载 kafka能不能作为数据存储,你不知道的秘密!
Kafka你不知道的秘密! 人们总是问是否可以把 Kafka 作为长期的数据存储来使用,很显然,如果把数据保留策略设置为“永久”或者启用主题的日志压缩功能,那么数据就可以被永久保存下来。但我觉得人们其实真正想知道的是,这样做是不是很疯狂。简而言之,这样做不算疯狂。实际上,人们一直都在这么做,而且 Kafka 的设计意图之一就是要将它作为数据存储系统。不过问题是,为什么我们要把 Kafk...
2018-08-21 16:48:01 11120
转载 Hive性能优化(全面)解决数据倾斜等问题
Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数...
2018-07-31 08:39:14 3834 1
原创 Hbase的简介和它的分布式安装
一.Hbase的简介HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。H...
2018-07-16 22:45:06 174
原创 Scala 集合之 Tuple
元组:简而言之:就是数组总存储的是不同类型的值,一个元组中最多能存22个元素package com.huadian.bigdata.gather//元组:简而言之:就是数组总存储的是不同类型的值,一个元组中最多能存22个元素object TupleDemo { def main(args: Array[String]): Unit = { //创建一个元组 var firs...
2018-07-15 23:39:43 1589
原创 Scala 集合之 Map
Map Map同Set一样,默认个的定义是不可变类型,想要可变的类型需要引包 不可变(默认:): scala.collection.immutable Map() 可变: scala.collection.mutable mutable.Map()pack...
2018-07-15 23:37:15 1409
原创 Scala 集合之 Set
Set 对于Set而言,可变和不可变的定义包不同: 不可变Set的包名(默认); scala.collection.immutable Set()可变Set的包名: scala.collection.mutable...
2018-07-15 23:33:17 646 1
原创 Scala 集合之 List
List 不可变的类名称 List 可变的类名称: ListBufferlist的组成:head,tail list = head(Element) +tail(Element),除了头部以外的元素都是尾object ListDemo { def main(args: Array[String]): Un...
2018-07-15 23:29:07 344
原创 Scala 集合之 Array
scala语言中,数组或者集合都是有分为可变集合和不可变集合两类: 可变集合:当添加集合中的元素时,就是直接在原有的集上添加, 不可变集合:就是当添加新的元素的时候,将老的元素和新的元素一同添加到一个新的集合中->Array 不可变的类名称: Array 可变的类名称: ArrayBuffer...
2018-07-15 23:25:44 421
原创 MVC,MVP和MVVM的简介与区别
1 MVC全名:model + view + controller (模型) + (视图) + (控制器)简介: MVC是一种使用MVC设计创建的web应用程序的模式:1. model:表示应用层核心!(比如数据库记录列表)2. view 表示显示数据(web界面)3. controller:处理输入.它强制性的使应用程序的输入,处理,和输出分开,...
2018-07-06 18:01:44 384
原创 hive的MetaStore
hive的元数据!==1==>为什么需要开启hive的metastore service 应用有像spark这样需要用到hive元数据的框架存在!所以就要给它们开放服务! ==2==>metaStore: metaStore,默认存储在 derby 数据库中,但是derby数据库不能支持我们开启多个窗口,所以我们会将metaStore存放到MySql中; met...
2018-07-02 22:55:14 2723
原创 HIVE文件格式和压缩(附带翻译官方文档!)
对应官方文档:https://cwiki.apache.org/confluence/display/Hive/FileFormats==1==>Parquet存储数据: Parquet文件格式简介: Parquet文件格式是Hadoop的生态系统范围的柱状格式(列存储!)原文件大小: parquet 文件格式的使用: 它的使用很简单,只要在建表的时候将文件类型处的参数从 该...
2018-07-02 22:00:41 542
原创 HIVE基础入门学习(必会!!附带jar包)
hive介绍 Apache的顶级项目,(是一个java程序) Facebook公司(2008年)开源给Apache基金会! hive官网: http://hive.apache.org/ hive到底是干什么的 将SQL转换成MapReduce程序,并将程序提交到YARN集群运行,不会自动生成结果文件, 直接读取HDFS上的数据进行处理. sql query(查询):它的查询类似于MySQL...
2018-06-26 13:51:19 2231 1
原创 Hadoop分布式集群环境部署!
1. 机器准备1.1三台机器的目录结构,用户,用户权限都必须完全一致!且在同一网段 为了方便管理,ip等用一下设置: ip hostname 192.168.59.162bigdata-hpsk02.com bigdata-hpsk02 ...
2018-06-21 00:23:02 339
原创 Linux免密远程登录!
Linux远程登录Linux系统作为一款安全稳定的操作系统,被广泛应用于如金融、通讯等行业的信息系统建设。随着科技的不断创新,系统应用不断深入,实现linux ssh免密码登录也越来越多的被涉及到,其中比较典型的是hadoop大数据平台的搭建中,就不可避免的应用到ssh免密码登录。那么如何实现linux ssh的免密码登录呢?下面根据自己的亲身经历及验证测试对其做了详细的介绍.首先我们看一下没有配...
2018-06-20 19:20:36 776
原创 linux集群的时间同步
Linux系统一般用作服务器,当然,一台服务器是万万不够的,所以就需要很多,机器多了就会出现时间不同步的问题,所以就需要设置时间同步! 那么需要怎么设置时间同步?一般集群中只会有一台机器拥有访问外网的权限!这台可以访问外网的机器同步外网的时间,!那么所有的没有访问外网权限的节点机器,都去同步拥有访问外网权限的节点机器! 这样的好处是:就算外网断网了,拥有访问外网权限的节点机器时...
2018-06-20 17:58:36 1052
原创 SVN的学习.SVN的使用方式!TortoiseSVN以及TortoiseSVN汉化包下载和使用!
一.SVN是什么:SVN是Subversion的简称,是一个开放源代码的版本控制系统,说得简单一点SVN就是用于多个人共同开发同一个项目,共用资源的目的。二.SVN的工作流程:集中式管理的工作流程: 集中式代码管理的核心是服务器,所有开发者在开始新一天的工作之前必须从服务器获取代码,然后开发,最后解决冲突,提交。所有的版本信息都放在服务器上。如果脱离了服务器,开发者...
2018-06-12 15:03:23 7578 3
原创 大数据环境安装!Linux系统上的Hadoop伪分布式!
一、伪分布式安装 2.7.6版本 官网安装过程 http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 下图中,配置各个模块时的键值对书写的地方:<configur...
2018-06-12 09:29:18 156 1
原创 学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)
一、学习大数据需要的基础 java SE,EE(SSM) 90%的大数据框架都是java写的 MySQL SQL on Hadoop Linux 大数据的框架安装在Linux操作系统上二、需要学什么 2.1:大数据离线分析 一般处理T+1数据 (T+1:T表示处理时间(一天,一周,或者一月,一般不会一年处理一次数据) +1:表示处理一次数据) Hadoop :(common、HDF...
2018-06-09 00:21:24 755
原创 大数据,这些你了解了么?
一.Hadoop的起源 谈到大数据,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础! Google FS---------> HDFS MapReduce-------> MapReduce BigTable------...
2018-06-09 00:07:32 225 2
原创 创建maven的Java web项目
1.新建一个项目:2.选择Maven项目,和模板的选择!3.设置组织名,项目名和版本号4.设置你的包名,和存储地址!以及项目格式!5.进入项目后,在你的idea右下角有这样一个选项,一定要选择!6.选择后,在它加载的时候,去配置Maven7.配置Java项目结构!创建一个com.组织名.maven.servlet这样的包组这里创建servlet需要导入jar包才能创建,所以先导入包!导入包的详细请...
2018-06-08 01:15:35 217
原创 Maven入门(Maven的jar包导入;maven工程目录中各个文件的作用!)
一.pom.xml设置:要添加的jar包在: http://mvnrepository.com 找!如:切记,这个并不是直接输入的,而是拷贝的,如果直接设置,可能会出错!二.Maven的常用命令:--> mvn -version 作用:显示Maven的版本,和jdk的版本(应为Maven是纯Java编译的)--->mvn clean 作用:清楚编...
2018-06-07 23:23:59 1294
原创 Maven的介绍,下载,安装!
一.Maven的简单介绍! 1.Maven的意思: "专家;行家" 2.Maven简介: maven它是一个项目的管理工具;是存Java开发的,Maven的作用是对于Java项目进行构建,和依赖管理(管理原本lib包中的东西) 3.使用Maven的好处, 1).依赖管理: 对Java同一管理,节省空间, ...
2018-06-07 21:36:21 148
转载 shell编程学习(创建;执行;变量;转义;取消转义;控制台输入)
一.创建一个shell的可执行文件 #!开头: 是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行,即使用哪一种 Shell。二.执行shell的可执行文件sh 可执行文件名称:三:shell编程的变量声明:注意,变量名和等号之间不能有空格,这可能和你熟悉的所有编程语言都不一样。同时,变量名的命名须遵循如下规则:命名只能使用英文字母,数字和下划线,首个字符不能以...
2018-06-06 01:14:04 5043
原创 VMware的克隆和导入克隆(修改ip,mac,hosts,hostname)
第一步:关机第二步:在VMware中选择克隆:第三步:跟着克隆向导一步一步操作:第四步:配置克隆虚拟机: 克隆完成后还不能完全使用,还要去开机修改它的机器属性,应为计算机的属性都是唯一的!(如mac地址)4.1开启虚拟机:4.2修改mac地址:如果修改后 用wq不能保存:那么,就选择强制保存: wq!4.3修改ip和hostName IP修改: ip修改后需要重新启动network服...
2018-06-05 16:15:07 3819
原创 VMware的快照和恢复
第一步: 关机: init 0第二步: 在VMware中选择拍摄快照第三步: 给你将要拍摄的快照取名,完成后单击拍摄快照就有快照了第四步: 拍摄快照后我们也可以去管理它们:第五步:选中以前的快照可以恢复: 作者:唐平时间:20118-6-5...
2018-06-05 14:31:16 17328
原创 Linux的解压和压缩!(gzip;bzip2;tar)
一.常见的压缩格式:1.zip: gzip: 后缀名:.gz 压缩命令: gzip 要压缩的文件路径 解压命令:gunzip 要解压的文件路径 特点: 不能对文件夹进行压缩 压缩后源文件没有2.bzipbzip2:适合压缩大文件 ...
2018-06-05 14:10:11 255
原创 Linux系统管理命令(硬盘;网络;服务;端口:进程)
一.硬盘管理1.常见的硬盘分类: IDE: hda, hdb, hdc, SAS: (SCSI) --> SATA: sda,sdb SSD 2.管理命令 df -h 作用:显示硬盘详细信息: ...
2018-06-05 11:19:00 471
原创 Linux的权限管理;Linux的用户管理,Linux的用户组管理
Linux的用户分为两种: 1.管理员用户: 管理员用户只有一个,UID=0,的就是管理员用户; 一般情况下,默认它的用户名root 家目录: /root root :x :0 :0 :root :/root :/bin/bash 用户名 密码 UID ...
2018-06-05 01:09:31 287
原创 Linux的常见命令和操作示范!
cd 作用:跳转到指定路径 用法: cd+空格+要跳转的路径 --------------------------------------------------------------------- ls -l 作用:显示详细信息 简写: ll ...
2018-06-04 23:27:27 2408 1
原创 通过SecureCRT远程操作Linux服务器控制台,和文件传输!以及部分Linux控制台命令!
1.配置远程控制台连接:为了让这个远程操作能接近原版的控制台操作样式,我们可以设置一下它的样式:2.配置远程文件上传程序:为了跳过繁琐的配置连接过程,SecureCRT提供了一个方便的类似于连接共享的功能:用户密码验证: 作者:唐平时间:2018-6-3 ...
2018-06-03 00:04:29 2494 1
原创 配置Linux系统的网络,以便于其他电脑远程操作服务器!
1.启动创建好的虚拟机(具体创建步骤请看本人同一天发布的另一条关于虚拟机创建的博客!)2.第一次启动创建好的虚拟机,会出现这样一个弹框(该硬件不受CITOS的支持。有关支持的硬件信息,请参考http/www. www.)单击图中的ok就好,但是现在的鼠标并不能进行操作,所以 ( 鼠标单击一下这个界面,然后按下 enter) 这样就能点击到ok按键了3.耐心等待进度条结束(Ctrl+Alt 是...
2018-06-02 23:15:18 2971
原创 关于Linux的虚拟机创建,和Linux系统的简单介绍!
Linux的简介 1.简介: Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。 2.特点: 多用户、多任务、支...
2018-06-02 21:06:44 861 3
原创 面向对象的四大基本特征和五大基本原则
面向对象主要有四大特性· 抽象o 忽略一个主题中与当前目标无关的东西,专注的注意与当前目标有关的方面.(就是把现实世界中的某一类东西,提取出来,用程序代码表示,抽象出来的一般叫做类或者接口).抽象并不打算了解全部问题,而是选择其中的一部分,暂时不用部分细节.抽象包括两个方面,一个数据抽象,而是过程抽象.o 数据抽象 -->表示世界中一类事物的特征,就是对象的属性.比...
2018-05-28 10:32:05 16070 1
原创 面向对象:类的概念和定义!
面向对象的概念: 对象: Object,含有“物体”的概念,一切皆物体(对象)。对象由静态的属性和动态的行为组成。 属性:行为:存储、保温 类: 一组具有相同属性和行为的对象的抽象。杯子: ...
2018-05-28 10:16:37 19558 2
原创 函数(方法)的概述和应用场景!
函数的概述: 为了提高代码的复用性,就把该功能独立封装成一段独立的小程序,当下次需要执行加法运算的时候,就可以直接调用这个段小程序即可,那么这种封装形形式的具体表现形式则称作函数。 举例1:地铁自动售票机,接收纸币或硬币,返回车票,该售票机具有独立功能,可以理解为函数。有未知内容参与运算(要投币,纸币硬币,多少钱)。有返回值(返回车票) 举例2:手机,手机具备打电话功能,有...
2018-04-23 00:04:11 819 1
原创 for,while,do....while,三大循环结构的用法和对比!
循环三要素: 起始值, 终点值, 步长 循环体中定义的变量都是局部变量,尤其是for结构要注意for() 括号中的也是局部变量 while while(判断条件){循环操作}1>,判断while 后面的条件是否成立(true / false)2>,当条件成立时,执行循环内的操作代码,然后重复循环1>,2>,直到循环不成立为止.特点:先判断,后执行!wh...
2018-04-22 23:26:48 2134 1
原创 switch 多分支语句,及其流程图,和if的对比和运行机制
switch : 在编程中常见的问题就是检测一个变量是否符合某个条件,如果条件不符合,再用另一个值来检测,以此类推.当然也可以用if语句来完成也可以,如输入月份判断一年的季节,代码如下:public static void main(String[] args) { System.out.println("请输入一个月份:"); Scanner scanner = new Scan...
2018-04-20 01:30:32 43252 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人