自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

转载 Apache kylin原理

本文主要介绍了Apache Kylin是如何将Hive表中的数据转化为HBase的KV结构,并简单介绍了Kylin的SQL查询是如何转化为HBase的Scan操作。Apache Kylin 是什么Apache Kylin是一个开源的、基于Hadoop生态系统的OLAP查询引擎,能够通过SQL接口对十亿、甚至百亿行的超大数据集实现秒级的多维分析查询。OLAP 是什么即

2018-02-06 19:08:26 1412

转载 kylin cube segment合并

一、segment        cube的计算是将每天的数据作为一个segment进行存储,一个segment对应hbase中的一张表。有多少个build任务就会有多少个segment,在hbase中就会有多少张表。二、查询        在指标平台进行报表查询时,选择了一个时间段,比如20170606-2070629,使用kylin进行查询时会扫描hbase中这段时间每

2018-02-06 19:00:11 4054 2

转载 kylin维度优化指南

先说一下维度表需要遵循的规范:维表需要有code和name,比如:city_code city_namecode字段的类型最好使用整数,这样可以加快kylin的构建速度和查询速度如果维表是层级维表,比如是国家、省份、城市的层级需要对每个层级都要有对应的code和name,比如:country_code country_name province_code province_name

2018-02-06 18:56:30 5307

转载 kylin使用过程中需要注意的点

一、维表事实表中多个维度字段不能关联同一张维表。如果关联同一张表的情况,可通过视图区别开。二、维表字段   不同维表中的字段不能同名,建议加上表名做前缀。字段的中文描述应区分开,比如city_name,根据字段的不同用途可分别命名为所在地城市、访问地城市。    对于时间维表,配置cube 时 选定的字段命名必须 统一:日 的叫 DATE  字段, 周是SUN_DT

2018-02-06 18:54:36 3989 1

转载 kylin报错及解决方案总结

一、在build cube这一步中报错:Value not exists!查询该步的mr日志,提示 Not a valid value:2017-05-31,有两种可能1.该错误是由于build过程中,所引用的维表数据发生了变化,使用该值查询维表,维表中不存在这条数据。2.olap表关联了维表,但只使用了关联字段,如果olap表的code在维表里不存在,则会报错

2018-02-06 18:46:45 13932

原创 seo/sem简单记忆

因为工作中跟这一块儿会有一点点接触,为避免遗忘,特对seo和sem做一个简单的笔记,方便记忆。seo:Search Engine Optimization,搜索引擎优化,搜索引擎营销的一种推广方法,SEO是指通过对网站进行站内优化(网站结构调整、网站内容建设、网站代码优化等)和站外优化,从而提高网站的关键词排名以及公司产品的曝光度。(百度百科)seo见效慢,周期长,相当于自然优化,有点

2017-06-11 23:24:24 580

原创 初识hadoop

hadoop 提供了一个可靠的共享存储和分析系统,hdfs实现存储,mapreduce 实现分析处理,这两部分是它的核心。mapreduce和关系型数据库的区别 1. 关系型数据库处理GB级别数据大小的任务,mapreduce处理PB级别数据大小的任务 2. 关系型数据库处理结构化的数据,mapreduce处理非结构化或者半结构化数据非常有效,因为处理数据时才对数据进行解释 3. 关系型数据往往

2017-05-21 21:41:37 257

原创 数据倾斜及处理方案

1.什么是数据倾斜 大家可能会发现这样一种现象:在执行hive查询的时候,map早已经100%了,而reduce也早早到了90% +,但是可能会一连出现多个99%,而且迟迟停在99%,不再向下走,这是数据倾斜最常见的表现。 2.什么会导致数据倾斜 以MapReduce实现过程为例,如果大多数item对应用户量都是几十万的级别,少量item对应user量很大,例如百万以上,则聚集到这些item上

2017-04-08 23:15:03 896

原创 用python做词频统计

假设有一个本地的txt文件,相对其进行词频统计,可以这样写:import timepath='C:\\Users\\zhangxiaomei\\Desktop\\Walden.txt'with open(path,'r') as text: words=text.read().split() print(words) for word in words:

2017-03-28 21:48:00 9420 1

原创 数据结构的一些技巧

一.多重循环 1.排序num_list=[6,2,7,4,1,3,5]print (sorted(num_list))逆序:sorted(num_list,reverse=True)2.在整理列表的过程中,如果需要两个列表,可用如下函数:for a,b,in zip(num,str): print (b,'is',a)二.推导式(列表解析式)a=[]for i in range(1,

2017-03-28 20:44:04 546

原创 python数据结构

python有四种数据结构,分别是列表、元组、字典和集合。 一.列表 1.列表最显著的特征是: 1.1列表中的每一个元素都是可变的 1.2列表中的元素都是有序的,每个元素都有一个位置 1.3列表可以容纳python中的任何一个对象 如 all_list=[‘hello’,1,1.0,True,[1,2],(1,2),

2017-03-28 16:59:17 569

原创 日志检测活动效果 如何将用户访问路径串起来(session id)

一个很实用的场景:某业务借助于其他平台投放了一些链接,用户点了此链接后,会跳转到自家产品的页面,比如评价页面,如果用户不通过外部链接进入页面,打开自家的产品,也可以进入到评价页面,不管用户从何而来,评价页面的url是不会变化的,如何纯粹衡量外部平台带来的流量究竟有多少?此处就涉及到如何将用户的访问路径串起来的问题。

2017-03-18 00:47:04 930

原创 hive 解析日志常用的几个函数

大家都知道日志的形式偏非结构化,有很多特殊的字符等等,现总结一些日志中常用或者易用到的函数便于日志数据的提取、解析。 1.get_json_object,底层日志经常会被储存为json字符串的形式,如果想获得各个维度的值,往往需要这个函数把对应的值取出来,具体用法为:get_json_object(action,'$.evt_id') 取出1111027379533此处假设需要解析的字段叫act

2017-03-16 23:25:50 727

原创 oozie常用语句

一.oozie的介绍:oozie可以被称为一个调度系统,具体可参照此篇博文:http://shiyanjun.cn/archives/684.html 以上这篇博文将oozie的功能和使用方法介绍的很详细 二.oozie执行后续监控:可以将oozie的执行结果写入mysql数据表中,通过本地的sh mysql.sh可以查看oozie的执行情况: 1.执行时长统计:select t

2017-03-02 21:06:16 1071

原创 HIVE分区

hive分区对数据进行分区,最重要的原因就是为了更快的查询,分区表改变了hive对数据存储的组织方式,当我们在where子句中增加谓词按照分区值进行过滤时,这些谓词被称为分区过滤器。1.如果表中的数据及分区非常大的话,执行一个包含所有分区的查询可能会触发一个巨大的Mapreduce任务。一个高度建议的安全措施就是将Hive设置为“strict”模式,这样如果对分区表进行查询而where子句没有加分

2017-02-04 14:22:09 460

原创 HiveQL:数据定义

一.数据库部分 1.创建数据库:create database dw; 或者create database if not exists dw;create database dw comment "this is a test database";create database dw location 'my/prefered/location/';create database dw wi

2017-01-15 17:51:48 281

原创 用R画直方图

用R画直方图和核密度图条形图、饼图:分类型名义型数据展示 直方图:描述连续型数据 一.首先展示一下直方图: 接下来将展现如何画直方图的代码:>par(mfrow=c(2,2))>hist(mtcars$mpg)>hist(mtcars$mpg,breaks=12,clo="red",xlab="miles per gallon",main="Colored histogram with

2017-01-07 20:55:26 17192

原创 R数据导入方法及访问数据库管理系统

一.导入数据方式 1.使用键盘输入数据#首先创建一个空的数据框,然后用edit,R将会弹出一个数据编辑窗口> mydata<-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))> mydata<-edit(mydata)#也可以写成fix(mydata)2.从带分隔符的文本文件导入数据#用Windows系统时对于文件

2017-01-01 00:13:43 947

原创 程辑包‘installr’是用R版本3.3.2 来建造的解决方法

用R的时候会碰到这种情形:install.packages(“RODBC”)不会报错但是install成功后执行这个语句时会报错:library(RODBC),显示错误如下:程辑包‘installr’是用R版本3.3.2 来建造的 不只是RODBC这个包,在导入其他的包时也会碰到这个问题,解决方案如下: install.packages(“installr”) require(install

2016-12-31 14:37:16 23364 6

原创 R数据结构

R数据结构 1.向量:同一向量中无法混杂不同模式的数据a<-c(1,2,3,4,5)b<-c("a","b","c","d")2.矩阵:二维数组,同样要求数据类型一致> y<-matrix(1:20,nrow=5,ncol=4)> y [,1] [,2] [,3] [,4][1,] 1 6 11 16[2,] 2 7 12 17[3,]

2016-12-29 20:10:46 355

原创 R语言之数据处理难题的一套解决方案

用R进行数据处理来源:现在有这样一些数据:期末考试结束后,学生各科成绩出来了,如何对学生进行评级并将评级结果排序展示?通过以下用R来实现的解决方案,不仅可以学习到R语法相关知识,还能学习到数据处理的思路,而后者明显让我们受益更多。下面转入正题:第一步:给出学生花名册,含学生姓名和各科成绩>options(digits=2) ---限定输出小数点后数字的位数>stud

2016-12-25 20:29:32 1149

原创 在linux环境下自动执行python脚本

说明:此文针对需要用hive来查询长时间数据的人员,而且是需要按照天来输出查询数据,考虑到如果查询多天的,数据量过大会造成集群拥堵,所以按天输出,最终再做汇总。 需求来源:如果你每天接触的都是日志类数据,日志每天的产生量都非常庞大,而你想对过去几个月的数据进行分析,就需要考虑如何有效的实现这种方式。 假设想查询8月-10月的流量数据,可以这样: #!/usr/bin/env python #

2016-12-20 20:00:06 5756

原创 mysql或者hive实现分层向下统计功能

原因:作为一名数据人员,经常会碰到类似这样的表结构:city_id city_code city_name parent_id citylevel1 中国 中国 0 02 110000 北京市 1 03 120000 天津市 1 04 130000 河北省 1 05 140000 山西省 1 06 150000 内蒙古

2016-12-18 22:58:28 1454

原创 python爬虫(一)

python爬虫(一)注:本文仅供学习,不作任何商业用途。 前提和准备: 1.需要了解服务器与本地的交换机制,如http协议、request、response等,request是我们向服务器提交的请求信息,response是服务器将我们的请求进行解析后回馈的信息。在http1.0时代,request主要有get和post向服务器请求的方法,在http1.1时代增加了几种方法,如head、

2016-12-18 12:49:20 382

转载 hive join操作

此文章为转载。

2016-12-13 14:46:19 370

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除