zhangxiaomei1952-CSDN博客

转载 Apache kylin原理

本文主要介绍了Apache Kylin是如何将Hive表中的数据转化为HBase的KV结构，并简单介绍了Kylin的SQL查询是如何转化为HBase的Scan操作。Apache Kylin 是什么Apache Kylin是一个开源的、基于Hadoop生态系统的OLAP查询引擎，能够通过SQL接口对十亿、甚至百亿行的超大数据集实现秒级的多维分析查询。OLAP 是什么即

2018-02-06 19:08:26 1412

转载 kylin cube segment合并

一、segment cube的计算是将每天的数据作为一个segment进行存储，一个segment对应hbase中的一张表。有多少个build任务就会有多少个segment,在hbase中就会有多少张表。二、查询在指标平台进行报表查询时，选择了一个时间段，比如20170606-2070629，使用kylin进行查询时会扫描hbase中这段时间每

2018-02-06 19:00:11 4054 2

转载 kylin维度优化指南

先说一下维度表需要遵循的规范：维表需要有code和name，比如:city_code city_namecode字段的类型最好使用整数，这样可以加快kylin的构建速度和查询速度如果维表是层级维表，比如是国家、省份、城市的层级需要对每个层级都要有对应的code和name，比如:country_code country_name province_code province_name

2018-02-06 18:56:30 5307

转载 kylin使用过程中需要注意的点

一、维表事实表中多个维度字段不能关联同一张维表。如果关联同一张表的情况，可通过视图区别开。二、维表字段不同维表中的字段不能同名，建议加上表名做前缀。字段的中文描述应区分开，比如city_name，根据字段的不同用途可分别命名为所在地城市、访问地城市。对于时间维表，配置cube 时选定的字段命名必须统一：日的叫 DATE 字段，周是SUN_DT

2018-02-06 18:54:36 3989 1

转载 kylin报错及解决方案总结

一、在build cube这一步中报错：Value not exists!查询该步的mr日志，提示 Not a valid value：2017-05-31，有两种可能1.该错误是由于build过程中，所引用的维表数据发生了变化，使用该值查询维表，维表中不存在这条数据。2.olap表关联了维表，但只使用了关联字段，如果olap表的code在维表里不存在，则会报错

2018-02-06 18:46:45 13932

原创 seo/sem简单记忆

因为工作中跟这一块儿会有一点点接触，为避免遗忘，特对seo和sem做一个简单的笔记，方便记忆。seo:Search Engine Optimization,搜索引擎优化，搜索引擎营销的一种推广方法，SEO是指通过对网站进行站内优化(网站结构调整、网站内容建设、网站代码优化等)和站外优化，从而提高网站的关键词排名以及公司产品的曝光度。（百度百科）seo见效慢，周期长，相当于自然优化，有点

2017-06-11 23:24:24 580

原创初识hadoop

hadoop 提供了一个可靠的共享存储和分析系统，hdfs实现存储，mapreduce 实现分析处理，这两部分是它的核心。mapreduce和关系型数据库的区别 1. 关系型数据库处理GB级别数据大小的任务，mapreduce处理PB级别数据大小的任务 2. 关系型数据库处理结构化的数据，mapreduce处理非结构化或者半结构化数据非常有效，因为处理数据时才对数据进行解释 3. 关系型数据往往

2017-05-21 21:41:37 257

原创数据倾斜及处理方案

1.什么是数据倾斜大家可能会发现这样一种现象：在执行hive查询的时候，map早已经100%了，而reduce也早早到了90% +，但是可能会一连出现多个99%，而且迟迟停在99%，不再向下走，这是数据倾斜最常见的表现。 2.什么会导致数据倾斜以MapReduce实现过程为例，如果大多数item对应用户量都是几十万的级别，少量item对应user量很大，例如百万以上，则聚集到这些item上

2017-04-08 23:15:03 896

原创用python做词频统计

假设有一个本地的txt文件，相对其进行词频统计，可以这样写：import timepath='C:\\Users\\zhangxiaomei\\Desktop\\Walden.txt'with open(path,'r') as text: words=text.read().split() print(words) for word in words:

2017-03-28 21:48:00 9420 1

原创数据结构的一些技巧

一.多重循环 1.排序num_list=[6,2,7,4,1,3,5]print (sorted(num_list))逆序：sorted(num_list,reverse=True)2.在整理列表的过程中，如果需要两个列表，可用如下函数：for a,b,in zip(num,str): print (b,'is',a)二.推导式（列表解析式）a=[]for i in range(1,

2017-03-28 20:44:04 546

原创 python数据结构

python有四种数据结构，分别是列表、元组、字典和集合。一.列表 1.列表最显著的特征是： 1.1列表中的每一个元素都是可变的 1.2列表中的元素都是有序的，每个元素都有一个位置 1.3列表可以容纳python中的任何一个对象如 all_list=[‘hello’,1,1.0,True,[1,2],(1,2),

2017-03-28 16:59:17 569

原创日志检测活动效果如何将用户访问路径串起来（session id）

一个很实用的场景：某业务借助于其他平台投放了一些链接，用户点了此链接后，会跳转到自家产品的页面，比如评价页面，如果用户不通过外部链接进入页面，打开自家的产品，也可以进入到评价页面，不管用户从何而来，评价页面的url是不会变化的，如何纯粹衡量外部平台带来的流量究竟有多少?此处就涉及到如何将用户的访问路径串起来的问题。

2017-03-18 00:47:04 930

原创 hive 解析日志常用的几个函数

大家都知道日志的形式偏非结构化，有很多特殊的字符等等，现总结一些日志中常用或者易用到的函数便于日志数据的提取、解析。 1.get_json_object,底层日志经常会被储存为json字符串的形式，如果想获得各个维度的值，往往需要这个函数把对应的值取出来，具体用法为：get_json_object(action,'$.evt_id') 取出1111027379533此处假设需要解析的字段叫act

2017-03-16 23:25:50 727

原创 oozie常用语句

一.oozie的介绍：oozie可以被称为一个调度系统，具体可参照此篇博文：http://shiyanjun.cn/archives/684.html 以上这篇博文将oozie的功能和使用方法介绍的很详细二.oozie执行后续监控：可以将oozie的执行结果写入mysql数据表中，通过本地的sh mysql.sh可以查看oozie的执行情况： 1.执行时长统计：select t

2017-03-02 21:06:16 1071

hive分区对数据进行分区，最重要的原因就是为了更快的查询，分区表改变了hive对数据存储的组织方式，当我们在where子句中增加谓词按照分区值进行过滤时，这些谓词被称为分区过滤器。1.如果表中的数据及分区非常大的话，执行一个包含所有分区的查询可能会触发一个巨大的Mapreduce任务。一个高度建议的安全措施就是将Hive设置为“strict”模式，这样如果对分区表进行查询而where子句没有加分

2017-02-04 14:22:09 460

原创 HiveQL：数据定义

一.数据库部分 1.创建数据库：create database dw; 或者create database if not exists dw;create database dw comment "this is a test database";create database dw location 'my/prefered/location/';create database dw wi

2017-01-15 17:51:48 281

原创用R画直方图

用R画直方图和核密度图条形图、饼图：分类型名义型数据展示直方图：描述连续型数据一.首先展示一下直方图：接下来将展现如何画直方图的代码：>par(mfrow=c(2,2))>hist(mtcars$mpg)>hist(mtcars$mpg,breaks=12,clo="red",xlab="miles per gallon",main="Colored histogram with

2017-01-07 20:55:26 17192

原创 R数据导入方法及访问数据库管理系统

一.导入数据方式 1.使用键盘输入数据#首先创建一个空的数据框，然后用edit,R将会弹出一个数据编辑窗口> mydata<-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))> mydata<-edit(mydata)#也可以写成fix(mydata)2.从带分隔符的文本文件导入数据#用Windows系统时对于文件

2017-01-01 00:13:43 947

原创程辑包‘installr’是用R版本3.3.2 来建造的解决方法

用R的时候会碰到这种情形：install.packages(“RODBC”)不会报错但是install成功后执行这个语句时会报错：library(RODBC),显示错误如下：程辑包‘installr’是用R版本3.3.2 来建造的不只是RODBC这个包，在导入其他的包时也会碰到这个问题，解决方案如下： install.packages(“installr”) require(install

2016-12-31 14:37:16 23364 6

原创 R数据结构

R数据结构 1.向量：同一向量中无法混杂不同模式的数据a<-c(1,2,3,4,5)b<-c("a","b","c","d")2.矩阵：二维数组，同样要求数据类型一致> y<-matrix(1:20,nrow=5,ncol=4)> y [,1] [,2] [,3] [,4][1,] 1 6 11 16[2,] 2 7 12 17[3,]

2016-12-29 20:10:46 355

原创 R语言之数据处理难题的一套解决方案

用R进行数据处理来源：现在有这样一些数据：期末考试结束后，学生各科成绩出来了，如何对学生进行评级并将评级结果排序展示？通过以下用R来实现的解决方案，不仅可以学习到R语法相关知识，还能学习到数据处理的思路，而后者明显让我们受益更多。下面转入正题：第一步：给出学生花名册，含学生姓名和各科成绩>options(digits=2) ---限定输出小数点后数字的位数>stud

2016-12-25 20:29:32 1149

原创在linux环境下自动执行python脚本

说明：此文针对需要用hive来查询长时间数据的人员，而且是需要按照天来输出查询数据，考虑到如果查询多天的，数据量过大会造成集群拥堵，所以按天输出，最终再做汇总。需求来源：如果你每天接触的都是日志类数据，日志每天的产生量都非常庞大，而你想对过去几个月的数据进行分析，就需要考虑如何有效的实现这种方式。假设想查询8月-10月的流量数据，可以这样： #!/usr/bin/env python #

2016-12-20 20:00:06 5756

原创 mysql或者hive实现分层向下统计功能

原因：作为一名数据人员，经常会碰到类似这样的表结构：city_id city_code city_name parent_id citylevel1 中国中国 0 02 110000 北京市 1 03 120000 天津市 1 04 130000 河北省 1 05 140000 山西省 1 06 150000 内蒙古

2016-12-18 22:58:28 1454

原创 python爬虫（一）

python爬虫（一）注：本文仅供学习，不作任何商业用途。前提和准备： 1.需要了解服务器与本地的交换机制，如http协议、request、response等，request是我们向服务器提交的请求信息，response是服务器将我们的请求进行解析后回馈的信息。在http1.0时代，request主要有get和post向服务器请求的方法，在http1.1时代增加了几种方法，如head、

2016-12-18 12:49:20 382

转载 hive join操作

此文章为转载。

2016-12-13 14:46:19 370

zhangxiaomei1952的博客