自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lixiaotaoplus的专栏

走在数据仓库工程师的道路上,踏实的走好每一步

  • 博客(33)
  • 收藏
  • 关注

原创 “一路向南,dream it possible”之旅--骑行从北京到成都(二)

两年后,也就是此刻,时间:2018-06-05 00:11,地点:北京,我已经出发了很久,重新把2年的路翻出来,提醒着自己,不要忘记当初为什么要出发。我现在渴望着改变,渴望着在人生的道路上重新出发,踏实走好每一步。

2018-06-05 00:16:36 1991

原创 “一路向南,dream it possible”之旅--骑行从北京到成都(一)

从北京骑行到成都。两年前,2016年5月8日至5月22日,我选择了骑行,从北京到成都。我会时不时翻看过往,看一看骑行时候之前写下的日志,时刻提醒自己,我们已经出发太久,但不要忘记了当初为什么要出发。

2018-06-04 02:39:02 4568 2

原创 一道HIVE UDF笔试题-解析url字符串的主域部分

HIVE UDF案例。编写UDF,获取URL字符串的主域部分

2018-06-04 00:45:31 983

原创 小程序:DW元数据表血缘关系的实现

随着数据仓库(DW)接入的表和建立的模型增多,元数据管理就变得越来越重要。元数据表血缘关系,俗称“表与表之间的关系”。良好的元数据管理,可以清晰和明确看出每张表和模型之前的关系。在没有工具之前,只能依靠手工维护,一旦脚本发生变化,手工维护遗漏或不及时的话,就会造成关系不准确。通过工具,当表数量上百、上千张的时候,通过分析表与表“血缘关系”,就能清楚知道每张表之间的关系,及时定位和溯源问题。 本文也提供了解析sql的思路和方法。

2016-10-17 23:28:22 13342 5

原创 chapter5 流程控制语句小案例

流程控制语句

2016-06-17 00:44:12 498

原创 chapter4 流程控制语句

java 流程控制语句

2016-06-16 23:45:23 431

原创 eclipse调试 org.apache.ibatis.builder.BuilderException: Error evaluating XPath

org.apache.ibatis.builder.BuilderException: Error evaluating XPath. Cause: java.lang.ClassCastException: com.sun.org.apache.xml.internal.dtm.ref.DTMManagerDefault cannot be cast to com.sun.org.apache.xml.internal.dtm.DTMManager

2016-06-16 23:22:29 7530

原创 chapter3 常用的运算符

package com.xx.lixiaotao;/*** * this java document is about operator * @author xx * @date:2016/06/15 *//* *Java 语言中常用的运算符可分为如下几种: 算术运算符、赋值运算符、比较运算符、逻辑运算符、条件运算符 */public class SencondHelloWorld{

2016-06-15 23:37:47 310

原创 chapter2 变量和常量

package com.xx.lixiaotao;/*** * my first HelloWorld project in xx * @author xx * 在Java的道路上,走好每一步 * */public class FirstHelloWorld { public static void main(String arg[]){ // part1

2016-06-15 23:34:17 400

原创 chapter1 Java初体验

使用记事本编写Java程序xxx.java编译器 compiler(使用javac命令 ,如javac HelloWorld.java)xxx.class解释器 interpreter(使用Java命令,如 java HelloWorld)my Program

2016-06-15 23:31:26 361 1

原创 hive 查看版本号

hive 查看版本号 hive> hive.hwi.war.file

2016-03-14 09:10:16 15412 2

原创 hive 获取每个城市30%的订单

使用hive,获取每个城市30%的订单。笔者第一反应,是使用row_number()函数解决这个问题。但是row_number()是用来排序的,获取30%的订单还需要额外进行一次join。

2016-03-02 11:07:01 3037 1

原创 hive load文件第一个字段为NULL

在hive中,通常需要加载外部数据源。load文件时,第一个字段会出现NULL。例如: 1、执行load语句: LOAD DATA LOCAL INPATH ‘test.txt’ OVERWRITE INTO TABLE table_name_xxx; 2、结果: 经排查,这种情况通常是上传文件编码问题导致的,解决办法如下: 使用UE或Notepad++,将文件保存为“以UTF-8无BOM

2015-07-22 11:09:31 1839

原创 hive 实现job并发执行

hive里,同一sql里,会涉及到n个job,默认情况下,每个job是顺序执行的。 如果每个job没有前后依赖关系,可以并发执行的话,可以通过设置该参数 set hive.exec.parallel=true,实现job并发执行,该参数默认可以并发执行的job数为8。

2015-07-04 19:50:30 7021 1

原创 hive 处理敏感字段

hive使用regexp_replace函数,处理敏感字段。

2015-03-02 18:10:16 6991

原创 HTTP request sent, awaiting response... 404 Not Found

背景:某日数据上报任务中,出现:“HTTP request sent, awaiting response... 404 Not Found”异常。日志如下:任务ID:xxx开始执行,执行命令:edw/etl/xx.py 125_yyyymmdd_done.txt wireless_order_deal_5min --2015-02-27 08:56:09-- http://

2015-03-02 10:07:52 29483 1

原创 Hive "行转列"和"列转行"

在HIVE实际开发过程中,我们会遇到“行转列”和“列转行”的场景。比如:1、  需要取“订单号”对应的所有商品“SKU号”,商品“sku号”放在一列,即从table1查询出table2;2、  当商品“sku号”均在一列的时候,需要查询每个“sku号”对应的“订单号”,即从table2查询出table1。table1:order_iditem_sku

2015-02-23 15:51:06 6623

原创 CronTrigger表达式

CronTrigger配置格式:格式: [秒] [分] [小时] [日] [月] [周] [年] 序号说明  是否必填 允许填写的值允许的通配符  1 秒 是 0-59   , - * / 2 分 是

2015-02-23 15:28:21 577

原创 Hive异常:UDFArgumentTypeException No argument is expected

背景:今日在某集市执行一hivesql,sql没有问题,在数据仓库里执行没有问题。但是在某集市执行后,一直提示UDFArgumentTypeException No argument is expected,很蛋疼。其中,这个sql涉及到到row_number()、regexp_replace等函数。分析:经sql分段排查,是由于使用到row_number()函数才报错

2015-02-12 15:07:05 11409

原创 hive返回星期几的方法

熟悉hive的人都知道,在原生版本中,目前并没有返回星期几的函数。为了解决这个问题,除了利用java自己编写udf外,也可以利用现有hive函数实现。

2014-12-30 16:49:54 16273

原创 oracle-开窗函数-求最近7天平均值

SELECT t.dt,t.index_subjuct,t.index_id,t.index_name,t.index_provider,t.index_date_range,AVG(SUM(t.index_sum)) OVER (PARTITION BY t.index_subjuct,t.index_id,t.index_name,t.index_provider,

2014-10-22 14:34:52 3874

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b

2014-03-05 09:03:09 643

转载 hive函数参考手册

hive函数参考手册原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无

2014-03-02 00:42:05 784

原创 4.10Python序列处理函数

4.10Python序列处理函数本节涉及的序列处理函数为:filter()、zip()、map()、reduce(),但在Python3.3.3+win32 环境下,未执行通过,相关函数未定义。Python 3.3.3 (v3.3.3:c3896275c0f6, Nov 18 2013, 21:18:40) [MSC v.1600 32 bit (Intel)] on win32Typ

2014-02-19 21:49:24 878

原创 4.9Python与中类型相关的内置函数

4.9与类型相关的内置函数(1)、string 函数 str.capitaze()字符串首字母大写str.replace()str.split()(2)、序列处理函数len()max()min()其他filter()zip()map()reduce()example4.9.1>>> #str.capitaze()>>> s ='hell

2014-02-18 01:18:34 855

原创 4.8Python内置函数

4.8Python内置函数example4.8.1>>> #返回数字绝对值 abs()>>> abs(-520)520>>> absexample4.8.2>>>#返回最大值和最小值 max()、min()>>> a = [1,2,3,4,5,520,815]>>> max(a)815>>> min(a)1>>> example4.8.3>>> #求字符串长度le

2014-02-16 21:45:57 903

原创 4.7实现分支结构

4.7实现分支结构python 并没有提供swith语句可以通过函数和定义字典实现switch语句功能Step1:定义一个字典g;step2:调用字典的get() 获取相应的表达式。形式为:{1:case1,2:case2}.get(x,lambda:*arg,**key:)()>>> 5/2>>> 2#定义模块实现>>> from __future__ impo

2014-02-15 22:37:25 619

原创 4.6 匿名函数:Lambda表达式

4.6 匿名函数:Lambda表达式--Lambda函数是一种快速定义单行的最小函数,是从Lisp借用来的,可以用在任何需要函数的地方。无须定义函数名称写法举例g = lambda x,y,z....:x*ylambda 构造的是一个函数对象example4.6.1>>> g = lambda x,y:x*y>>> g(520,520)270400example

2014-02-14 00:38:21 861

原创 4.5冗余参数处理

4.5冗余参数处理(1)、多类型传值(向函数传元组和字典)example4.5.1>>> def f(x): print(x) >>> #传递元组>>> f(range(10))range(0, 10)>>> f([1,2,3,4])[1, 2, 3, 4]>>> #传递字典>>> f({1:111,2:222,3:333}){1: 111, 2: 222, 3:

2014-02-13 01:25:55 1288

原创 4.4 函数返回值

4.4 函数返回值 return;区分return 和 print;默认返回值为NoneExample4.4.1>>> def f(x,y): print(x) print(y) >>> f(2,3)23>>> z = f(2,3)23>>> z>>> print(z)None有返回值Example4.4.2>>> def f(x,y): pr

2014-02-12 01:07:21 705

原创 4.3变量作用域

4.3变量作用域局部变量和全局变量example4.3.1>>> # 局部变量和全局变量>>> x = 'I am a global var'>>> def fun(): a = 100 print(a) print(x) >>> fun()100I am a global var>>> print(a)Traceback (most recent call

2014-02-11 00:31:59 634

原创 4.2 函数形参、实参、默认参数

4.2 函数形参、实参、默认参数定义函数时,------- 形式参数调用函数时,------- 实际参数example4.2.1:>>> def fun(x):print('I get a :',x)>>> s = input('Please input something:')Please input something: cuixiaohui>>> fun(s)

2014-02-09 23:51:19 633

原创 4.1函数定义和调用

4.1函数定义和调用Example4.1.1定义:>>> a = 123>>> b = 321>>> def myfun():c = a + bprint(b)执行:myfun()注:学习内容来源于网易云课堂《疯狂的Python:快速入门精讲》

2014-02-09 23:46:20 691

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除