自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 hiveql列转行使用explode的注意事项-null值处理

一、订单表如下:order_id product_name 1 铅笔,苹果,抽纸 2 3 苹果,草莓,猕猴桃 二、统计每种商品被购买次数,需要将product_name列转行,其中order_id等于2的是异常数据product_name为null。如果写成下面这样,一条结果都没有:-- explode里面的字段不能为null,否则一条数据结果记录都没有了select product_name_element -- 产品名称...

2020-05-22 14:11:10 1194 2

原创 几种数据库的一些知识点 待续... ...

待续... ...

2018-07-03 14:18:46 208

原创 计算截止每个时间点的累计值

-- 计算每个公司每个月的累计值select t.year,    t.month,    companyid,    companyname,    sum(amount) over(partition by companyid, companyname,year order by t.month) amountfrom (    select t.year,        t.month,  ...

2018-07-03 11:04:36 4529

原创 Statement与PreparedStatement的区别

当重复执行多次一个sql,而只是参数不同时,执行多少次sql一、Statement为一条Sql语句生成执行计划Statement就会生成多少个个执行计划,而且每次都是从零开始执行,效率不高;Statement会将变量直接用于sql,这点也不安全。二、PreparedStatement只生成一个执行计划而PreparedStatement只生成一次执行计划,对sql语句进

2017-07-27 11:07:29 188

转载 jdbc的数据库驱动类DriverManager.getConnection()详解

1、Oracle8/8i/9i数据库(thin模式) Class.forName(“oracle.jdbc.driver.OracleDriver”).newInstance(); String url=”jdbc:oracle:thin:@localhost:1521:orcl”; //orcl为数据库的SID String user=”test”; String passwo

2017-07-27 10:53:14 1772

转载 写一个shell脚本利用wget抓取股票历史数据

今天,大数据部老大交给我一项任务——抓取股票历史数据。于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具。我已经被深深震撼到了。下面叙述今天的一些过程,还是比较坎坷的。  首先,我利用公司现在存在的股票数据,使用hive查询所有的股票代码并导入本地:hive -e "use stock;select distinct secucode from t_sto

2017-07-26 18:39:10 826

转载 编写shell脚本遇到的问题

运行shell脚本提示“syntax error near unexpected token for((i=0;i原因是因为Linux下的换行符是 \n 而你在secureCRT或者其他工具编写shell脚本的时候,使用的是window下的换行符:\r\n所以需要设置一下文件的规范:在vim的命令模式下输入::set fileformat=unix:wq即可!

2017-07-26 16:20:45 322

转载 hadoop启动步骤

一、ssh的启动ssh localhost二、hadoop的HDFS的格式化bin/hadoop namenode -format三、hadoop的start-all.sh的启动bin/tart-all.sh四、hadoop的datanode的启动bin/hadoop-daemon.sh start datanode五、hadoop的tasktracker的启动

2017-07-26 14:41:22 600

原创 mvn常用命令

打包:mvn package编译:mvn compile编译测试程序:mvn test-compile清空:mvn clean运行测试:mvn test生成站点目录: mvn site生成站点目录并发布:mvn site-deploy安装当前工程的输出文件到本地仓库: mvn install

2017-07-26 14:36:20 184

转载 HDFS的java接口——简化HDFS文件系统操作

package com.quanttech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;/** * @topic HDFS文件操作工具类 * @author ZhouJ *

2017-07-26 14:16:38 214

转载 Java开发中各种集合框架简介

在大数据MapReduce作业开发中,我们经常会遇到一些大小表的join,这是如果这个小表足够“小”的话,我们可以使用进行“map-join-side”,这要就可以有效的降低reduce端的压力,但是在常用的JDK的集合中的Map有些许鸡肋,因此,各路大神们针对这个问题开发出了不同的集合框架,用以替换原始集合,下面我们具体介绍几种常用的集合框架:首先,我们设想了一个场景——计算不同事业部015

2017-07-26 14:12:47 174

原创 hql-行列转换

行转列 hive -e ” select id,word from ( select ‘123’ as id,’java,c,php’ words from file_cto_user limit 1 ) ta lateral view explode(split(words,’,’)) uu

2017-07-25 18:32:19 913

原创 shell常用命令

一、分割字符串指定分隔符“@”IFS=”@” aa=”a@b@c@d@e” for element in aadoecho−n“aa do echo -n “element&” done;二、后续添加…..

2017-07-25 18:21:28 211

原创 hive-组内排序取前100

每个mod按ck_num/exp_num倒序排序取前100 select ‘endweek′,′ckexp′ranktype,mod,groupid,bookid,expnum,cknumfrom(selectmod,(Rank(mod)+1)asrank,groupid,bookid,expnum,cknumfrom(selectmod,split(curl,′/′)[4]groupid,spl

2017-07-25 18:18:03 4535

原创 HIVE-文件操作

一、查询结果->hdfs INSERT OVERWRITE DIRECTORY ‘output’ sql select * from test; (output:结果输出hdfs路径,sql:查询语句,字段间隔符:默认)二、查询结果->hdfs,执行结果以‘\t’分割 insert overwrite directory ‘/home/wyp/Documents/result’ row f

2017-07-25 18:12:34 255

原创 hql-udf方法

一、添加jar包:add jar /data/1/usr/local/hive/jars/serde.jar;二、声明udf方法的引用:CREATE TEMPORARY FUNCTION expid AS 'net.csdn.hive.cf2.ExtractProduct2'接下来就可以在hql语句中使用expid方法了

2017-07-25 17:51:45 356

原创 hadoop命令

压缩中间结果命令:hive -e "SET mapreduce.map.output.compress=true; SET mapred.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec; "hadoop fs -help1.   hadoop fs -ls '/home/ask/answer

2017-07-25 17:48:01 232

原创 hive-常用操作及函数

select '我们' from file_cto_user_info limit 1select 1 from file_cto_user_info where 'football' like 'foot____' limit 1--注意:否定比较时候用NOT A LIKE Bselect 1 from file_cto_user_info where NOT 'football'

2017-07-25 17:46:53 441

原创 hiveql--建表

一、创建hive表1、建外表(分区pdate,\t作为字段分隔符,hdfs路径:path):CREATE EXTERNAL TABLE tablename(字段1 string,字段2 string)    partitioned by (pdate string)row format delimited fields terminated by '\t'LOCAT

2017-07-25 17:20:40 467

转载 Hadoop MapReduce编程创建maven项目时所用到的pom依赖

junit            junit            3.8.1            test                            org.apache.hadoop            hadoop-common            2.6.0                            org.apac

2017-07-25 17:17:56 3215

转载 Spark1.3.1 On Yarn的集群搭建

下面给出的是spark集群搭建的环境:操作系统:最小安装的CentOS 7(下载地址)Yarn对应的hadoop版本号:Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4.0(下载地址)Java版本号:JDK1.8(下载地址)Scala版本号:Scala2.10.4(下载地址)Spark版本号:spark-1.3.1-bin-hadoop2.6(下载地

2017-07-25 17:14:17 261

转载 大数据常见问题

1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j

2017-07-25 15:58:20 1009

转载 hive函数使用学习笔记

1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。A 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为

2014-09-10 11:48:31 321

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除