雨田示韦非文-CSDN博客

原创 hiveql列转行使用explode的注意事项-null值处理

一、订单表如下：order_id product_name 1 铅笔，苹果，抽纸 2 3 苹果，草莓，猕猴桃二、统计每种商品被购买次数，需要将product_name列转行，其中order_id等于2的是异常数据product_name为null。如果写成下面这样，一条结果都没有：-- explode里面的字段不能为null，否则一条数据结果记录都没有了select product_name_element -- 产品名称...

2020-05-22 14:11:10 1194 2

原创几种数据库的一些知识点待续... ...

待续... ...

2018-07-03 14:18:46 208

原创计算截止每个时间点的累计值

-- 计算每个公司每个月的累计值select t.year, t.month, companyid, companyname, sum(amount) over(partition by companyid, companyname,year order by t.month) amountfrom ( select t.year, t.month, ...

2018-07-03 11:04:36 4529

原创 Statement与PreparedStatement的区别

当重复执行多次一个sql，而只是参数不同时，执行多少次sql一、Statement为一条Sql语句生成执行计划Statement就会生成多少个个执行计划，而且每次都是从零开始执行，效率不高；Statement会将变量直接用于sql，这点也不安全。二、PreparedStatement只生成一个执行计划而PreparedStatement只生成一次执行计划，对sql语句进

2017-07-27 11:07:29 188

转载 jdbc的数据库驱动类DriverManager.getConnection()详解

1、Oracle8/8i/9i数据库（thin模式） Class.forName(“oracle.jdbc.driver.OracleDriver”).newInstance(); String url=”jdbc:oracle:thin:@localhost:1521:orcl”; //orcl为数据库的SID String user=”test”; String passwo

2017-07-27 10:53:14 1772

转载写一个shell脚本利用wget抓取股票历史数据

今天，大数据部老大交给我一项任务——抓取股票历史数据。于是乎，我自行在网上找了一下，发现wget真真是一个非常强大的linux下载工具。我已经被深深震撼到了。下面叙述今天的一些过程，还是比较坎坷的。　　首先，我利用公司现在存在的股票数据，使用hive查询所有的股票代码并导入本地：hive -e "use stock;select distinct secucode from t_sto

2017-07-26 18:39:10 826

转载编写shell脚本遇到的问题

运行shell脚本提示“syntax error near unexpected token for((i=0;i原因是因为Linux下的换行符是 \n 而你在secureCRT或者其他工具编写shell脚本的时候，使用的是window下的换行符：\r\n所以需要设置一下文件的规范：在vim的命令模式下输入：:set fileformat=unix:wq即可！

2017-07-26 16:20:45 322

转载 hadoop启动步骤

一、ssh的启动ssh localhost二、hadoop的HDFS的格式化bin/hadoop namenode -format三、hadoop的start-all.sh的启动bin/tart-all.sh四、hadoop的datanode的启动bin/hadoop-daemon.sh start datanode五、hadoop的tasktracker的启动

2017-07-26 14:41:22 600

原创 mvn常用命令

打包：mvn package编译：mvn compile编译测试程序：mvn test-compile清空：mvn clean运行测试：mvn test生成站点目录: mvn site生成站点目录并发布：mvn site-deploy安装当前工程的输出文件到本地仓库: mvn install

2017-07-26 14:36:20 184

转载 HDFS的java接口——简化HDFS文件系统操作

package com.quanttech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;/** * @topic HDFS文件操作工具类 * @author ZhouJ *

2017-07-26 14:16:38 214

转载 Java开发中各种集合框架简介

在大数据MapReduce作业开发中，我们经常会遇到一些大小表的join，这是如果这个小表足够“小”的话，我们可以使用进行“map-join-side”，这要就可以有效的降低reduce端的压力，但是在常用的JDK的集合中的Map有些许鸡肋，因此，各路大神们针对这个问题开发出了不同的集合框架，用以替换原始集合，下面我们具体介绍几种常用的集合框架：首先，我们设想了一个场景——计算不同事业部015

2017-07-26 14:12:47 174

原创 hql-行列转换

行转列 hive -e ” select id,word from ( select ‘123’ as id,’java,c,php’ words from file_cto_user limit 1 ) ta lateral view explode(split(words,’,’)) uu

2017-07-25 18:32:19 913

原创 shell常用命令

一、分割字符串指定分隔符“@”IFS=”@” aa=”a@b@c@d@e” for element in aadoecho−n“aa do echo -n “element&” done;二、后续添加…..

2017-07-25 18:21:28 211

原创 hive-组内排序取前100

每个mod按ck_num/exp_num倒序排序取前100 select ‘endweek′,′ckexp′ranktype,mod,groupid,bookid,expnum,cknumfrom(selectmod,(Rank(mod)+1)asrank,groupid,bookid,expnum,cknumfrom(selectmod,split(curl,′/′)[4]groupid,spl

2017-07-25 18:18:03 4535

原创 HIVE-文件操作

一、查询结果->hdfs INSERT OVERWRITE DIRECTORY ‘output’ sql select * from test; （output:结果输出hdfs路径，sql：查询语句，字段间隔符：默认）二、查询结果->hdfs，执行结果以‘\t’分割 insert overwrite directory ‘/home/wyp/Documents/result’ row f

2017-07-25 18:12:34 255

原创 hql-udf方法

一、添加jar包：add jar /data/1/usr/local/hive/jars/serde.jar;二、声明udf方法的引用：CREATE TEMPORARY FUNCTION expid AS 'net.csdn.hive.cf2.ExtractProduct2'接下来就可以在hql语句中使用expid方法了

2017-07-25 17:51:45 356

原创 hadoop命令

压缩中间结果命令：hive -e "SET mapreduce.map.output.compress=true; SET mapred.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec; "hadoop fs -help1. hadoop fs -ls '/home/ask/answer

2017-07-25 17:48:01 232

原创 hive-常用操作及函数

select '我们' from file_cto_user_info limit 1select 1 from file_cto_user_info where 'football' like 'foot____' limit 1--注意：否定比较时候用NOT A LIKE Bselect 1 from file_cto_user_info where NOT 'football'

2017-07-25 17:46:53 441

原创 hiveql--建表

一、创建hive表1、建外表（分区pdate，\t作为字段分隔符，hdfs路径：path）：CREATE EXTERNAL TABLE tablename(字段1 string,字段2 string) partitioned by (pdate string)row format delimited fields terminated by '\t'LOCAT

2017-07-25 17:20:40 467

转载 Hadoop MapReduce编程创建maven项目时所用到的pom依赖

junit junit 3.8.1 test org.apache.hadoop hadoop-common 2.6.0 org.apac

2017-07-25 17:17:56 3215

转载 Spark1.3.1 On Yarn的集群搭建

下面给出的是spark集群搭建的环境：操作系统：最小安装的CentOS 7（下载地址）Yarn对应的hadoop版本号：Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4.0（下载地址）Java版本号：JDK1.8（下载地址）Scala版本号：Scala2.10.4（下载地址）Spark版本号：spark-1.3.1-bin-hadoop2.6（下载地

2017-07-25 17:14:17 261

转载大数据常见问题

1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法：add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j

2017-07-25 15:58:20 1009

转载 hive函数使用学习笔记

1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败，因为无效的语法。 SQL使用”=”，不使用”==”。A 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为

2014-09-10 11:48:31 321

u013200776的专栏