- 博客(127)
- 资源 (9)
- 收藏
- 关注
原创 spark写hive分区表,文件move失败
1.写分区文件失败错误日志出现org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.hive.ql.metadata.HiveException: Load Data failed for hdfs://***:8020/warehouse/tablespace/managed/hive/***/.hive-staging_hive_20
2021-04-23 16:53:37 722
原创 3.3hive使用教程--函数
coalesce 英[ˌkəʊəˈles] 美[ˌkoʊəˈles] 扣奥勒思返回第一非null的值,如果全部都为NULL就返回NULL 如:COALESCE (NULL,44,55)=44concat_ws行转列lateral view explodeconcat_ws ...group by .....
2019-09-02 18:51:51 201
原创 【hive使用教程】3.2玩转Hive多维数据统计-grouping sets
背景一般的分组统计使用group by 完成,但是部分业务场景下,需要不同维度的数据存在在一张表中,即多维统计报表,如果使用group by进行计算,需要使用大量的union all完成,代码冗余比较多,Hive提供一种方便的方法,用来一次性完成这种统计1、GROUPING SETSgrouping sets允许针对同一个数据集进行不同维度的统计,其原理类似于将不同的group by的...
2019-09-02 18:05:24 3255
原创 【hive使用教程】3.1动态分区表,关键字cascade
常见用法1.动态分区表创建CREATE TABLE qing_city (city_name STRING)PARTITIONED BY (province_id string,province_name string)ROW FORMAT DELIMITED FIELDS TERMINATED BY'\t';2.设置动态分区参数set hive.exec.dynamic...
2019-09-02 16:04:15 1693
原创 2.1数仓模型设计规范-(刷新/存储/时间维度/废弃归档规范)
2.1.8 刷新周期规范 刷新周 期 刷新周期命名 刷新周期缩写 描述 天 day d 每天更新数据 周 week w 每周更新数据 月 month m 每月更新数据 季度 quarter q 每季度更新数据 年 year y 每年更新数据...
2019-09-02 13:59:11 998
原创 统计算法汇总
[转]高压缩空间占用的 Hyper LogLog 算法 http://blog.csdn.net/heiyeshuwu/article/details/41248379/
2017-12-14 10:09:16 4017
转载 rt.jar ,dt.jar ,tool.jar都是 做什么用的
rt.jar是JAVA基础类库,基础数据类型等io.lang.dt.jar是关于运行环境的类库 swing界面工具,tools.jar是工具类库 编译工具javacrt.jar ,dt.jar ,tool.jar都是 做什么用的 ,分别什么时候需要设置到classpath里? ---------------------------------------
2016-05-03 14:51:12 3627
原创 mvn 打包
mvn install:install-file -Dfile=D:\workspace\git\jd\kaptcha-2.3.jar -DgroupId=com.google.code -DartifactId=kaptcha -Dversion=2.3 -Dpackaging=jar
2015-09-15 10:16:10 422
原创 MVC
1.建立controller控制器和HTTP请求之间的映射关系。2.HandlerMapping查询,得到HandleExecutionChain。封装有controller,请求响应后,生成需要的ModelAndView对象 3.dispatcherServlet把模型数据交给特定的视图对象,视图呈现由AbstractTemplateView视图View对象render方法完成。
2015-09-08 16:15:51 398
转载 jmeter loadrunner
http://pan.baidu.com/share/link?shareid=184867&uk=2702115733http://pan.baidu.com/share/link?uk=842306036&shareid=229592#dirhttp://pan.baidu.com/share/link?shareid=483280&uk=4080324155#dirhttp://pan
2015-07-31 10:22:54 519
转载 性能测试
•吞吐量•平均响应时间•平均并发数•最大并发数性能测试3种武器•自己动手coding•Perf4j•Jmeter•近代文明-Perf4J•需要引入perf4j的API、侵入代码•比原始社会进步,智能化数据分析生成图表•现代-Jmeter•只需少量编码•支持强大的逻辑判断,断言功能•图形化展示
2015-07-30 16:14:22 393
转载 秘Java虚拟机——内存管理与垃圾回收
1、Java虚拟机运行时的数据区2、常用的内存区域调节参数-Xms:初始堆大小,默认为物理内存的1/64(-Xmx:最大堆大小,默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时,JVM会减少堆直到 -Xms的最小限制-Xmn:新生代的内存空间大小,注意:此处的大小是(eden+ 2 survivor space)。与jmap -he
2015-07-30 15:15:07 390
转载 Java程序员常用工具集
Java程序员常用工具集转至元数据结尾转至元数据起始一、编码工具1.IDE:Eclipse或者IDEA,熟悉尽可能多的快捷键,《Eclipse常见快捷键列表》 2.插件: (1) Findbugs,在release之前进行一次静态代码检查是必须的 (2)Clover,关心你的单元测试覆盖率 (3) Checkstyle
2015-07-29 18:33:22 480
原创 box草稿2--个人技能发展计划
个人技能发展计划 姓名:项目组:云现技术等级:拟发展技术等级:直接上级: 个人技能发展计划(①计划是否有效,取决于您自己;②自计划启动开始,每月与导师(至少)用20分钟更新及回顾一次)个人优势(①专业技能:分布式应用、分布式系统、分布式数据库、分布式存储、
2015-07-28 18:09:48 499
原创 box草稿1
autoReconnect=true”wait_timeout=xxxx订单管理主要是订单/订单状态管理,订单收货发货管理之类的,订单统计,退款管理。mysql 写一条记录 1-2s估计:1.缓存没开2.连接数太小3.积分表 100张4亿/100= 400万。明细表 1000张mysql磁盘监控。MQ
2015-07-28 17:18:20 454
原创 用户名 存在较多的双字节(中文、韩文等)字符时用nvarchar
如字段值只是英文可选择varchar,而字段值存在较多的双字节(中文、韩文等)字符时用nvarchar具体参考 http://www.cnblogs.com/yelaiju/archive/2010/05/29/1746826.html
2015-07-08 17:52:49 566
转载 MapReduce实现join操作
计算模型整个计算过程是:(1)在map阶段,把所有记录标记成的形式,其中key是id,value则根据来源不同取不同的形式:来源于表A的记录,value的值为"a#"+name;来源于表B的记录,value的值为"b#"+score。(2)在reduce阶段,先把每个key下的value列表拆分为分别来自表A和表B的两部分,分别放入两个向量中。然后遍历两个向量做笛卡尔积,形
2015-05-08 20:20:10 533
转载 Hadoop中HDFS常用命令
Hadoop中HDFS常用命令分类: hadoop2012-12-15 19:36 2701人阅读 评论(0) 收藏 举报 hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/
2015-05-08 18:36:21 435
原创 pm
直播视频-来疯电影视觉设计与渲染互相监督邦,吐槽城管数据分析贺卡明信片关联微信的收藏文章,收藏搬家到到博客里面影评人http://ent.qq.com/movie/yingpingren/http://ent.qq.com/sitemap.htm军事 http://mil.qq.com/mil_index.htmhttp:
2015-05-07 19:25:10 441
转载 什么是Hadoop?
在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice –日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的工作,还是需要有所准备。现在最火的技术词汇莫
2015-03-24 14:15:04 491
转载 hive 常用命令
hive 常用命令1.hive模糊搜索表show tables like ‘*name*’;2.查看表结构信息desc formatted table_name;desc table_name;3.查看分区信息show partitions table_name;4.根据分区查询数据select table_coulm from table_na
2015-03-24 14:12:10 2230
转载 Java操作HBase接口
Java操作HBase接口一、HBase表结构分析:1、 这张表的表名为:user。2、 这张表有两个family:family1和family2,两个family的构造都是一样的。3、 rowkey有两个:UserA和UserB,即两条记录。每一条记录的family下,可以有多个列。每个记录之间的列没有关系。二、准备工作:1、 准备hbas
2015-03-24 14:03:55 575
转载 数字签名,公钥,私钥,数字证书
今天,我读到一篇好文章。它用图片通俗易懂地解释了,"数字签名"(digital signature)和"数字证书"(digital certificate)到底是什么。我对这些问题的理解,一直是模模糊糊的,很多细节搞不清楚。读完这篇文章后,发现思路一下子就理清了。为了加深记忆,我把文字和图片都翻译出来了。文中涉及的密码学基本知识,可以参见我以前的笔记。=======
2015-02-05 10:31:22 524
原创 数据分析工具笔记
1.流量图工具Gephi2.流量用户行为过程硬性指标数据5w who when where what Why how 用户 时间 渠道(pc.m,app,) URL 购物 引擎搜索用户:session ,ip ,uv,pv. 用户+时间 细分出 新用户,老用户,当前在线人数:15分钟内在线访问的UV数等。
2015-01-27 14:24:07 491
原创 搭建wordpress
####搭建wordpress1AddType application/x-httpd-php .php .php3AddType application/x-httpd-php-source .phps2.http://soft.chinabyte.com/os/109/12267609.shtmlhttp://www.2cto.com/os/201201/117797.
2014-09-04 05:06:13 475
原创 使用jacob框架_word转pdf
JDFS重写了GZIPInputStream这个类。然后你在使用的时候直接引入MultiMemberGZIPInputStream这个类,并调用即可。例如: BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(new MultiMemberGZIPInputStream(
2014-09-04 04:40:23 935
原创 邮箱格式
// 验证邮箱的格式public boolean isEmail(String email) {final String check = "^([a-z0-9A-Z]+[-|\\.]?)+[a-z0-9A-Z]@([a-z0-9A-Z]+(-[a-z0-9A-Z]+)?\\.)+[a-zA-Z]{2,}$";final Pattern regex = Pattern.compile(c
2014-09-03 22:49:35 1041
原创 linux和windows命令
rpm -ivh glusterfs-core-3.2.5-1.el6.x86_64.rpm;rpm -ivh glusterfs-geo-replication-3.2.5-1.el6.x86_64.rpm;rpm -ivh glusterfs-fuse-3.2.5-1.el6.x86_64.rpm;
2014-09-03 21:16:27 475
原创 开启热点,linux_mysql
开启热点 netsh wlan set hostednetwork mode=allow ssid=qing key=123456netsh wlan start hostednetwork
2014-09-03 15:28:36 577
转载 js常看
jquery 设置style:display 其实很方便的哦("#id").css('display','none'); $("#id").css('display','block'); 或 $("#id")[0].style.display = 'none'; $("#id")返回的是JQuery 它是个集合肯定有display属性$("#id").s
2014-09-03 15:23:48 471
转载 JVM GC调用过程
// JVM笔记 http://www.javaranger.com/archives/655#more-655 // http://sishuok.com/forum/blogCategory/showByCategory.html?categories_id=25&user_id=247 // http://blog.csdn.net/alivetim
2014-08-21 15:01:23 594
转载 详解 Nginx + Tomcat HTTPS/SSL 配置方法
http://www.myhack58.com/Article/sort099/sort0102/2012/33274_2.htm
2014-08-20 16:19:15 641
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人