自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 hive sql join 时字段类型不一致问题

在用hive sql 查询数据时会遇到 两个表通过字段join,假如两个字段类型不一样,有可能出现莫名其妙的结果。解决方法: 将2个字段类型转成一样。比如 两个表通过id关联, 一个是 string 一个是 int,可以将 string 转成int  eg: (cast id as int) as id

2017-06-13 16:40:07 7239

原创 如何根据历史数据监控当前数据是否异常

拿这一天的数据与历史数据做对比,对比方法为:根据历史数据求出该字段 预期最大值和最小值,如果该字段数据这天低于最小值则预警历史数据取值范围:天表(近2周),周表(近一个月),月表(近4个月)根据一组数据(a1,a2,a3…….an)求预期最大值和最小值公式(单值均值控制图)1、 求出这组数据移动极差数据((a2-a1) ,(a3-a2) , …… , (an –an-1) )

2016-09-21 13:05:20 5135 1

原创 idea快速构建spark 工程

idea 版本为:15.0.1, scala 为2.10.51、本地安装scala下载 最新版本 然后安装 由于版本spark为1.3版本原因 scala请使用2.10.5版本 2、idea 安装scala插件   Plugins-->Browse repositories中输入Scala3、在spark官网下载spark包

2016-08-08 17:22:48 432

原创 hbase 协处理器

hbase提供大数据存储方案,但是对数据查询,统计方面支持不多,如果把数据全部加载到客户端进行求和、均值,会对客户端造成很大压力,幸而hbase提供了协处理器,下面是hbase自带的协处理器AggregationClient ,对表的行数进行汇总。例子如下:      public int getRowCount(String tableName, String column)

2016-07-01 19:17:29 569

原创 hbase 建表时分region

创建hbase表时默认是不进行region的,当数据量增长到一定程度后,会添加一个region来存储数据可以通过在创建表时手动指定 分region操作create 'lf:lf_t_view_hbase_room_stat',{NAME => 'base_info',TTL=>'8640000'}, {NAME =>'popularNum',TTL=>'8640000'}, {NAME =

2016-06-30 19:01:25 1608

转载 TF-IDF及其算法

文章来源:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html概念     TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料

2016-03-04 18:50:14 384

原创 linux 下实用的命令

根据文件内容查找 文件   find . -type f -name "*.*" | xargs grep "scrumworkspro.jnlp"   当前目录下查找 包含了 scrumworkspro.jnlp 的所有文件将一列加起来    cat data.txt | awk '{print a=a+$1}end{print a}' | tail -n1 

2016-02-19 15:58:45 282

原创 如何查看一个大表的总条数

对于一个大表,如果直接用select count(1) from table  查条数可能特别慢,更有可能导致锁表、崩溃。可以通过主键(自动增长)来获取方法:查询最开始的主键号,比如 1,再查最后的主键号比如 1000000,两者相减得到总记录数

2016-02-19 12:47:11 2370

原创 hbase 创建表、查询数据

pom.xml 配置 org.apache.hbase hbase-client 0.96.2-hadoop2 org.slf4j slf4j-api org.slf4j slf4j-log4j12 log4j log4j h

2016-02-04 10:16:14 6503 1

原创 druid数据源例子

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-01-27 14:25:29 947

原创 rsyncd 同步

rsyncd 适合同步数据量不是很大,对实时要求不高的文件比如你想同步机器A 的文件到 机器B,文件在机器A的 /home/q/www/activity/LOG目录下机器A 配置如下配置 rsyncd.conf、rsyncd.secrets ,放到/etc下,并将 rsyncd.secrets  设置为 600权限(一定是600权限) rsyncd.conf

2016-01-26 17:16:30 495

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除