- 博客(11)
- 收藏
- 关注
原创 hive sql join 时字段类型不一致问题
在用hive sql 查询数据时会遇到 两个表通过字段join,假如两个字段类型不一样,有可能出现莫名其妙的结果。解决方法: 将2个字段类型转成一样。比如 两个表通过id关联, 一个是 string 一个是 int,可以将 string 转成int eg: (cast id as int) as id
2017-06-13 16:40:07 7239
原创 如何根据历史数据监控当前数据是否异常
拿这一天的数据与历史数据做对比,对比方法为:根据历史数据求出该字段 预期最大值和最小值,如果该字段数据这天低于最小值则预警历史数据取值范围:天表(近2周),周表(近一个月),月表(近4个月)根据一组数据(a1,a2,a3…….an)求预期最大值和最小值公式(单值均值控制图)1、 求出这组数据移动极差数据((a2-a1) ,(a3-a2) , …… , (an –an-1) )
2016-09-21 13:05:20 5135 1
原创 idea快速构建spark 工程
idea 版本为:15.0.1, scala 为2.10.51、本地安装scala下载 最新版本 然后安装 由于版本spark为1.3版本原因 scala请使用2.10.5版本 2、idea 安装scala插件 Plugins-->Browse repositories中输入Scala3、在spark官网下载spark包
2016-08-08 17:22:48 432
原创 hbase 协处理器
hbase提供大数据存储方案,但是对数据查询,统计方面支持不多,如果把数据全部加载到客户端进行求和、均值,会对客户端造成很大压力,幸而hbase提供了协处理器,下面是hbase自带的协处理器AggregationClient ,对表的行数进行汇总。例子如下: public int getRowCount(String tableName, String column)
2016-07-01 19:17:29 569
原创 hbase 建表时分region
创建hbase表时默认是不进行region的,当数据量增长到一定程度后,会添加一个region来存储数据可以通过在创建表时手动指定 分region操作create 'lf:lf_t_view_hbase_room_stat',{NAME => 'base_info',TTL=>'8640000'}, {NAME =>'popularNum',TTL=>'8640000'}, {NAME =
2016-06-30 19:01:25 1608
转载 TF-IDF及其算法
文章来源:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料
2016-03-04 18:50:14 384
原创 linux 下实用的命令
根据文件内容查找 文件 find . -type f -name "*.*" | xargs grep "scrumworkspro.jnlp" 当前目录下查找 包含了 scrumworkspro.jnlp 的所有文件将一列加起来 cat data.txt | awk '{print a=a+$1}end{print a}' | tail -n1
2016-02-19 15:58:45 282
原创 如何查看一个大表的总条数
对于一个大表,如果直接用select count(1) from table 查条数可能特别慢,更有可能导致锁表、崩溃。可以通过主键(自动增长)来获取方法:查询最开始的主键号,比如 1,再查最后的主键号比如 1000000,两者相减得到总记录数
2016-02-19 12:47:11 2370
原创 hbase 创建表、查询数据
pom.xml 配置 org.apache.hbase hbase-client 0.96.2-hadoop2 org.slf4j slf4j-api org.slf4j slf4j-log4j12 log4j log4j h
2016-02-04 10:16:14 6503 1
原创 druid数据源例子
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-01-27 14:25:29 947
原创 rsyncd 同步
rsyncd 适合同步数据量不是很大,对实时要求不高的文件比如你想同步机器A 的文件到 机器B,文件在机器A的 /home/q/www/activity/LOG目录下机器A 配置如下配置 rsyncd.conf、rsyncd.secrets ,放到/etc下,并将 rsyncd.secrets 设置为 600权限(一定是600权限) rsyncd.conf
2016-01-26 17:16:30 495
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人