weifengs1988-CSDN博客

原创 hive sql join 时字段类型不一致问题

在用hive sql 查询数据时会遇到两个表通过字段join，假如两个字段类型不一样，有可能出现莫名其妙的结果。解决方法：将2个字段类型转成一样。比如两个表通过id关联，一个是 string 一个是 int，可以将 string 转成int eg: (cast id as int) as id

2017-06-13 16:40:07 7239

原创如何根据历史数据监控当前数据是否异常

拿这一天的数据与历史数据做对比，对比方法为：根据历史数据求出该字段预期最大值和最小值，如果该字段数据这天低于最小值则预警历史数据取值范围：天表（近2周），周表（近一个月），月表（近4个月）根据一组数据(a1,a2,a3…….an)求预期最大值和最小值公式（单值均值控制图）1、求出这组数据移动极差数据（(a2-a1) ,(a3-a2) , …… , (an –an-1) ）

2016-09-21 13:05:20 5135 1

原创 idea快速构建spark 工程

idea 版本为：15.0.1, scala 为2.10.51、本地安装scala下载最新版本然后安装由于版本spark为1.3版本原因 scala请使用2.10.5版本 2、idea 安装scala插件 Plugins-->Browse repositories中输入Scala3、在spark官网下载spark包

2016-08-08 17:22:48 432

原创 hbase 协处理器

hbase提供大数据存储方案，但是对数据查询，统计方面支持不多，如果把数据全部加载到客户端进行求和、均值，会对客户端造成很大压力，幸而hbase提供了协处理器，下面是hbase自带的协处理器AggregationClient ，对表的行数进行汇总。例子如下： public int getRowCount(String tableName, String column)

2016-07-01 19:17:29 569

原创 hbase 建表时分region

创建hbase表时默认是不进行region的，当数据量增长到一定程度后，会添加一个region来存储数据可以通过在创建表时手动指定分region操作create 'lf:lf_t_view_hbase_room_stat',{NAME => 'base_info',TTL=>'8640000'}, {NAME =>'popularNum',TTL=>'8640000'}, {NAME =

2016-06-30 19:01:25 1608

转载 TF-IDF及其算法

文章来源：http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料

2016-03-04 18:50:14 384

原创 linux 下实用的命令

根据文件内容查找文件 find . -type f -name "*.*" | xargs grep "scrumworkspro.jnlp" 当前目录下查找包含了 scrumworkspro.jnlp 的所有文件将一列加起来 cat data.txt | awk '{print a=a+$1}end{print a}' | tail -n1

2016-02-19 15:58:45 282

原创如何查看一个大表的总条数

对于一个大表，如果直接用select count(1) from table 查条数可能特别慢，更有可能导致锁表、崩溃。可以通过主键（自动增长）来获取方法：查询最开始的主键号，比如 1，再查最后的主键号比如 1000000，两者相减得到总记录数

2016-02-19 12:47:11 2370

原创 hbase 创建表、查询数据

pom.xml 配置 org.apache.hbase hbase-client 0.96.2-hadoop2 org.slf4j slf4j-api org.slf4j slf4j-log4j12 log4j log4j h

2016-02-04 10:16:14 6503 1

原创 druid数据源例子

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-01-27 14:25:29 947

原创 rsyncd 同步

rsyncd 适合同步数据量不是很大，对实时要求不高的文件比如你想同步机器A 的文件到机器B，文件在机器A的 /home/q/www/activity/LOG目录下机器A 配置如下配置 rsyncd.conf、rsyncd.secrets ，放到/etc下,并将 rsyncd.secrets 设置为 600权限（一定是600权限） rsyncd.conf

2016-01-26 17:16:30 495

weifengs 的博客