自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 shell中循环调用hive sql 脚本

脚本tt.sh的内容如下:#!/bin/bashparams=$1for param in $paramsdo echo $paramdone#运行方式为:sh tt.sh "1 2 3 4 5"#输出为:12345-----------------------------------------------------------...

2017-04-06 14:37:06 10375

原创 异步记录日志获取不到HttpServletRequest中的URI

异步记录日志获取不到HttpServletRequest中的URI@NPE异常现象侵入业务代码中记录审计日志时,需要根据HttpServletRequest请求获取需要的URI,但是获取为null@Servicepublic class LogService { @Autowired private LogMapper logMapper; @Async @Transactional public void saveOptLog(String use

2021-05-08 19:02:22 753

原创 yarn 架构

yarn的机构说明:来自官网

2019-11-29 11:46:21 172

原创 安装pyspider时,需要安装pycurl,但是报错specify the SSL backend manually

Curl is configured to use SSL, but we have not been able to determine which SSL backend it is using. Please see PycURL documentation for how to specify the SSL backend manually.也有人作出解答点击跳转我是从官方文档中...

2018-07-30 17:53:08 1450

原创 python中main函数的作用以及解释

python 中name == ‘__main__’ 的作用 经典的英文解释:Make a script both importable and executable 中文解释:使脚本可以被调用import并且也可以直接运行1、直接运行# cat test_fun.pydef fun(): print(__name__) print('this i...

2018-04-19 16:53:18 23792

原创 git 使用

创建与合并分支 应用场景:多人协作时,需要共同开发同一个功能时,就是对同一个文件进行操作,可以采用在本地创建分支并提交修改后的文件到master分支,进行合并,形成一个完成的文件。# 创建本地分支并切换到分支dev_authorgit checkout -b dev_author# 查看当前所在分支git branch# 添加修改过的文件并提交git add test_...

2018-03-05 15:08:24 139

原创 hive 导出数据之一列多行,转为一行多列

需求:提取数据 说明:原数据是一列多行,需要转化为一行多列待查询表为:temp_05hive> desc temp_05;OKdata_dt stringzhanghao stringbooking_time_final stringsign stringhname

2018-01-31 17:57:25 10964 2

原创 hive sql 优化

insert overwrite local directory'/tmp/100'row format delimited fields TERMINATED by'\t'select b.hid,b.comment_id,b.comment_timefrom tmp_for_agoda_fix_date_format aleft join hotel_info_customer_co

2017-12-26 11:11:50 254

原创 sql 连续两个月活跃的用户

题目如图: 环境:mysql 数据库建表:CREATE TABLE `T1` ( `userID` int(11) NOT NULL, `monthID` int(11) NOT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8全部记录:SELECT * FROM T1;10002 210003 210002 310001 2100

2017-10-27 15:29:30 7332 2

原创 安装配置Supervisor

应用场景 应用程序需要24小时不间断运行,这时可使用 supervisor 监控应用程序的进程,当发生应用程序内部错误退出、进程被杀死等情况时,自动重启应用程序。 官方网站 http://supervisord.org 支持的系统 Supervisor 是一个 UNIX 下的进程管理软件 Supervisor 不可以在任何版本的 Windows 上

2017-08-02 18:55:46 530 1

原创 生产环境 hadoop集群监控工具--ganglia的搭建(YUM的方式)

集群简介:ip 主机名 集群角色 监控角色192.168.20.161 oncloud0 NameNode gmond,gmetad192.168.20.162 oncloud1 DataNode gmond192.168.20.163 oncloud2 DataNode gmond192.168.20.

2017-08-01 18:39:19 851

原创 hadoop集群监控工具--ganglia的搭建(YUM的方式)

Ganglia架构简介: Ganglia 是一款为HPC(高性能计算) 集群设计的可扩展性的分布式监控系统,它可以监视和显示集群中节点的各种状态信息,它由运行在各个节点上的守护进程gmond 采集 CPU、内存、磁盘利用率、I/O负载、网络流量情况等方面的数据,然后汇总到守护进程gmetad下,使用rrdtool存储数据,然后将历史数据以曲线方式通过PHP页面呈现,通过曲线很容易见到每个节点的工

2017-08-01 14:58:24 4510 5

原创 awk 传参

功能:向awk传递多个参数,执行同样的步骤—>查找计数#!/bin/bash#以下两种方式都可以传递awk参数test1="hello"test2="world"echo |awk -vt1=$test1 -vt2=$test2 'BEGIN{print t1" "t2}'echo ${test1} ${test2} | awk '{print "'$test1'","'$test2'"}'

2017-05-18 11:57:47 689

原创 hive 同一个表不同分区的数据求和

业务表如下:hive> desc sc_kekaoxing;OKid string 可靠小表id car_id string car表id month strin

2017-05-12 16:53:08 4006

转载 hive任务卡在个别reduce的问题分析

hive任务卡在个别reduce的问题分析

2017-04-26 10:43:42 1108

原创 hive 添加字段导致数据出错

【数据查询为null】有一张表是已经存在的历史表:表名为code,由于业务需要新增加了一个字段:alter table code add COLUMNS (tag_sentence string comment '分割的句子,test') ;然后load相对应的数据,查询发现  tag_sentence 的值有的是显示正确的,有的显示为null解决方案:在创

2017-04-25 13:24:02 2038

原创 hadoop 运维

netstat -n | awk  '/^tcp/ {++S[$NF]} END {for(a in S) print a,s[a]}'ALTER TABLE logs DROP IF EXISTS PARTITION(year = 2012, month = 12, day = 18);ALTER TABLE hotel_info_customer_comment_format

2017-04-14 15:48:44 345

原创 执行 hive sql ,报错:断开的管道

在集群正常的情况下,执行hql会报错:断开的管道,由于hql已经运行很久了,保证并不是hql的语句错误,所以查看磁盘使用情况,执行命令: df -lh 文件系统                 容量  已用  可用 已用% 挂载点/dev/mapper/centos-root   50G   17G   34G   33% /devtmpfs                  16

2017-04-11 11:42:53 2588

原创 定时任务crontab报错

新增一条定时任务命令之后,在保存时,报错信息如下:"/tmp/crontab.fe4L4V" 31L, 1656C writtencrontab: installing new crontab"/tmp/crontab.fe4L4V":19: bad minuteerrors in crontab file, can't install.Do you want to retry

2017-04-10 18:25:05 1954

转载 关于hive分析函数

Hive分析窗口函数(一) SUM,AVG,MIN,MAXhttp://lxw1234.com/archives/2015/04/176.htmhive建表的location问题?https://www.zhihu.com/question/23138769Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_R

2017-04-06 16:46:05 503

原创 awk把所有日期下的内容输出到同一个文件中

功能:awk把所有日期下的内容输出到同一个文件中,没有使用cat命令的原因是多个文件衔接的地方有的可能有换行符有的可能没有换行符文件名为a.sh#!/bin/bashdts=$1for dt in $dts  do    cat ${dt}/result/hotel_ranking_info_tb |awk -F "\t" '{print $0}'  done运

2017-04-06 15:15:07 1015

原创 Shell 中取今天、昨天、前天、n天前以及n天后的时间

1:获取今天的日期[root@oncloud10 ~]# date +'%Y-%m-%d'2017-03-15  或者[root@oncloud10 ~]# date -d "now" +%Y-%m-%d 2017-03-152:获取昨天的日期[root@oncloud10 ~]# date -d "yesterday" +%Y-%m-%d2017-03-14

2017-03-15 17:45:30 32475

原创 hadoop集群中某一台机器shutdown

说明,集群的环境为linux版本cengos7.2在运行HQL脚本时,报错: bash: fork: retry: 没有子进程直接重启响应的机器,操作失误为shutdown(关机)应该为shutdown -r (关机重启)手动开启机器之后,集群也需要重启,HIVE也要重启为了远程连接HIVE,需要一直打开hiveserver2,并保持窗口,不能被关闭(此处使用的是第三方

2016-11-16 11:40:12 1446

原创 hadoop2.7.2集群运行HQL时,异常Job Submission failed with exception 'org.apache.hadoop.ipc.RemoteException

在运行了接近50天集群(期间集群没有重启过)之后,运行的是HQL脚本,就是一条简单的查询语句,集群报错,以下是报错的具体信息,最终的解决方案是:手动重启集群,解决了。在重启集群时:发现不能运行sh stop-all.sh来关闭,会提示:This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.shStopping

2016-11-03 15:14:12 4416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除