自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(168)
  • 资源 (5)
  • 收藏
  • 关注

原创 IDEA修改SVN地址

公司的SVN地址改变了(本地项目还没同步)(一) 选中项目,右键Subversion --> RelocateFrom URL路径保持不变(修改To URL为最新路径)(二)选中项目,右键Subversion --> Update Directory勾选Update修改URL为最新的即可。...

2019-01-03 19:43:08 30365 7

原创 oracle常用命令(hive转换)

字段类型:名称:SERIES_NAME VARCHAR2(200)数字:ONWAY NUMBER标识:FLAG NUMBER(1)日期:DATE_DAY VARCHAR2(20)create table CUSTOMER_COUNT( UPDATE_DATE DATE not null, RSSC_ID VARC...

2018-11-23 16:23:41 2668 1

原创 yarn常用命令行

hdfs没有足够的空间,进一步分析是cdh某个节点挂掉了。导致flink连接不上,获取不到资源!##获取application日志。##修改hdfs日志的读写权限。##杀掉application。##获取container日志。##查看当前运行的应用。##获取文件最后1万行。##获取文件前1万行。

2024-04-09 10:05:48 273

原创 数据比对步骤

1,寻找差异字段的原因?(修正自己逻辑,修正宽表逻辑)3,把有差异的行数,逐个排查分析,举例说明!1,翻译代码写完(中台生成dws结果)2,oracle结果导入CDH数据中台。4,形成比对报告文档,开会确认!2,寻找行数差异的原因?3,编写比对SQL脚本。

2024-04-07 14:58:25 110

原创 每天定时杀spark进程

#每日定时杀手动启动的进程。##编写shell脚本。

2024-04-03 19:29:38 372

原创 关闭Firefox自动更新及更新提醒

找到distribution目录,在其下创建文件policies.json。右击Firefox,打开Firefox安装目录,

2024-03-29 11:21:16 96

原创 记一次namenode问题修复

背景是CDH集群挂了,重启HDFS组件,namenode一直重启失败!然后重启JournalNode(cdh02/cdh04/cdh05)重启namenode(cdh02/cdh04)重启ZKFC(cdh02/cdh04)##拷贝该节点到剩下两个节点。##查看那个节点没有报错。

2024-03-27 19:32:59 187

原创 CDH中重装Kafka

之前测试集群kafka安装在01、02、04节点,但是01节点经常宕机,于是直接在CM页面上把01节点上的kafka broker手动删除了。然后重新再03节点安装了新的kafka broker。于是kafka集群不能使用了!(2)删除Zookeeper的数据。(1)删除data文件数据。##初始化kafka。

2024-03-21 14:43:49 617

原创 flink启动错误(使用YARN)

#flink启动错误信息。

2024-03-19 14:53:29 493

原创 CDH报错未检测到Java JDK

General Error(s) 主机上未检测到 Java JDK。

2024-03-13 17:18:48 155

原创 substr函数踩坑

impala中使用substr截取前几位字符时一定要从序号1开始!##hive和impala的substr函数比对。###impala中substr函数使用。###在hive中substr函数使用。

2024-03-09 16:02:42 278

原创 spark-sql显示字段名称

cdh6.3.2集群中,使用命令启动spark-sql,执行。

2024-03-08 12:28:24 313

原创 flink sql常用函数

mysql写法:flink sql写法:

2023-07-30 10:44:55 188

原创 FlinkSQL 解析字符串+行转列

近期遇到一个实时flinksql需求,需要根据ids数组字段解析成名称数组字段。。。其中parent_path存放的内容是点号分割的字符串"1659077318807721985.1659120595539924993.1659121050219255810"

2023-07-06 16:02:15 1074 3

原创 pyodps配置问题

使用pyodps运行SQL语句,在测试环境中能执行出结果,在生产环境反复执行就是没有结果,无奈求助dataworks大佬,这才发现是hive兼容模式的问题,导致日期解析出错!!!opds添加代码--打开MaxCompute 2.0数据类型set odps.sql.type.system.odps2=true; --打开Decimal 2.0数据类型set odps.sql.decimal.odps2=true; --Hive兼容模式set odps.sql.hive.compatible

2021-08-26 19:29:37 1046 1

原创 虚拟机docker安装kafka

准备工作:如果是虚拟机,调整网络为桥接模式第一部分:安装zookeeper和kafka#下载docker镜像docker pull docker.io/wurstmeister/zookeeperdocker pull docker.io/wurstmeister/kafka:2.12-2.1.0#安装docker镜像docker run -d --name zookeeper --net=host -p 2181:2181 wurstmeister/zookeeperdocker ru

2021-08-18 11:03:21 601

原创 centos7安装docker

提前安装好Centos7docker分为两个分支版本: Docker CE社区免费版、Docker EE企业版Device Mapper软件包$ ls -l /sys/class/misc/device-mapperlrwxrwxrwx 1 root root 0 May 1 20:55 /sys/class/misc/device-mapper -> ../../devices/virtual/misc/device-mapper#如果没有检测到Device Mapper,需要安装dev

2021-08-13 09:28:32 177

原创 mysql常用方法

时间函数:select curdate(); --获取当前日期select last_day(curdate()); --获取当月最后一天。select DATE_ADD(curdate(),interval -day(curdate())+1 day); --获取本月第一天select date_add(curdate()-day(curdate())+1,interval 1 month); -- 获取下个月的

2021-08-11 17:23:34 101

原创 阿里云ODPS使用to_char()报错

执行SQL语句:select to_char(from_unixtime(cast(1622628854384/1000 as BIGINT)),'yyyymmdd');报错信息如下:FAILED: ODPS-0130071:[1,8] Semantic analysis exception - function to_char cannot match any overloaded functions with (STRING, STRING), candidates are STRING TO_

2021-07-29 15:36:17 1990

原创 DataGrip使用汇总

#获取mysql表字段信息及注释SELECT COLUMN_NAME 列名, COLUMN_TYPE 数据类型, DATA_TYPE 字段类型, CHARACTER_MAXIMUM_LENGTH 长度, IS_NULLABLE 是否为空, COLUMN_DEFAULT 默认值, COLUMN_COMMENT 备注 FROM INFORMATION_SCHEMA.COLUMNSwheretable_schema ='dev_db' AND table_name =

2021-07-26 12:40:37 457 1

原创 阿里云odps SQL

odps官方网站使用示例:#使用TO_DATEselect *from xx_bi.dwd_bi_wide_order_pay_record_detail_di where ds='20210711'and payment_time between TO_DATE('2021-07-09 00:00:00','yyyy-mm-dd hh:mi:ss') and TO_DATE('2021-07-09 23:59:59','yyyy-mm-dd hh:mi:ss')#使用to_charsel

2021-07-13 11:22:44 573

原创 sqlalchemy使用(python)

sqlalchemy 查询SQL:#/usr/bin/env python#coding:utf-8from sqlalchemy import create_engine,textengine = create_engine("mysql+pymysql://dbname:dbpassword@ip:3306/db?charset=utf8",encoding="utf-8",echo=True)conn = engine.connect()text_sql='show index from

2021-07-08 12:59:35 320

原创 SQL正则表达式

筛选出custom_id中全部是数字:select * from om_order where custom_id rlike '^\\d+$' ;

2021-07-05 16:57:36 1083

原创 hologres常用语句

Holo行转列的实现#Holo行转列的实现SELECT regexp_split_to_table('a,s,d,f,g',',');

2021-07-05 09:26:22 1016

原创 PostgreSQL数据库使用

锁表解锁步骤:#查询是否有锁表select relation::regclass, * from pg_locks where not granted;#查询锁表的oidselect oid from pg_class where relname='可能锁表了的表'#查询锁表的pidselect pid from pg_locks where relation='上面查出的oid'#释放锁定的表select pg_cancel_backend(上面查到的pid)...

2021-07-01 16:19:27 139

原创 Hive解析json格式字段

新建hive表create external table asmp.json_test(id string,info string)row format delimited fields terminated by '\t' lines terminated by '\n'location 'hdfs://nameservice1/user/asmp/json_test'插入数据1 [{"name":"Tom","city":"Beijing"},{"name":"Jack", "city

2021-03-18 17:11:57 575

原创 核对发票数据过程

前两天发票逻辑变动,需要去掉part_code重复的经销商数据,具体做法如下:(1)生成一张去掉重复的经销商表clean_tm_sst(2)计算发票的逻辑关联这张表---------------------------漫长的核对过程------------------------------(1)初步核对:获取重复的part_code对应的经销商代码,然后到结果表中查询是否筛选成功(2)核对发票金额是否一致:由于是两年前的逻辑,核对过程就像是回忆过去经历。首先从数据库中拉取某家经销商2月份的

2021-03-03 14:47:42 969

原创 Oozie任务阻塞问题

早上业务部门发邮件说昨天数据没生成出来,查看集群后发现workflow任务阻塞了,正常9点之前所有任务都能执行完毕,今天竟然有三个workflow还在执行中。。。还有两个workflow任务超时报错了,进一步排查原因是资源池被其它部门的机器学习任务抢占了!随着生产集群上部署的workflow越来越多,集群资源有限,集群任务没有合理规划执行时间,导致现在出现资源抢占的情况!!!和其它部门协调方案:(1) 限制机器学习任务占用资源大小(2)把机器学习任务从7点调整到5点后续如何避免这类问题:(1)

2021-02-24 10:27:51 344

原创 hbase预分region方法

hbsae表使用VIN(车架号 每个车辆唯一的编号 17位)作为rowkey,但是VIN分布并不均匀,因此在数据量很大的时候需要考虑自定义预分region间隔区间:use asmp;select sub,count(1) n from (select substring(vin,1,5) as sub from tt_repair_deed_tmp where partition_brand='vw') agroup by sub order by n descselect sub,count(

2021-02-22 11:36:47 622

原创 workflow经常无故报错SQL

生产集群workflow经常随机报错,但是报错信息都差不多,SQL解析,内存不足的问题,报错信息如下:21/01/29 04:02:54 ERROR yarn.ApplicationMaster: User class threw exception: org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:Exchange RoundRobinPartitioning(1)+- *Project [R

2021-01-29 12:29:53 362

原创 数据分层(方法论)

如何设计数据分层数据仓库分为下面三个层:数据运营层、数据仓库层和数据产品层。第一层:明细层(ODS:operational data store,DWD: data warehouse detail)作用:记账、发货使用在这层不是简单的数据接入,而是要考虑一定的数据清洗,比如异常字段的处理、字段命名规范化、时间字段的统一等,一般这些很容易会被忽略,但是却至关重要。数据仓库层(DW),是数据仓库的主体第二层:轻度汇总层(MID或DWB, data warehouse basis)作用:用户结

2020-11-25 11:48:58 6093

原创 Hive列转行总结

有张表分成八种情况,分别为:账面库存X类标准库存X类待核销库存X类待冲销库存X类账面库存Y类大众标准库存Y类待核销库存Y类待冲销库存Y类于是考虑先使用拼接函数生成如下样式:建立测试表:CREATE table student_test( stu_id string comment '学号', stu_name string comment '姓名', stu_type string comment '类型', courses string comment '各个科目',

2020-10-22 18:19:18 974

原创 Dev-Cpp使用&快捷键

之前搞过蓝桥杯,就从官网下载了Dev-cpp软件~http://dasai.lanqiao.cn/pages/dasai/news_detail_w.html?id=1819解压后,点击File – New – Project,直接F9编译F10运行:#include <stdio.h>#include <stdlib.h>int main(int arg ,char *argv[]) { printf("hello world!"); return 0;}编译运

2020-10-21 10:58:52 859

原创 leetcode在线刷题

登录网站 https://leetcode-cn.com/注册账号(使用GitHub账号)

2020-10-20 19:28:19 410

原创 Sqoop导入HDFS格式问题

(1)使用Text格式sqoop import --connect jdbc:oracle:thin:@//IP:1521/ASMP2 --username --password --query "SELECT * FROM SBPOPT.TT_MAINTENANCE_TIMES_CORRECT where \$CONDITIONS" --fields-terminated-by '\t' --delete-target-dir --target-dir /user/asmp/hive/asmp/tt_m

2020-09-25 10:34:11 621

原创 Hive窗口函数的使用场景

(1)oracle使用KEEP()函数,改写成hive语句(2)group by和max函数一起使用的坑:一张剧目演出表,表中有(剧目ID,剧目名称,演出单位,票房),问:查询出每个演出单位票房最高的剧目名称。(听起来很简单吧)现在我们看看数据:(name是剧目名称,desp是演出单位,price是票房)错误的使用方式:对比后发现name字段信息不对。。。虽然找到的是最大的price,但是与之匹配的剧目名称name却不对应,而是group by分组后的第一条记录的基本信息。最终正确H

2020-09-09 11:27:45 582

原创 Excel常用方法

Excel中两列互换:选中其中的一列数据,移动到列与列之间的位置,此时鼠标是“十”字形,按住shift键+鼠标左键,拖动到你想要达到的位置即可

2020-08-26 17:48:58 306

原创 scala常用函数

日期函数 /** * 通过日期获取一年中的第几周,周几 */ def getWeek(date:String,dateFormat:String): Int = { // 创建Calendar对象 val calendar = Calendar.getInstance // 设置传入的时间格式 val sdf = new SimpleDateFormat("yyyy-MM-dd") // 指定一个日期

2020-08-21 17:59:42 277

原创 数据仓库技术选型(三)

一个合理的架构的关键是能够在以下方面取得平衡: 成本 满足需求(梳理业务和响应的应用场景) 技术可持续(需要处理的数据源的种类、类型、数据量) 灵活性 稳定性 可扩展性flume 不能同步到ESlogstash 占用内存高,比较常用fliebeat 不依赖java版本,对业务侵入少,占用内存低技术架构:数据仓库:负责数据资产建设和管理,数据治理数据开发:数据分析数据平台建设:...

2020-08-20 11:41:34 996

原创 数据仓库建模理论(二)

数仓建模的目标:(1) 访问性能,快速查询所需的数据,减少数据I/O(2) 数据成本:减少不必要的数据冗余,实现计算结果数据复用(3) 使用效率:改善用户应用体验,提高使用数据效率(4) 数据质量:改善数据统计口径不一致问题,减少数据计算错误率第一范式(1NF)域是原子性的,即表中每一列都是不可分割的原子数据项规范后:第二范式(2NF)1NF基础上,实体的属性完全依赖于主关键字,不能存在仅依赖主关键字一部分的属性规范后:第三范式(3NF)2NF基础上,任何非主属性,完全依赖

2020-08-19 15:46:40 310

druid数据分析原理与实践

Druid实时大数据分析原理与实践.pdf 高清,欧阳辰,数据仓库架构必备。

2019-06-25

大数据及其常用组件介绍

本TTP为大数据及其常用组件的基本介绍(hdfs hive hbase kafka spark kudu impala kylin streamsets)仅供参考。

2018-11-06

Apache Kylin操作流程

Apache Kylin操作流程截图分享,及配套文字讲解,仅做参考。

2018-06-27

n2n windows端

该文件对应csdn博客(n2n内网穿透搭建)中n2n本地服务器的windows端应用程序使用,请配套使用。

2018-05-23

window平台 ncat工具

windows平台下ncat工具,Netcat用于从TCP/UDP连接中读取或发送网络数据。(使用方法:ncat.exe -l -k -p 6666)

2018-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除