lhxsir-CSDN博客

原创 IDEA修改SVN地址

公司的SVN地址改变了（本地项目还没同步）(一) 选中项目，右键Subversion --> RelocateFrom URL路径保持不变（修改To URL为最新路径）(二)选中项目，右键Subversion --> Update Directory勾选Update修改URL为最新的即可。...

2019-01-03 19:43:08 30365 7

原创 oracle常用命令（hive转换）

字段类型：名称：SERIES_NAME VARCHAR2(200)数字：ONWAY NUMBER标识：FLAG NUMBER(1)日期：DATE_DAY VARCHAR2(20)create table CUSTOMER_COUNT( UPDATE_DATE DATE not null, RSSC_ID VARC...

2018-11-23 16:23:41 2668 1

原创 yarn常用命令行

hdfs没有足够的空间，进一步分析是cdh某个节点挂掉了。导致flink连接不上，获取不到资源！##获取application日志。##修改hdfs日志的读写权限。##杀掉application。##获取container日志。##查看当前运行的应用。##获取文件最后1万行。##获取文件前1万行。

2024-04-09 10:05:48 273

原创数据比对步骤

1，寻找差异字段的原因？（修正自己逻辑，修正宽表逻辑）3，把有差异的行数，逐个排查分析，举例说明！1，翻译代码写完（中台生成dws结果）2，oracle结果导入CDH数据中台。4，形成比对报告文档，开会确认！2，寻找行数差异的原因？3，编写比对SQL脚本。

2024-04-07 14:58:25 110

原创每天定时杀spark进程

#每日定时杀手动启动的进程。##编写shell脚本。

2024-04-03 19:29:38 372

原创关闭Firefox自动更新及更新提醒

找到distribution目录，在其下创建文件policies.json。右击Firefox，打开Firefox安装目录，

2024-03-29 11:21:16 96

原创记一次namenode问题修复

背景是CDH集群挂了，重启HDFS组件，namenode一直重启失败！然后重启JournalNode（cdh02/cdh04/cdh05）重启namenode（cdh02/cdh04）重启ZKFC（cdh02/cdh04）##拷贝该节点到剩下两个节点。##查看那个节点没有报错。

2024-03-27 19:32:59 187

原创 CDH中重装Kafka

之前测试集群kafka安装在01、02、04节点，但是01节点经常宕机，于是直接在CM页面上把01节点上的kafka broker手动删除了。然后重新再03节点安装了新的kafka broker。于是kafka集群不能使用了！(2)删除Zookeeper的数据。(1)删除data文件数据。##初始化kafka。

2024-03-21 14:43:49 617

原创 CDH报错未检测到Java JDK

General Error(s) 主机上未检测到 Java JDK。

2024-03-13 17:18:48 155

原创 substr函数踩坑

impala中使用substr截取前几位字符时一定要从序号1开始！##hive和impala的substr函数比对。###impala中substr函数使用。###在hive中substr函数使用。

2024-03-09 16:02:42 278

原创 spark-sql显示字段名称

cdh6.3.2集群中，使用命令启动spark-sql，执行。

2024-03-08 12:28:24 313

原创 flink sql常用函数

mysql写法：flink sql写法：

2023-07-30 10:44:55 188

原创 FlinkSQL 解析字符串+行转列

近期遇到一个实时flinksql需求，需要根据ids数组字段解析成名称数组字段。。。其中parent_path存放的内容是点号分割的字符串"1659077318807721985.1659120595539924993.1659121050219255810"

2023-07-06 16:02:15 1074 3

使用pyodps运行SQL语句，在测试环境中能执行出结果，在生产环境反复执行就是没有结果，无奈求助dataworks大佬，这才发现是hive兼容模式的问题，导致日期解析出错！！！opds添加代码--打开MaxCompute 2.0数据类型set odps.sql.type.system.odps2=true; --打开Decimal 2.0数据类型set odps.sql.decimal.odps2=true; --Hive兼容模式set odps.sql.hive.compatible

2021-08-26 19:29:37 1046 1

原创虚拟机docker安装kafka

准备工作：如果是虚拟机，调整网络为桥接模式第一部分：安装zookeeper和kafka#下载docker镜像docker pull docker.io/wurstmeister/zookeeperdocker pull docker.io/wurstmeister/kafka:2.12-2.1.0#安装docker镜像docker run -d --name zookeeper --net=host -p 2181:2181 wurstmeister/zookeeperdocker ru

2021-08-18 11:03:21 601

原创 centos7安装docker

提前安装好Centos7docker分为两个分支版本: Docker CE社区免费版、Docker EE企业版Device Mapper软件包$ ls -l /sys/class/misc/device-mapperlrwxrwxrwx 1 root root 0 May 1 20:55 /sys/class/misc/device-mapper -> ../../devices/virtual/misc/device-mapper#如果没有检测到Device Mapper，需要安装dev

2021-08-13 09:28:32 177

原创 mysql常用方法

时间函数：select curdate(); --获取当前日期select last_day(curdate()); --获取当月最后一天。select DATE_ADD(curdate(),interval -day(curdate())+1 day); --获取本月第一天select date_add(curdate()-day(curdate())+1,interval 1 month); -- 获取下个月的

2021-08-11 17:23:34 101

原创阿里云ODPS使用to_char()报错

执行SQL语句：select to_char(from_unixtime(cast(1622628854384/1000 as BIGINT)),'yyyymmdd');报错信息如下：FAILED: ODPS-0130071:[1,8] Semantic analysis exception - function to_char cannot match any overloaded functions with (STRING, STRING), candidates are STRING TO_

2021-07-29 15:36:17 1990

原创 DataGrip使用汇总

#获取mysql表字段信息及注释SELECT COLUMN_NAME 列名, COLUMN_TYPE 数据类型, DATA_TYPE 字段类型, CHARACTER_MAXIMUM_LENGTH 长度, IS_NULLABLE 是否为空, COLUMN_DEFAULT 默认值, COLUMN_COMMENT 备注 FROM INFORMATION_SCHEMA.COLUMNSwheretable_schema ='dev_db' AND table_name =

2021-07-26 12:40:37 457 1

原创阿里云odps SQL

odps官方网站使用示例：#使用TO_DATEselect *from xx_bi.dwd_bi_wide_order_pay_record_detail_di where ds='20210711'and payment_time between TO_DATE('2021-07-09 00:00:00','yyyy-mm-dd hh:mi:ss') and TO_DATE('2021-07-09 23:59:59','yyyy-mm-dd hh:mi:ss')#使用to_charsel

2021-07-13 11:22:44 573

原创 sqlalchemy使用(python)

sqlalchemy 查询SQL：#/usr/bin/env python#coding:utf-8from sqlalchemy import create_engine,textengine = create_engine("mysql+pymysql://dbname:dbpassword@ip:3306/db?charset=utf8",encoding="utf-8",echo=True)conn = engine.connect()text_sql='show index from

2021-07-08 12:59:35 320

原创 SQL正则表达式

筛选出custom_id中全部是数字：select * from om_order where custom_id rlike '^\\d+$' ;

2021-07-05 16:57:36 1083

原创 hologres常用语句

Holo行转列的实现#Holo行转列的实现SELECT regexp_split_to_table('a,s,d,f,g',',');

2021-07-05 09:26:22 1016

原创 PostgreSQL数据库使用

锁表解锁步骤：#查询是否有锁表select relation::regclass, * from pg_locks where not granted;#查询锁表的oidselect oid from pg_class where relname='可能锁表了的表'#查询锁表的pidselect pid from pg_locks where relation='上面查出的oid'#释放锁定的表select pg_cancel_backend(上面查到的pid)...

2021-07-01 16:19:27 139

原创 Hive解析json格式字段

新建hive表create external table asmp.json_test(id string,info string)row format delimited fields terminated by '\t' lines terminated by '\n'location 'hdfs://nameservice1/user/asmp/json_test'插入数据1 [{"name":"Tom","city":"Beijing"},{"name":"Jack", "city

2021-03-18 17:11:57 575

原创核对发票数据过程

前两天发票逻辑变动，需要去掉part_code重复的经销商数据，具体做法如下：(1)生成一张去掉重复的经销商表clean_tm_sst(2)计算发票的逻辑关联这张表---------------------------漫长的核对过程------------------------------(1)初步核对：获取重复的part_code对应的经销商代码，然后到结果表中查询是否筛选成功(2)核对发票金额是否一致：由于是两年前的逻辑，核对过程就像是回忆过去经历。首先从数据库中拉取某家经销商2月份的

2021-03-03 14:47:42 969

原创 Oozie任务阻塞问题

早上业务部门发邮件说昨天数据没生成出来，查看集群后发现workflow任务阻塞了，正常9点之前所有任务都能执行完毕，今天竟然有三个workflow还在执行中。。。还有两个workflow任务超时报错了，进一步排查原因是资源池被其它部门的机器学习任务抢占了！随着生产集群上部署的workflow越来越多，集群资源有限，集群任务没有合理规划执行时间，导致现在出现资源抢占的情况！！！和其它部门协调方案：(1) 限制机器学习任务占用资源大小(2)把机器学习任务从7点调整到5点后续如何避免这类问题：(1)

2021-02-24 10:27:51 344

原创 hbase预分region方法

hbsae表使用VIN（车架号每个车辆唯一的编号 17位）作为rowkey，但是VIN分布并不均匀，因此在数据量很大的时候需要考虑自定义预分region间隔区间：use asmp;select sub,count(1) n from (select substring(vin,1,5) as sub from tt_repair_deed_tmp where partition_brand='vw') agroup by sub order by n descselect sub,count(

2021-02-22 11:36:47 622

原创 workflow经常无故报错SQL

生产集群workflow经常随机报错，但是报错信息都差不多，SQL解析，内存不足的问题，报错信息如下：21/01/29 04:02:54 ERROR yarn.ApplicationMaster: User class threw exception: org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:Exchange RoundRobinPartitioning(1)+- *Project [R

2021-01-29 12:29:53 362

原创数据分层（方法论）

如何设计数据分层数据仓库分为下面三个层：数据运营层、数据仓库层和数据产品层。第一层：明细层(ODS:operational data store，DWD: data warehouse detail)作用：记账、发货使用在这层不是简单的数据接入，而是要考虑一定的数据清洗，比如异常字段的处理、字段命名规范化、时间字段的统一等，一般这些很容易会被忽略，但是却至关重要。数据仓库层(DW)，是数据仓库的主体第二层：轻度汇总层(MID或DWB, data warehouse basis)作用：用户结

2020-11-25 11:48:58 6093

原创 Hive列转行总结

有张表分成八种情况，分别为：账面库存X类标准库存X类待核销库存X类待冲销库存X类账面库存Y类大众标准库存Y类待核销库存Y类待冲销库存Y类于是考虑先使用拼接函数生成如下样式：建立测试表：CREATE table student_test( stu_id string comment '学号', stu_name string comment '姓名', stu_type string comment '类型', courses string comment '各个科目',

2020-10-22 18:19:18 974

原创 Dev-Cpp使用&快捷键

之前搞过蓝桥杯，就从官网下载了Dev-cpp软件~http://dasai.lanqiao.cn/pages/dasai/news_detail_w.html?id=1819解压后，点击File – New – Project，直接F9编译F10运行：#include <stdio.h>#include <stdlib.h>int main(int arg ,char *argv[]) { printf("hello world!"); return 0;}编译运

2020-10-21 10:58:52 859

原创 leetcode在线刷题

登录网站 https://leetcode-cn.com/注册账号（使用GitHub账号）

2020-10-20 19:28:19 410

原创 Sqoop导入HDFS格式问题

(1)使用Text格式sqoop import --connect jdbc:oracle:thin:@//IP:1521/ASMP2 --username --password --query "SELECT * FROM SBPOPT.TT_MAINTENANCE_TIMES_CORRECT where \$CONDITIONS" --fields-terminated-by '\t' --delete-target-dir --target-dir /user/asmp/hive/asmp/tt_m

2020-09-25 10:34:11 621

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

druid数据分析原理与实践

大数据及其常用组件介绍

Apache Kylin操作流程

n2n windows端

window平台 ncat工具

空空如也