自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xiaohai798的专栏

记录自己想留下的

  • 博客(78)
  • 资源 (7)
  • 收藏
  • 关注

原创 elasticsearch6升级7后hive映射表报错es hadoop illegal argument canot detect es version 问题解决

elasticsearch6升级7后hive映射表报错es hadoop illegal argument canot detect es version 问题解决

2022-08-08 11:48:48 890 1

原创 Hadoop集群kerbros认证取消主机未kdestory flink sql 写hive问题

flink kerberos kdestroy

2022-06-10 17:09:37 382

原创 hash join 原理简介-Rdbms Sql Join实现方式一

引申Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作join 连接,本质上是数据集的关联操作,不管是传统的rdbms 关系型数据库如oracle、mysql 还是现在大数据平台组件如hive 、spark sql都常用此连接逻辑而hash join 是实现join操作的重要方式之一,此外还有nested loop、sort merge join。很多文章都直接写原理,业务一笔带过,所

2021-03-08 16:57:41 1566 2

原创 Sql Join Corss Join 的根本性分类与关系代数

引申数据库中很多操作来自关系代数中的一些概念。例如常见的JOIN操作,下面是关系代数中的一些概念。https://en.wikipedia.org/wiki/Relational_algebraJOIN本身也分好多种比如EquiJoin , SemiJoin , AntiJoin , Cross Join,Division。这里的join 并不特指某个关系型数据库里的join关键词,而是泛指数据集的连接操作,具体到rdbms里面 会有 inner join(join) left join r

2021-03-05 16:57:24 510 1

原创 mysql入门-mysql5.7与oracle、hive等不同的小个性

前言日常编写sql语句时,经常需要用到日期 、字符串、数字格式等函数,例如 取当月第一天,取当日的上个月1号等等,这时往往会先拿个系统变量或者常量做一下测试。mysql hive postgresql 可以直接 select current_date 等系统内置变量或函数如:select CURRENT_DATE,CURRENT_DATE(),CURRENT_TIMESTAMP(),SUBDATE(CURRENT_DATE,INTERVAL 1 day),DATE_SUB(DATE_FOR

2021-03-05 16:33:49 217 1

原创 mongodb入门-mongod的坑

拉链表mongodbmongobooster1 日期格式 按日期范围统计时 时分秒需带上2 avg 函数 与其他大部分一样3 group by

2021-03-02 17:27:36 191

原创 mysql系统调优之thread_cache_size

背景Threads_created:创建过的线程数,如果发现Threads_created值过大的话,表明MySQL服务器一直在创建线程,这也是比较耗资源,可以适当增加配置文件中thread_cache_size值2、优化参数thread_cache_sizethread_cache_size:当客户端断开之后,服务器处理此客户的线程将会缓存起来以响应下一个客户而不是销毁(前提是缓存数未达上限)即可以重新利用保存在缓存中线程的数量,当断开连接时如果缓存中还有空间,那么客户端的线程将被放到缓存

2021-03-01 15:07:59 5845

原创 Hive Ha配置手把手详解-基于zookeeper配置cdh集群的HiveServer2负载均衡

1.1 修改代理token的存储实现类修改为org.apache.hadoop.hive.thrift.DBTokenStore1.2 增加HiveServer2 实例1.3 在配置中搜索到 hive-site.xml 的 HiveServer2 高级配置代码段(安全阀)配置如下两项<!--默认为false,配置为true HiveServer2会动态分配客户端--><property><name>hive.server2.support.dy

2021-03-01 11:08:53 1884 2

原创 Hive HA配置手把手详解-基于Haproxy配置cdh集群的HiveServer2负载均衡

背景需求hive 在离线分析,数仓中是最常用的工具,业务人员不需要熟悉mr,编程基础就可以通过sql操作数据。hive 的性能及稳定性在生产中必须保证。hive可以通过HAPROXY进行多节点负载均衡来达到目的。前提环境准备可用的基于cdh搭建的hadoop集群,并且Hdfs 、yarn、hive等安装完毕可用,cloudera manager可用进入hive服务配置,添加两个及以上的hive metastore和serveryum -y install ha...

2021-02-26 17:08:28 1471 2

原创 mysql系统调优之Aborted connection timeout/error reading communication packets 错误解决

背景近期客户的大数据任务调度应用系统出现问题,调度任务失败,任务没有正常执行,产品组同事去看应用日志也没发现错误日志.后来检查msql server日志发现有很多节点连接报 error reading communication 和time out reading错误解决1去检索了一下错误信息,大致都是以下: 网络问题,系统timeout参数问题,系统连接数问题于是首先用命令查看:一眼就看到11505这个数字,第一反应是怎么这么多连接,难怪有问题,又想了一下这..

2021-02-26 16:14:09 2131

转载 Zookeeper应用原理入门

转载自https://zhuanlan.zhihu.com/p/69114539?utm_source=wechat_session很多中间件,比如Kafka、Hadoop、HBase,都用到了 Zookeeper,于是很多人就会去了解这个 Zookeeper 到底是什么,为什么它在分布式系统里有着如此无可替代的地位。在踩了很多坑之后,我决定来回答下这个问题。其实学任何一项技术,首先都要弄明白,为什么需要这项技术。为什么需要 Zookeeper正经点来回答,就是我们需要一个用起来像单机但

2021-02-22 11:54:00 218

原创 spark submit 指定资源池-CDH Hadoop集群运维记录

spark-submit --master yarn --class com.bcht.application.FlowCountMinStreamingWenShan \--jars $SPARK_HOME/mysql-connector-java-8.0.20.jar --driver-memory 512M --driver-cores 1 --executor-memory 512M --executor-cores 1 --num-executors 1 \--queue root.us.

2021-02-19 14:55:39 532

原创 一种基于shell的实时流处理任务的监控重启程序-spark streaming job on yarn

#!/bin/bashrunning_app=`yarn application -list -appStates RUNNING 2>/dev/null | grep application_ |grep 5min | awk '{print $1}'`echo running_app=$running_appif [[ ! -n "$running_app" ]]; then echo "app is not running" spark-submit --...

2021-02-18 17:03:22 398 4

原创 CDH Hadoop集群运维记录-日常问题一

service cloudera-scm-agent restart 重启过一会再刷新看cm集群的状态若出现时钟偏差问题首先 service ntpd stop 手工更新一次 ntpdate –d nn1(一般是集群的nn1节点) service ntpd start 最后Service cloudera-scm-agent restart问题解决:...

2021-02-18 16:18:09 215

原创 一文搞懂mysql两大重要存储引擎innodb和myisam区别-业务优化实战mysql5.7

业务问题mysql5.7 版本,一个一百万数据表 a, 一个3千多的维表 a 一个两百多的维表补充表 b,业务逻辑如下:维表a和维表b关联 ,拿到在表a且不在表b的数据,结果记为b1 大表a和b1关联 ,且要筛选a表的数据时间区间在一年内 最后基于第二步结果 对大a表发现机构字段、b1表指标编号、违法行为为维度 做分组聚合 求违法数sql如下:​select rpad(substr(fxjg,1,4),10,'0') fxjg,a.zbbh,a.zbmc,sum(wfnum) .

2021-01-28 15:58:18 183

原创 mongodb入门-关系型RDMS数据库对比及适用场景

引言 最近工作接触到了mongodb数据库,记录下个人对其的理解和使用情况。虽然mongodb 出来的时间已经不短,但是相对mysql mssql oracle 这样传统的关系型数据库来说还是比较年轻,接触其的程序员应该也很少,本文从仅作介绍用。名字看MongoDB疑似Humongous Database(网络资料看到)。中文意思就是巨大无比的数据库,顾名思义,MongoDB就是为处理...

2018-08-18 21:20:49 1567 2

原创 元数据管理系统解决方案及产品调研-数仓系列(一)

元数据管理系统产品选型分析 1  概述 需要给目前数据仓库适用一套元数据管理系统,目的 减少人为的维护工作量、web页面协同工作(多人统一入口使用)、元数据权限管理等  1.1  应用背景 目前数据仓库没有专业的元数据管理系统,部分业务模型使用excel文档维护,分散、协同性不好。没有权限管理 1.2  业务目的 减少人为的维护工作量、web页面协同工作(多人统一入口适用),为数据仓库长远高质量发...

2018-06-30 19:05:03 24307 1

原创 db2 -4229错误 sql执行及数据加工报错信息的坑们-db2开发系列(二)

原因用etl工具kettle 从mongdb抽取一张表数据到db2时,报错 错误日志 里面见-4229错误

2018-06-30 16:23:04 13877

原创 greenplum(六) 现场常见由业务导致的故障

1 应用侧发现执行调度时出现连接重置,需重新连接数据库的问题问题现象:问题代码:select c.bcyc_id,c.acyc_id,c.eparchy_code, c.city_code, 'E0_001_01', count(distinct c.user_id) , coalesce( (select coun...

2018-06-30 10:16:02 2526

原创 greenplum(五) greenplum开发笔记之建表规范

背景:某运营商经分分析系统 底层数据仓库; 离线分析系统 物理模型表 表多批量操作 批量插入、更新 ,truncate操作,全表分组分析等。1 非分区表 ,建表样例语句:--drop table dwctr.tc_term_xxx;create table dwctr.tc_term_xxx( acyc_id integer not null ...

2018-04-17 16:20:21 4694

转载 greenplum(四)greenplum 常用数据库管理语句,sql工具

原文地址:https://blog.csdn.net/you_xian/article/details/78549756在greenplum 使用过程中积累的一些常用查询语句,整理出来备忘。欢迎各位留言补充。都是SQL命令以及数据字典的使用。熟悉数据字典非常重要。三个重要的schema:pg_catalog,pg_toolkit,information_schema,其中information_s...

2018-04-17 14:13:33 2435

原创 greenplum(三) gp工具命令及工具函数语句,持续更新.....

1 命令行导入文本数据到表psql -d bass_gp -h 10.243.4.145 -p 5432 -U dwadm -c "\copy dwtmp.tmp_test(cellid) from /data/22.txt "bass_gp  是数据库名及database名10.243.4.145  ip地址 5432  是端口号dwadm 账号2

2018-02-01 21:53:26 4411

原创 linux 常用(三) ftp服务命令

ftp命令与通常的linux命令不太相同,所以自己记下。登陆方式:替换下面例子中 IP 或域名为你的服务器地址ftp ip例如:ftp domain.comftp 192.168.0.1ftp [email protected]然后绝大多数的 FTP 服务器是使用密码保护的,因此这些 FTP 服务器会询问'username'和'password'.

2018-02-01 13:38:46 678

原创 侠之大者,为厂接坑-苦逼的程序员们(代码里有鬼)

还是15年8月份保存的草稿。。。。。。。。。。说的是这样一群的苦逼的程序员们1 家庭环境一般;基本都是普通本科毕业 由于各种原因 没有读研 直接工作的。2 话少 、交际圈窄;除了 上班 加班 就是窝在自己出租房里3 脾气好、老好人;不懂得拒绝别人或者客户、领导 要求4 技术还过得去;能胜任自己的工作。 一些常驻客户现成的程序员们,从入职开始 一般都是接盘 刚

2018-01-31 22:24:57 404

原创 hive(一) hive背景知识介绍-数据仓库技术简介

Hive是基于Hadoop的一个数据仓库工具

2017-08-10 22:38:41 2476

原创 greenplum(五) 性能小结记录

greenplum(五) 性能小结记录

2017-07-23 17:35:28 1525

转载 Greenplum 数据库 集群安装部署(生产环境) 所需硬件

Greenplum 数据库安装部署(生产环境)硬件配置:16 台 IBM X3650,节点配置:CPU 2 * 8core,内存 128GB,硬盘 16 * 900GB,万兆网卡。万兆交换机。安装需求:1台Master,1台Standby Master,14台Segment计算节点。安装步骤:Master节点安装创建GP安装配置文件并配置ssh互信关闭防火墙及开

2017-07-23 17:15:43 3688 1

原创 greenplum(二) postgresql SQL 状态: 42704之bug

postgresql SQL 状态: 42704之bug

2017-03-14 22:16:52 3378

原创 greenplum(一) Postgresql 22001 字符串被截断的错误

Postgresql 22001 字符串被截断的错误

2017-03-14 22:05:48 1757

原创 redis 初识redis

实时上网日志数据分析

2016-12-08 22:26:54 1231

转载 oracle ROW_NUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法(含lag lead用法)

oracle ROW_NUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法(含lag lead用法)

2016-11-22 11:06:28 945

原创 普通程序员的四年打杂收货

普通程序员的四年打杂收货

2016-11-03 22:39:00 1442

原创 浅谈ODS与DW的区别-数据项目实战总结

浅谈ODS与DW的区别-数据项目实战总结

2016-11-01 22:35:32 9539

原创 web前端JS整理之Handlebars介绍

web前端JS整理 Handlebars Jquery

2016-10-11 20:25:26 2725

原创 nginx + tomacat 负载均衡

nginx tomcat负载搭建

2016-10-10 23:58:11 1742

转载 打杂之WEB前端(二) jQuery 操作DOM总结,DOM Html操作,DOM Css操作

jQuery操作DOM的总结分享,个人学习笔记!分享的总结不一定很详细,不会每个方法的用法及详细描述及说明,只是一个概述!

2016-10-10 22:12:26 414

转载 打杂之WEB前端(一) jQuery 操作DOM总结,DOM Core操作

jQuery操作DOM的总结分享,个人学习笔记!分享的总结不一定很详细,不会每个方法的用法及详细描述及说明,只是一个概述!

2016-05-23 10:50:17 765

原创 Myeclipse8.5 里复制粘贴(ctr c ctr v)卡的解决方法

重拾Java web开发之myeclipse8.5 里复制黏贴功能(ctr c ctr v)卡的解决方法

2015-10-17 20:31:57 3134 2

原创 三年程序员的实战开发经验之谈-做人做事建议

三年程序员的实战开发经验之谈-做人做事建议

2015-08-22 14:49:29 3479 2

转载 BAT职级薪酬深度分析

BAT职级薪酬深度分析 转自 2015-08-19   拉勾网Lagou微信号 互联网圈有这么一句话:百度的技术,阿里的运营,腾讯的产品。那么代表互联网三座大山的BAT,内部人才体系有什么区别?薪酬福利在对应的级别又是如何?晋升是否会遭遇天花板?本文给你详细的解读转发自真格基金微信公众平台(微信公众号zhenfund) 百度:产品能力很全面 百度级别机构分为四条

2015-08-20 23:47:54 6800

合肥大数据资产运营公司 笔面试干货满满

合肥大数据资产运营公司 笔试干货满满;超全笔试题及面试题 ,最新大数据笔面经验,以前没有,只此一家。2022年4月最新,

2022-06-20

GaussDB 200 6.5.1 产品文档 07.chm

GaussDB 200 6.5.1 产品文档 07.chm

2021-04-12

超多的ui/ue小图标素材

ui/ue小图标 素材 超多的ui/ue小图标素材 超多的ui/ue小图标素材

2018-01-31

postgresql greenplum建表语句超详细

postgresql greenplum建表语句超详细 带说明 详细物理建模所需参数

2018-01-31

舞动DB2之2_从Oracle到DB2开发 从容转身.rar

oracle迁移到的db2的风险描述,及其开发方案 整体解决方案

2017-04-22

jedis 2.8.jar

2017-01-05

Java开发利器Myeclipse全面详解

eclipse 详细开发介绍 在开发团队中有这样两种人,一种是对技术了解的非常精通,但是开发速度很慢;另一 种是技术一般,但是能够快速、准确的完成下达的任务;请问项目经理会更欣赏哪一个程序 员? MyEclipse 的功能是非常强大的,但是笔者在培训教学中,发现学员并没有使用到其中 的精髓功能,还是使用记事本开发的思想。这就好像下面这个故事: 现在有木柱和细木棍两件东西,需要使用它们制作出火。有些人可能直接进行钻木取火, 但是有些人可能会使用它们换一个打火机。 其中钻木取火就是MyEclipse 的基本功能,而换打火机就是MyEclipse 的精髓功能,在 本书中就主要对这些精髓功能进行讲解。通过MyEclipse 的精髓功能就能够大大提高程序员 的工作效率,使用它们甚至可以自动生成150 行的代码。如果手动编写150 行的代码,可能 需要花费1 个小时的时间,但是如果使用其中的功能,就只需要5 秒钟。

2012-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除