自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (9)
  • 收藏
  • 关注

原创 什么是数据倾斜,怎么解决数据倾斜?

相信很多接触MapReduce的朋友对‘数据倾斜’这四个字并不陌生,那么究竟什么是数据倾斜?又改怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的2-8原理:80%的财富集中在20%的人手中,80%的用户只使用20%的功能,20%的用户贡献了80%的访问量,不同的数据字段的数据倾斜一般有两种情况:一种是唯一值非常少,极少数值有非常多大记录值;一种是唯一值比较多,这个字段的某些值有远远多于.

2020-08-25 18:08:43 1722

原创 手工导入EXCEL文件到ORACLE数据库

1. 数据源city.xlsx2. 另存为city.csv3. 创建表结构 CREATE TABLE ODS.ODS_DIM_CITY ( CITY_CODE VARCHAR2(200 BYTE) NOT NULL ENABLE, CITY_NAME VARCHAR2(200 BYTE), CITY_LEVEL_CODE VARCHAR2(200 BYTE), CITY_LEVEL VARCHAR2(100 BYTE), CITY_CLASSIFY_CODE VA

2020-08-13 09:54:44 302

原创 Oracle查找没有提交事务的SQL

--查找没有commit的事务select s.sid,s.serial#,'kill -9 ' || p.SPID, 'alter system disconnect session '''||s.sid||','||s.serial#||''' immediate;', s.status, s.LOGON_TIME,s.machine, t.start_time, a.SQL_ID, a.SQL_TEXT, a.SQL_FULLTEXT, b.SQL_ID pre_sql_te..

2020-08-10 06:46:10 1190

原创 Kafka为什么会那么快?

Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间,但实际上,Kafka的特性之一就是高吞吐率。下面从数据写入和读取两方面分析,为什么Kafka速度会这么快。数据写入Kafka会把收到的消息都写入到硬盘中,它绝对不会丢失数据。为了优化写入速度,Kafka采用了两个技术,顺序写入和MMFile(Memory Mapped File)顺序写入...

2020-07-29 19:29:38 642

原创 RDD宽依赖和窄依赖理解

1)RDD概念:Resilient Distributed Datasets 弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显示的将数据存储到磁盘和内存中,并且能控制数据分区。同时,RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区集合,只能通过在其他RDD执行确定的转换操作(transformation)而创建。RDD可看作一个spark对象,他本身存在于内存中,如对文件计算是一个RDD。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。如

2020-07-25 08:41:32 1430

原创 创建时间维度表之Oracle篇

1, 创建表结构create table TIME_DIMENSION( the_date NUMBER not null, date_name NVARCHAR2(15), the_year NUMBER, year_name NVARCHAR2(10), the_quarter VARCHAR2(10), quarter_name NVARCHAR2(10), the_month NUMBER, month_name NVA

2020-06-30 16:04:10 365

原创 Oracle下使用触发器实现主键ID自增加

1. 建立测试表create table book(bookID varchar2(10) primary key,bookName varchar2(20));2. 创建序列create sequence book_seq start with 1 increment by 1;3. 创建触发器create or replace trigger bookID_auto_triggerbefore insert on book for each rowbegins

2020-06-03 10:23:00 227

原创 缓慢渐变维度

在维度建模的数据仓库中,有一个著名概念叫 Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写成 SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化。这种随时间发生变化的维度一般称为缓慢变化维。处理缓慢变化维的方法通常分为3中:第一种方式是直接覆盖原值。这种处理最容易实现,但是没有保留历史数据,无法分析历史变化信息。第二种方式是添加维度行。这种处理需要代理键的支持。实现方式是当有维度属性...

2020-06-03 09:57:43 610 1

原创 Kerberos 高可用部署

目前Kerberos服务器的高可用主要是通过主备模式实现,数据同步是通过kprop服务,定时将主节点上的数据同步到从节点上。# kadmin.localAuthenticating as principal root/[email protected] with password.kadmin.local:kadmin.local: addprinc -randkey h...

2020-04-20 11:02:34 422

原创 Hive中创建映射Hbase表

######To create hive table mapping hbase table###create external table hbase_test_mysql_general(rowkey string,id bigint,current_d string,current_t string,current_dt string,current_z string,id1...

2020-03-02 11:22:11 162

原创 Maxwell 配置kerberos信息

在config.property文件中加入下面配置:#####config.property###############kafka.security.protocol=SASL_PLAINTEXTkafka.sasl.kerberos.service.name=kafkakafka.sasl.mechanism=GSSAPIsecrity.inter.broker.protocol...

2020-03-02 11:16:36 206

原创 手动迁移JournalNode

1.首先我们停止HDFS服务。2.把要迁移的节点/data/jn下的数据复制到新的节点上(scp /data/jn 10.xx.xx.11:/data/ 注意目录用户属组和权限必须保持正确)3.回到HDFS服务的“实例”页面,添加JN角色给新的节点;把旧的jn节点删除4.重启HDFS服务5.进入HDFS服务页面,点击“操作”->“滚动编辑”,该步骤主要是为了强制同步3个Jo...

2020-01-30 16:15:09 578

原创 sqoop导入hive表时,去除列中的tab键回车键等

sqoop import --connect jdbc:oracle:thin:@10.100.100.1:1521/orcl --username oracle --passowrd oracle --query "select * from oracle.sample where \$CONDITIONS and start_date < to_date('1999-10-31','yy...

2020-01-21 10:26:20 746

原创 Hive中实现数据增量累加主键覆盖的sql

insert overwrite table full_data_table selectddd.data_colfrom( select aa.data_col from full_data_table aaleft join( select b.pk_col as pk_id from full_data_table a left join inc_data_tabl...

2019-12-12 09:16:09 900

原创 Maxwell 同步blob字段到kafka

Maxwell在同步mysql blob到kafka时候,会用Base64进行加密。也就是说在kafka拿到数据时,blob字段的内容和源库中的数据是不一样的。Maxwell会对blob字段进行Base64加密。所以我们需要在入到存储上的时候进行base64的decode。具体方法如下:importjava.util.Base64public void base64() throw...

2019-12-10 14:44:42 303

原创 Installing the Teradata Connector with CDH5

1. Install the Sqoop connector by opening the distribution archive in a convenient location such as /usr/lib. Opening the distribution creates a directory that contains the jar file of the compiled...

2019-12-10 11:33:05 117

原创 如何使用sqoop导入avro file到hive中

1,使用sqoop命令,--as-avrodatafile参数从mysql,表t_movie导入hdfs,编辑命令[root@cdh-demo ~]# cat import_avro.txtimport--connectjdbc:mysql://cdh-demo:3306/mytest--usernamekobezhu--passwordkobezhu--tablet_mo...

2019-11-09 10:26:42 642

原创 Kerberos 命令使用

认证登录kinit admin/[email protected] for admin/[email protected]: 123456查询登录klistTicket cache: FILE:/tmp/krb5cc_0Default principal: admin/[email protected] starting ...

2019-11-01 11:28:08 1154

原创 Talend HDFS组件HA连接配置

2019-09-20 09:43:19 195

pnp4nagios_php

pnp4nagios-0.6-25修正的一些php文件

2015-09-29

check_oracle_health

使用nagois监控oracle的必装插件。

2015-09-28

6880880 11.2.0.3.6

OPatch 11.2.0.3.6

2014-11-04

websphere自动启服务shell脚本

websphere自动启服务shell脚本

2014-10-14

玩转oracle11g数据泵

详细介绍oracle impdp expdp使用参数

2014-10-14

redhat 6 HA 操作手册

redhat 6 高可用性HA 配置手册 文档密码: redhat

2013-08-01

redhat 64位asmlib安装包 2.6.18-274.el5

安装顺序 1 oracleasm-support-2.1.7-1.el5.x86_64.rpm 2 oracleasm-2.6.18-274.el5-2.0.5-1.el5.x86_64.rpm 3 oracleasmlib-2.0.4-1.el5.x86_64.rpm

2013-02-17

redhat asmlib 64bit安装包for内核2.6.18-274.el5

redhat server 内核2.6.18-274.el5 64位的asmlib安装工具 安装顺序:1 oracleasm-support-2.1.7-1.el5.x86_64.rpm 2 oracleasm-2.6.18-274.el5-2.0.5-1.el5.x86_64.rpm 3 oracleasmlib-2.0.4-1.el5.x86_64.rpm

2013-02-17

OCP最新题库

要考ocp的同学来看看啊!2012最新的题库哟!

2013-02-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除