自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

是个好男人的博客

一个大数据开发

  • 博客(113)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive Aapche 设置为事务表(ACID)This command is not allowed on an ACID table xxx with a non-ACID transaction

Apache Hive中默认的创建的表为非事务表,如果需要将表设置为事务表需要修改以下参数:<property> <name>hive.support.concurrency</name> <value>true</value></property><property> <name>hive.txn.manager</name> <value>...

2021-10-30 10:18:32 2440 3

原创 Hive 基于常用参数的调优(Tez和MR引擎)

1.说明Hive的常用计算引擎有MR、Tez和Spark,本篇博客主要是基于MR和Tez的参数调优,由于Hive的任务是在Yarn上提交的,所以Yarn作为一个资源调度器,可用的资源也需要进行配置。2.Yarn参数个性化配置配置文件名:yarn-site.xml参数名 推荐值 参数说明 yarn.nodemanager.resource.cpu-vcores 当前数据节点的可用最大CPU核数*80% Container可以使用的的CPU数 yarn...

2021-10-30 10:09:52 3022

原创 Hive 基于MapReduce引擎 map和reduce数的参数控制原理与调优经验

1.概述主要对基于MR的map数和reduce数测试与调优2.数据准备(1)表信息本次测试的表和sql都是使用的TPC-DS,表文件存储格式为text 表名 是否压缩 总数 占用空间 文件数 date_dim 否 73049 9.8 M 1 item ...

2020-11-26 11:56:29 2106

原创 Hadoop hdfs dfs命令 最常见经常使用的命令 入门推荐

1.常用命令下列的hdfs命令,都是在实际工作中经常会用到的,如果要看全部的命令可以直接使用hdfs dfs,会显示所有的命令。使用hdfs dfs -help能够查看每个命令的使用方法(1)help hdfs命令帮助hdfs dfs -help(2)ls 查看hdfs目录下内容命令格式:hdfs dfs -ls [文件目录]hdfs dfs -ls /结果:drwxr-xr-x - hdfs hdfs 0 2020-11-04 11:36 /HiBenc...

2020-11-23 10:02:15 9327

原创 Linux命令 ifconfig ethtool ip iperf3 网络查看常用命令 查看是否丢包 网络带宽测试工具

1.ifconfig 使用ifconfig命令,ifconfig是最常用的配置和查看网络接口信息的命令,服务器上执行此命令会得到类下文的内容,一下内容可看到多个设备和设备状态、信息。# 不包括down状态的网卡ifconfig#查看所有网卡的信息(包括down状态的网卡)ifconfig -a# 查看指定网卡的信息 enp4s0是网卡名字 可以通过ethtool命令查看ifconfig enp4s02.ethtool使用ethtool命令来查看配置...

2020-10-25 14:09:58 5001

原创 Hive 数据存储格式 orc格式

修改查看当前默认文件存储格式set hive.default.fileformat;set hive.default.fileformat=Orc;1.数据存储格式(1)textText是最简单最常见的存储格式,它是纯文本记录,也是Hive的默认格式。# 存储方式行存储# 特点空间利用率低有序列化和反序列话的开销建表语句:create table inventory( inv_date_sk int, inv_item_sk ...

2020-10-21 10:54:28 8332

原创 IDEA maven mvn install无法引用手动导入的jar包的解决方式 图文详细

解决方法: 手动在pom中添加依赖 使用mvn install 本次测试Jar以vertica-jdbc-8.1.1-0.jar驱动包为例子1.手动添加依赖在项目中建一个lib的目录,将外部jar包拷贝至lib的文件夹,然后在pom文件中加入此jar包的依赖内容如下:<systemPath>${project.basedir}/lib/rest-1.1.2.jar</systemPath>例子:<dependen..

2020-09-24 00:57:43 4419

原创 Linux命令 lscpu 查看cpu核数 cpu实时频率

1.核数和逻辑CPU计算公式核数 = 物理CPU个数 * 每颗物理CPU的核数逻辑CPU数 = 物理CPU个数 * 每颗物理CPU的核数 * 超线程数2.查看核数命令(1)查看物理CPU个数grep "physical id"/proc/cpuinfo | sort | uniq| wc -l2(2)查看每个物理CPU中core的个数(即核数)grep "cpu cores" /proc/cpuinfo | uniqcpu cores...

2020-07-09 16:29:39 22435

原创 Vertica 基本架构介绍 常用参数 常用SQL语句(非常有用~~)(一)

1.Vertica架构Vertica是一款基于列存储的MPP(大规模并行处理)架构的数据库,它可以支持存放PB级别的结构化数据。(1)MPP架构 该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。 在这种结构中,每一个处理节点就是一个小型的数据库系统,多个节点一起构成整个的分布式的并行数据库系统。由于每个处理器使用自己的资源处理...

2020-07-02 20:34:33 3025

原创 Greenplum 主备节点(master和standby)手动切换 步骤详细

1.准备本次针对GP6.x版本之前主备节点:master:node01standbymaster:node02查看集群备用节点状态:gpstate -f20190104:14:34:34:261113 gpstate:node01:gpadmin-[INFO]:-Starting gpstate with args: -f20190104:14:34:34:261113 gpstate:node01:gpadmin-[INFO]:-local Greenplum Ve.

2020-05-19 19:38:10 3305 2

原创 PostgreSQL pg_trgm扩展安装 模糊查询 使用原理

1.pg_trgm安装(1)安装btree_gin和pg_trgm# 需要先进入pg源码包中su - postgrescd contrib/pg_trgm/make && make install安装pg_trgm扩展时需要安装btree_gin才可以使用cd contrib/btree_gin/make && make install(2)创建扩展 安装的扩展默认都是在pg_catalog这个schema下面。也...

2020-05-15 20:00:31 6261

原创 PostgreSQL 10.x版本 分区表优缺点 详细解释分析 partition语法 分区表的使用

参考:http://www.postgres.cn/news/viewone/1/271分区字段选择:如果分区的目的只是为了切分数据,那么通常分区的字段需要选择与实际入库时间更接近的那个字段,因为更好管理一些1.分区表的说明 操作性相当便捷。但只能在创建时决定是否为分区表,并决定分区条件字段,普通表创建后,不能在修改为分区表。Note:通过其他方法也可转化为分区表。和其他数据库一样,分区表作为一个DB的特性,优点自不用说,物理分散,逻辑统一。必须要注意的一个缺点是:分区表不允许其他...

2020-05-13 20:22:56 2196

原创 PostgreSQL 全量 增量 归档 备份工具 pg_rman介绍与使用(二)

1.介绍 PostgreSQL已经支持类似的Oracle的rman的备份工具的功能,支持全量,增量,归档三种备份模式,支持压缩,支持备份集的管理等。 pg_rman使用的是pg_start_backup(),copy,pg_stop_backup()的备份模式,pg_rman跑的不是流复制协议,而是文件拷贝,所以pg_rman必须和数据库节点跑在一起。如果在待机节点跑pg_rman,pg_rman则需要通过网络连接到主节点执行pg_start_backup和pg_stop_backup.pg_...

2020-05-13 11:16:16 2194

原创 PostgreSQL rpm安装环境配置 详细(无网环境)

参考;https://www.cnblogs.com/yoyotl/p/7491288.html1.卸载PostgreSQL检查pg是否已经安装,如果安装了可以通过rpm -ev xxx进行删除rpm -qa | grep postgres检查pg安装位置,之后手动删除文件夹2.创建postgres用户组useradd postgrespasswd postgres设置初始密码为postgres3.下载rpm安装包(无网环境)下载网址:htt...

2020-05-13 10:13:46 4768

原创 PostgreSQL(三) 内存参数优化和原理(work_mem)内存表 pgfincore插件使用方法

1.常用内存参数1.1 shared_buffersshared_buffers是PostgreSQL用于共享缓冲区的内存,是由8kb大小的块所形成的数组。PostgreSQL在进行更新、查询等操作时,首先从磁盘把数据读取到内存,之后进行更新,最后将数据写回磁盘。shared_buffers可以暂时存放从磁盘读取的数据,能够让用户下次访问不需要去磁盘直接从里面读取出来,增加查询效率。shared_buffers的系统默认值通常为128MB。但是当PostgreSQL服务器的内存大于1G时,则shar

2020-05-13 10:02:43 7788 1

原创 PostgreSQL(二) 索引介绍 索引扫描方式(gin索引 pg_trgm模糊查询索引原理)

1.索引的意义1.1索引的优点创建索引能够加快对表的查询,排序,以及唯一约束的作用。索引能够提供给优化器更好的值分布统计信息。1.2索引的缺点创建索引会增加数据库的存储空间,在计算数据库的容量大小时需要计算表和索引的总空间大小。在创建完索引之后的表,执行插入、更新和删除操作时,索引需要更新,故耗时会成倍增加。2.索引管理2.1创建索引创建索引时,不能包括schema模式名,因为索引默认被创建在其基表所在的模式中,创...

2020-05-13 09:48:47 2839

原创 PostgreSQL 存储过程 常用语法(高级)PERFORM DIAGNOSTICS RETURN

来源网址:https://github.com/digoal/blog/blob/master/201704/20170412_02.md1.执行无结果调用语法PERFORM query;通常被用来判断是否有记录,如下:CREATE OR REPLACE FUNCTION public.test_perform()RETURNS void AS $BODY$DECLAREBEGINPERFORM 1 from public.pgbench_bran...

2020-05-12 20:27:51 10895 3

原创 Kafka 验证部署(单机版)kafka-producer-perf-test.sh 吞吐量测试工具的基本使用

1.测试topic创建与删除(1)创建一个测试topic,名为test-topic。创建3个分区,每个分区分配1个副本(因为是单机kafka,如果是集群的话可以分配多个副本),如果分配的副本数大于broker的数量时,会报错bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic test-topic --partitions 3 --replication-factor 1(2)查看topic是否创建成功.

2020-05-12 20:15:53 6296

原创 CDH 6.x版本 HBase基础调优参数

以下是CDH HBase的基础调优

2024-02-18 14:28:31 673

原创 HBase 提升写入性能的参数 亲测有用!

提升HBase的写入性能,主要为两个参数hbase.hstore.blockingStoreFiles和hbase.wal.provider

2024-02-18 14:21:17 387

原创 Hive MetaStore 启动配置

1.MetaStore介绍Hive可以启动一个叫做MetaStore的服务,该服务在Hive的客户端启动,用户通过客户端连接到MetaStore,然后和一个数据库(例如:Mysql)进行通信。该数据库是用于存储Hive的元数据信息。2.MetaStore配置需要修改hive-site.xml配置文件,配置端口 <property> <name>hive.metastore.port</name> <value>9083&...

2022-05-12 15:15:04 5328

原创 Hive MR和Tez 启用Local模式

1.说明 启动local模式,就是让hive的任务不运行在yarn上面。直接当前的服务器执行2.优点当我们对Hive的源码进行Debug,且代码需要Debug到每个task内部时,如果任务是执行在yarn模式的话,那么是无法打断点的,需要进入local模式才能打断点3.MR当引擎为MR时,需要修改以下参数,可以修改配置文件hive-site.xml,也可以通过set来生效3.1 hive-site.xml<property> <name>h...

2022-04-19 20:32:05 2486

原创 Spark 简单介绍 基本概念 和MapReduce的区别

1.概述Spark是一种快速而通用的集群计算的平台,Spark 的一个主要特点就是能够在内存中进行计算,因而更快。2.特点与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(...

2022-04-10 00:09:55 1001

原创 Spark RDD 弹性分布式数据集 简单理解

1.RDDRDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并且能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法,交互式数据挖掘来...

2022-04-10 00:08:07 444

原创 Python 数据挖掘(四) pandas模块 简单使用

1.pandas模块pandas是基于numpy模块构建的。pandas的主要功能:具备对其功能的数据结构DataFrame、Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据2.pandas数据结构Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果不规定索引,会自动创建 0 到 N-1 索引。DataFra...

2022-04-09 23:58:35 3376

原创 Python 数据挖掘(三) matplotlib模块 简单使用

1.matplotlib是一个作图模块,解决可视化问题2.折线图与散点图# 折线图/散点图 plot来绘制# 导入模块import matplotlib.pylab as pylimport numpy as npyx=[1,2,3,4,8]y=[5,7,8,11,15]# pyl.plot(x,y)#plot(x轴数据,y轴数据,展现形式)默认是折线图# show能够将绘制好的图展现出来# o代表的是散点图pyl.plot(x,y,'o')# 使用多个plot

2022-04-04 17:59:34 1708

原创 Python 数据挖掘(二) numpy模块 简单使用

1.numpy模块强大的多维(N-dimensional) 数组/矩阵对象 复杂的(广播) 函数 整合 C/C++ 和 Fortran 代码的工具 实用的线性代数、傅里叶变换、随机数2.numpy简单使用2.1 导入numpy模块# 导入模块import numpy2.2 创建一维数组#创建一维数组格式numpy.array([元素1,元素2,...,元素n])实例:x=numpy.array(["a","9","8","2"])print(x)输出结果

2022-04-04 17:33:02 1542

原创 Python 数据挖掘(一) 模块安装部署 numpy等

下载网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/下载网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy模块安装的顺序与方式建议如下:(出错概率比较小)同时安装1、numpy、mkl(下载安装) 包的名字numpy-1.12.0b+mkl-cp35-cp35m-win_amd64.whl2、pandas(网络安装)直接只用pip安装3、matplotlib(网络安装)4、scipy(下

2022-04-04 17:26:02 1951

转载 Spark Shuffle简介 Shuffle分区Id ShuffleWriter

2022-03-25 21:10:50 112

原创 Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验

Hive on Tez的引擎调优 基于Map数和Reduce数的调优

2022-03-25 21:06:21 8925

原创 Apache Hive 问题 Exception: Too many counters: 121 max=120

报错信息如下:INFO : Exception: Too many counters: 121 max=120at org.apache.tez.common.counters.Limits.checkCounters(Limits.java:86)at org.apache.tez.common.counters.Limits.incrCounters(Limits.java:93)at org.apache.tez.common.counters.AbstractCounterGroup..

2021-11-02 19:33:45 2360

原创 PostgreSQL cstore_fdw扩展安装 使用orc列式存储

1.简介 cstore_fdw实现了PostgreSQL的列式存储。列存储非常适合用于数据分析的场景,数据分析的场景下数据是批量加载的。fdw(ForeignDataWrappers)的含义是外部数据包装器。 这个扩展使用了Optimized Row Columnar(ORC)数据存储格式,ORC改进了Facebook的RCFile格式。优点: 压缩: 将内存和磁盘中数据大小削减到2到4倍。可以扩展以支持不同压缩算法。(官方自测性能也最多就提升了1倍,大多数在10%到50%之间) ..

2021-05-18 14:32:13 1619 2

原创 Greenplum 分布键 distribute hash分布和随机分布

Greenplum是分布式系统,创建表时需要指定分布键,目的是为了数据能够平均分布到各个段,所以选择分布键十分重要,选择错了会导致数据不一致。分布方式: Hash分布:按分布键对数据列进行hash取模存放到对应的segment。 随机分布:数据随机分布在数据库,每次查询都会查询所有的segment。 1.分布策略(1)hash分布 Greenplum默认使用hash分布策略。该策略可选一个或者多个列作为分布键(distribution key,简称DK)。分布键做...

2021-04-18 14:46:28 4011

原创 PostgreSQL 数据库运维问题 查看数据库进程 查看CPU占用过高的SQL

查看数据库的当前连接数和状态的几种方式:只是能看出数据库服务是否正在运行和启动路径#切换用户su postgrespg_ctl status1.查看数据库进程统计当前postgresql相关进程数,在大体上可以估算数据库的连接数,非精准,但是目前最常用的ps -ef |grep postgres |wc -l包含本窗口的所有数据库连接数SELECT count(*) FROM pg_stat_activity;2.数据库CPU占用过高...

2021-04-18 14:37:14 4656 1

原创 PostgreSQL 压测工具pgbench

1.命令pgbench --helppgbench is a benchmarking tool for PostgreSQL.Usage:pgbench [OPTION]... [DBNAME]Initialization options:-i, --initializeinvokes initialization mode 初始化模式-F, --fillfactor=NUMset fill factor-n, --no-vacuu...

2021-04-18 14:33:45 496

原创 PostgreSQL checkpoint(检查点)参数设置

1.简介 PostgreSQL是依靠预写日志(WAL)的数据库之一,所有的更改首先被写入一个日志(一个变化的流),然后再写入数据文件.这提高了数据的安全性,因为在崩溃的情况下,数据库会使用WAL执行恢复,从WAL读取更改并将其重新应用于数据文件.虽然这可能会使写入量增加一倍,但实际上可能会提高性能,用户只需要等待WAL(刷新到磁盘),而数据文件仅在内存中修改,然后在后台刷新. WAL写入本质上是顺序写入的,而对数据文件的写入往往是随机写入的. 非常频繁的检查点(比如几秒一次).只保留少量的...

2021-04-17 22:06:32 2701

原创 PostgreSQL 日志参数解释 常用环境日志参数配置

1.常用日志参数logging_collector = on/off是否将日志重定向至文件中,默认是off(该配置修改后,需要重启DB服务),启动之后查看进程ps -ef|grep postgres,会多一个logger进程。log_directory = 'pg_log'日志文件目录,默认是PGDATA的相对路径,即PGDATA的相对路径,即{PGDATA}/pg_log,也可以改为绝对路径,可以定义在其他目录或者分区,但是必须先创建此目录,并修改权限。log_filen...

2021-04-17 22:03:53 3890

原创 PostgreSQL 将csv格式的日志导入到自定义表中

将CSV日志导入数据库表里1.修改日志参数log_destination = 'csvlog'logging_collector = on这两个参数修改后,PG SERVER 需要重启。2.创建日志记录表CREATETABLEpostgres_log(log_timetimestamp(3)withtimezone,user_nametext,database_nametext,process_idinteger,...

2021-04-17 21:55:25 471

原创 PostgreSQL 建表create table like including 用法

使用索引约束:CREATE TABLE table_name (like t_key_event_file_student INCLUDING INDEXES);使用多种约束:CREATE TABLE table_name (like t_key_event_file_student INCLUDING INDEXES INCLUDING DEFAULTS);如果希望索引、主键约束和唯一约束被复制的话,那么需要指定INCLUDING INDEXES ...

2021-04-17 21:51:21 4209

原创 Linux 设置SSH免密登陆 两种方式

SSH免密的结果:主机1 通过SSH免密直接登录主机2(目标主机)1.生成ssh密钥在主机1操作:根据DSA算法在生成SSH密钥文件ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa):Enter passphrase (empty for no passphrase):Enter same p...

2021-04-09 11:27:19 632 1

vertica基础培训.pptx

vertica培训的ppt ,里面内容包含vertica的介绍,vertica的使用,以及vertica的扩展。可以作为培训的模板ppt

2020-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除