abcdggggggg-CSDN博客

原创 Hive Aapche 设置为事务表（ACID）This command is not allowed on an ACID table xxx with a non-ACID transaction

Apache Hive中默认的创建的表为非事务表，如果需要将表设置为事务表需要修改以下参数：<property> <name>hive.support.concurrency</name> <value>true</value></property><property> <name>hive.txn.manager</name> <value>...

2021-10-30 10:18:32 2440 3

原创 Hive 基于常用参数的调优（Tez和MR引擎）

1.说明Hive的常用计算引擎有MR、Tez和Spark，本篇博客主要是基于MR和Tez的参数调优，由于Hive的任务是在Yarn上提交的，所以Yarn作为一个资源调度器，可用的资源也需要进行配置。2.Yarn参数个性化配置配置文件名：yarn-site.xml参数名推荐值参数说明 yarn.nodemanager.resource.cpu-vcores 当前数据节点的可用最大CPU核数*80% Container可以使用的的CPU数 yarn...

2021-10-30 10:09:52 3022

原创 Hive 基于MapReduce引擎 map和reduce数的参数控制原理与调优经验

1.概述主要对基于MR的map数和reduce数测试与调优2.数据准备（1）表信息本次测试的表和sql都是使用的TPC-DS，表文件存储格式为text 表名是否压缩总数占用空间文件数 date_dim 否 73049 9.8 M 1 item ...

2020-11-26 11:56:29 2106

原创 Hadoop hdfs dfs命令最常见经常使用的命令入门推荐

1.常用命令下列的hdfs命令，都是在实际工作中经常会用到的，如果要看全部的命令可以直接使用hdfs dfs，会显示所有的命令。使用hdfs dfs -help能够查看每个命令的使用方法（1）help hdfs命令帮助hdfs dfs -help（2）ls 查看hdfs目录下内容命令格式：hdfs dfs -ls [文件目录]hdfs dfs -ls /结果：drwxr-xr-x - hdfs hdfs 0 2020-11-04 11:36 /HiBenc...

2020-11-23 10:02:15 9327

原创 Linux命令 ifconfig ethtool ip iperf3 网络查看常用命令查看是否丢包网络带宽测试工具

1.ifconfig 使用ifconfig命令，ifconfig是最常用的配置和查看网络接口信息的命令，服务器上执行此命令会得到类下文的内容，一下内容可看到多个设备和设备状态、信息。# 不包括down状态的网卡ifconfig#查看所有网卡的信息(包括down状态的网卡)ifconfig -a# 查看指定网卡的信息 enp4s0是网卡名字可以通过ethtool命令查看ifconfig enp4s02.ethtool使用ethtool命令来查看配置...

2020-10-25 14:09:58 5001

原创 Hive 数据存储格式 orc格式

修改查看当前默认文件存储格式set hive.default.fileformat;set hive.default.fileformat=Orc;1.数据存储格式（1）textText是最简单最常见的存储格式，它是纯文本记录，也是Hive的默认格式。# 存储方式行存储# 特点空间利用率低有序列化和反序列话的开销建表语句：create table inventory( inv_date_sk int, inv_item_sk ...

2020-10-21 10:54:28 8332

原创 IDEA maven mvn install无法引用手动导入的jar包的解决方式图文详细

解决方法：手动在pom中添加依赖使用mvn install 本次测试Jar以vertica-jdbc-8.1.1-0.jar驱动包为例子1.手动添加依赖在项目中建一个lib的目录，将外部jar包拷贝至lib的文件夹，然后在pom文件中加入此jar包的依赖内容如下：<systemPath>${project.basedir}/lib/rest-1.1.2.jar</systemPath>例子：<dependen..

2020-09-24 00:57:43 4419

原创 Linux命令 lscpu 查看cpu核数 cpu实时频率

1.核数和逻辑CPU计算公式核数 = 物理CPU个数 * 每颗物理CPU的核数逻辑CPU数 = 物理CPU个数 * 每颗物理CPU的核数 * 超线程数2.查看核数命令（1）查看物理CPU个数grep "physical id"/proc/cpuinfo | sort | uniq| wc -l2（2）查看每个物理CPU中core的个数(即核数)grep "cpu cores" /proc/cpuinfo | uniqcpu cores...

2020-07-09 16:29:39 22435

原创 Vertica 基本架构介绍常用参数常用SQL语句（非常有用~~）（一）

1.Vertica架构Vertica是一款基于列存储的MPP（大规模并行处理）架构的数据库，它可以支持存放PB级别的结构化数据。（1）MPP架构该结构由多个完全独立的处理节点构成，每个处理节点具有自己独立的处理器、独立的内存（主存储器）和独立的磁盘存储，多个处理节点在处理器由高速通信网络连接，系统中的各个处理器使用自己的内存独立地处理自己的数据。在这种结构中，每一个处理节点就是一个小型的数据库系统，多个节点一起构成整个的分布式的并行数据库系统。由于每个处理器使用自己的资源处理...

2020-07-02 20:34:33 3025

原创 Greenplum 主备节点(master和standby)手动切换步骤详细

1.准备本次针对GP6.x版本之前主备节点：master:node01standbymaster:node02查看集群备用节点状态：gpstate -f20190104:14:34:34:261113 gpstate:node01:gpadmin-[INFO]:-Starting gpstate with args: -f20190104:14:34:34:261113 gpstate:node01:gpadmin-[INFO]:-local Greenplum Ve.

2020-05-19 19:38:10 3305 2

原创 PostgreSQL pg_trgm扩展安装模糊查询使用原理

1.pg_trgm安装（1）安装btree_gin和pg_trgm# 需要先进入pg源码包中su - postgrescd contrib/pg_trgm/make && make install安装pg_trgm扩展时需要安装btree_gin才可以使用cd contrib/btree_gin/make && make install（2）创建扩展安装的扩展默认都是在pg_catalog这个schema下面。也...

2020-05-15 20:00:31 6261

原创 PostgreSQL 10.x版本分区表优缺点详细解释分析 partition语法分区表的使用

参考：http://www.postgres.cn/news/viewone/1/271分区字段选择：如果分区的目的只是为了切分数据，那么通常分区的字段需要选择与实际入库时间更接近的那个字段，因为更好管理一些1.分区表的说明操作性相当便捷。但只能在创建时决定是否为分区表，并决定分区条件字段，普通表创建后，不能在修改为分区表。Note：通过其他方法也可转化为分区表。和其他数据库一样，分区表作为一个DB的特性，优点自不用说，物理分散，逻辑统一。必须要注意的一个缺点是：分区表不允许其他...

2020-05-13 20:22:56 2196

原创 PostgreSQL 全量增量归档备份工具 pg_rman介绍与使用（二）

1.介绍 PostgreSQL已经支持类似的Oracle的rman的备份工具的功能，支持全量，增量，归档三种备份模式，支持压缩，支持备份集的管理等。 pg_rman使用的是pg_start_backup（），copy，pg_stop_backup（）的备份模式，pg_rman跑的不是流复制协议，而是文件拷贝，所以pg_rman必须和数据库节点跑在一起。如果在待机节点跑pg_rman，pg_rman则需要通过网络连接到主节点执行pg_start_backup和pg_stop_backup.pg_...

2020-05-13 11:16:16 2194

原创 PostgreSQL rpm安装环境配置详细（无网环境）

参考;https://www.cnblogs.com/yoyotl/p/7491288.html1.卸载PostgreSQL检查pg是否已经安装，如果安装了可以通过rpm -ev xxx进行删除rpm -qa | grep postgres检查pg安装位置，之后手动删除文件夹2.创建postgres用户组useradd postgrespasswd postgres设置初始密码为postgres3.下载rpm安装包（无网环境）下载网址：htt...

2020-05-13 10:13:46 4768

原创 PostgreSQL（三）内存参数优化和原理（work_mem）内存表 pgfincore插件使用方法

1.常用内存参数1.1 shared_buffersshared_buffers是PostgreSQL用于共享缓冲区的内存，是由8kb大小的块所形成的数组。PostgreSQL在进行更新、查询等操作时，首先从磁盘把数据读取到内存，之后进行更新，最后将数据写回磁盘。shared_buffers可以暂时存放从磁盘读取的数据，能够让用户下次访问不需要去磁盘直接从里面读取出来，增加查询效率。shared_buffers的系统默认值通常为128MB。但是当PostgreSQL服务器的内存大于1G时，则shar

2020-05-13 10:02:43 7788 1

原创 PostgreSQL（二）索引介绍索引扫描方式（gin索引 pg_trgm模糊查询索引原理）

1.索引的意义1.1索引的优点创建索引能够加快对表的查询，排序，以及唯一约束的作用。索引能够提供给优化器更好的值分布统计信息。1.2索引的缺点创建索引会增加数据库的存储空间，在计算数据库的容量大小时需要计算表和索引的总空间大小。在创建完索引之后的表，执行插入、更新和删除操作时，索引需要更新，故耗时会成倍增加。2.索引管理2.1创建索引创建索引时，不能包括schema模式名，因为索引默认被创建在其基表所在的模式中，创...

2020-05-13 09:48:47 2839

原创 PostgreSQL 存储过程常用语法（高级）PERFORM DIAGNOSTICS RETURN

来源网址：https://github.com/digoal/blog/blob/master/201704/20170412_02.md1.执行无结果调用语法PERFORM query;通常被用来判断是否有记录，如下：CREATE OR REPLACE FUNCTION public.test_perform()RETURNS void AS $BODY$DECLAREBEGINPERFORM 1 from public.pgbench_bran...

2020-05-12 20:27:51 10895 3

原创 Kafka 验证部署（单机版）kafka-producer-perf-test.sh 吞吐量测试工具的基本使用

1.测试topic创建与删除（1）创建一个测试topic，名为test-topic。创建3个分区，每个分区分配1个副本（因为是单机kafka,如果是集群的话可以分配多个副本），如果分配的副本数大于broker的数量时，会报错bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic test-topic --partitions 3 --replication-factor 1（2）查看topic是否创建成功.

2020-05-12 20:15:53 6296

原创 CDH 6.x版本 HBase基础调优参数

以下是CDH HBase的基础调优

2024-02-18 14:28:31 673

原创 HBase 提升写入性能的参数亲测有用！

提升HBase的写入性能，主要为两个参数hbase.hstore.blockingStoreFiles和hbase.wal.provider

2024-02-18 14:21:17 387

原创 Hive MetaStore 启动配置

1.MetaStore介绍Hive可以启动一个叫做MetaStore的服务，该服务在Hive的客户端启动，用户通过客户端连接到MetaStore，然后和一个数据库（例如：Mysql）进行通信。该数据库是用于存储Hive的元数据信息。2.MetaStore配置需要修改hive-site.xml配置文件，配置端口 <property> <name>hive.metastore.port</name> <value>9083&...

2022-05-12 15:15:04 5328

原创 Hive MR和Tez 启用Local模式

1.说明启动local模式,就是让hive的任务不运行在yarn上面。直接当前的服务器执行2.优点当我们对Hive的源码进行Debug，且代码需要Debug到每个task内部时，如果任务是执行在yarn模式的话，那么是无法打断点的，需要进入local模式才能打断点3.MR当引擎为MR时，需要修改以下参数，可以修改配置文件hive-site.xml，也可以通过set来生效3.1 hive-site.xml<property> <name>h...

2022-04-19 20:32:05 2486

原创 Spark 简单介绍基本概念和MapReduce的区别

1.概述Spark是一种快速而通用的集群计算的平台，Spark 的一个主要特点就是能够在内存中进行计算，因而更快。2.特点与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（...

2022-04-10 00:09:55 1001

原创 Spark RDD 弹性分布式数据集简单理解

1.RDDRDD是Spark的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并且能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法，交互式数据挖掘来...

2022-04-10 00:08:07 444

原创 Python 数据挖掘（四） pandas模块简单使用

1.pandas模块pandas是基于numpy模块构建的。pandas的主要功能：具备对其功能的数据结构DataFrame、Series 集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据2.pandas数据结构Series是一种类似于以为NumPy数组的对象，它由一组数据（各种NumPy数据类型）和与之相关的一组数据标签（即索引）组成的。可以用index和values分别规定索引和值。如果不规定索引，会自动创建 0 到 N-1 索引。DataFra...

2022-04-09 23:58:35 3376

原创 Python 数据挖掘（三） matplotlib模块简单使用

1.matplotlib是一个作图模块，解决可视化问题2.折线图与散点图# 折线图/散点图 plot来绘制# 导入模块import matplotlib.pylab as pylimport numpy as npyx=[1,2,3,4,8]y=[5,7,8,11,15]# pyl.plot(x,y)#plot(x轴数据，y轴数据，展现形式)默认是折线图# show能够将绘制好的图展现出来# o代表的是散点图pyl.plot(x,y,'o')# 使用多个plot

2022-04-04 17:59:34 1708

原创 Python 数据挖掘（二） numpy模块简单使用

1.numpy模块强大的多维（N-dimensional）数组/矩阵对象复杂的(广播) 函数整合 C/C++ 和 Fortran 代码的工具实用的线性代数、傅里叶变换、随机数2.numpy简单使用2.1 导入numpy模块# 导入模块import numpy2.2 创建一维数组#创建一维数组格式numpy.array([元素1，元素2，...,元素n])实例：x=numpy.array(["a","9","8","2"])print(x)输出结果

2022-04-04 17:33:02 1542

原创 Python 数据挖掘（一）模块安装部署 numpy等

下载网址：https://www.lfd.uci.edu/~gohlke/pythonlibs/下载网址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy模块安装的顺序与方式建议如下：（出错概率比较小）同时安装1、numpy、mkl（下载安装）包的名字numpy-1.12.0b+mkl-cp35-cp35m-win_amd64.whl2、pandas（网络安装）直接只用pip安装3、matplotlib（网络安装）4、scipy（下

2022-04-04 17:26:02 1951

转载 Spark Shuffle简介 Shuffle分区Id ShuffleWriter

2022-03-25 21:10:50 112

原创 Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验

Hive on Tez的引擎调优基于Map数和Reduce数的调优

2022-03-25 21:06:21 8925

原创 Apache Hive 问题 Exception: Too many counters: 121 max=120

报错信息如下：INFO : Exception: Too many counters: 121 max=120at org.apache.tez.common.counters.Limits.checkCounters(Limits.java:86)at org.apache.tez.common.counters.Limits.incrCounters(Limits.java:93)at org.apache.tez.common.counters.AbstractCounterGroup..

2021-11-02 19:33:45 2360

原创 PostgreSQL cstore_fdw扩展安装使用orc列式存储

1.简介 cstore_fdw实现了PostgreSQL的列式存储。列存储非常适合用于数据分析的场景，数据分析的场景下数据是批量加载的。fdw（ForeignDataWrappers）的含义是外部数据包装器。这个扩展使用了Optimized Row Columnar(ORC)数据存储格式，ORC改进了Facebook的RCFile格式。优点：压缩: 将内存和磁盘中数据大小削减到2到4倍。可以扩展以支持不同压缩算法。（官方自测性能也最多就提升了1倍，大多数在10%到50%之间） ..

2021-05-18 14:32:13 1619 2

原创 Greenplum 分布键 distribute hash分布和随机分布

Greenplum是分布式系统，创建表时需要指定分布键，目的是为了数据能够平均分布到各个段，所以选择分布键十分重要，选择错了会导致数据不一致。分布方式： Hash分布：按分布键对数据列进行hash取模存放到对应的segment。随机分布：数据随机分布在数据库，每次查询都会查询所有的segment。 1.分布策略（1）hash分布 Greenplum默认使用hash分布策略。该策略可选一个或者多个列作为分布键（distribution key，简称DK）。分布键做...

2021-04-18 14:46:28 4011

原创 PostgreSQL 数据库运维问题查看数据库进程查看CPU占用过高的SQL

查看数据库的当前连接数和状态的几种方式：只是能看出数据库服务是否正在运行和启动路径#切换用户su postgrespg_ctl status1.查看数据库进程统计当前postgresql相关进程数，在大体上可以估算数据库的连接数，非精准，但是目前最常用的ps -ef |grep postgres |wc -l包含本窗口的所有数据库连接数SELECT count(*) FROM pg_stat_activity;2.数据库CPU占用过高...

2021-04-18 14:37:14 4656 1

原创 PostgreSQL 压测工具pgbench

1.命令pgbench --helppgbench is a benchmarking tool for PostgreSQL.Usage:pgbench [OPTION]... [DBNAME]Initialization options:-i, --initializeinvokes initialization mode 初始化模式-F, --fillfactor=NUMset fill factor-n, --no-vacuu...

2021-04-18 14:33:45 496

原创 PostgreSQL checkpoint（检查点）参数设置

1.简介 PostgreSQL是依靠预写日志（WAL）的数据库之一,所有的更改首先被写入一个日志（一个变化的流）,然后再写入数据文件.这提高了数据的安全性,因为在崩溃的情况下,数据库会使用WAL执行恢复,从WAL读取更改并将其重新应用于数据文件.虽然这可能会使写入量增加一倍，但实际上可能会提高性能,用户只需要等待WAL（刷新到磁盘）,而数据文件仅在内存中修改,然后在后台刷新. WAL写入本质上是顺序写入的，而对数据文件的写入往往是随机写入的. 非常频繁的检查点（比如几秒一次）.只保留少量的...

2021-04-17 22:06:32 2701

原创 PostgreSQL 日志参数解释常用环境日志参数配置

1.常用日志参数logging_collector = on/off是否将日志重定向至文件中，默认是off（该配置修改后，需要重启DB服务），启动之后查看进程ps -ef|grep postgres，会多一个logger进程。log_directory = 'pg_log'日志文件目录，默认是PGDATA的相对路径，即PGDATA的相对路径，即{PGDATA}/pg_log，也可以改为绝对路径，可以定义在其他目录或者分区，但是必须先创建此目录，并修改权限。log_filen...

2021-04-17 22:03:53 3890

原创 PostgreSQL 将csv格式的日志导入到自定义表中

将CSV日志导入数据库表里1.修改日志参数log_destination = 'csvlog'logging_collector = on这两个参数修改后，PG SERVER 需要重启。2.创建日志记录表CREATETABLEpostgres_log(log_timetimestamp(3)withtimezone,user_nametext,database_nametext,process_idinteger,...

2021-04-17 21:55:25 471

原创 PostgreSQL 建表create table like including 用法

使用索引约束：CREATE TABLE table_name (like t_key_event_file_student INCLUDING INDEXES);使用多种约束：CREATE TABLE table_name (like t_key_event_file_student INCLUDING INDEXES INCLUDING DEFAULTS);如果希望索引、主键约束和唯一约束被复制的话，那么需要指定INCLUDING INDEXES ...

2021-04-17 21:51:21 4209

原创 Linux 设置SSH免密登陆两种方式

SSH免密的结果：主机1 通过SSH免密直接登录主机2（目标主机）1.生成ssh密钥在主机1操作：根据DSA算法在生成SSH密钥文件ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa):Enter passphrase (empty for no passphrase):Enter same p...

2021-04-09 11:27:19 632 1

vertica基础培训.pptx

空空如也