- 博客(28)
- 资源 (18)
- 收藏
- 关注
原创 深入MapReduce计算引擎
MapReduce整体处理过程MapReduce会经历作业输入(Input)、业务处理接口Map、Map到Reduce之间数据传输的环节Shuffle、业务处理接口Reduce和作业输出(Output)五大环节。MapReduce整体环节MapReduce整体环节的拆解MapReduce作业输入作业输入的核心是InputFormat类,用于MapReduce作业的输入规范,读取数据文件的规范。通过继承并实现InputFormat接口,可以读取任何想要读取的数据存储文件的格式。
2021-02-21 15:54:33 643
原创 Hive支持的计算引擎
目前Hive支持MapReduce、Tez和Spark 3种计算引擎。MapReduce计算引擎在Hive 2.0之后不推荐MR作为计算引擎。Map和Reduce的工作流程MR运行的完整过程:Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。当Reduce启动时,会启动一.
2021-02-21 15:53:10 715
原创 Hive支持的计算引擎
目前Hive支持MapReduce、Tez和Spark 3种计算引擎。MapReduce计算引擎在Hive 2.0之后不推荐MR作为计算引擎。Map和Reduce的工作流程MR运行的完整过程:Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。当Reduce启动时,会启动一.
2021-02-21 11:27:05 4593
原创 HDFS架构
HDFS架构Hadoop分布式文件系统(HDFS)是Hive存储数据的地方,简单了解HDFS的基本机制和读写工作机制,对于排查HiveSQL程序是否由于数据存储引发的性能问题有较大的帮助。常见HDFS优化常见的关于HDFS的优化角度有:·Hive作业生成的小文件,过多的小文件会加重NameNode的负担,导致集群整体性能下降。·设置合理的HDFS文件块的大小,可以减轻NameNode的负担,增加数据本地化操作的概率,提升程序性能。·适当增大NameNode的Java堆,调整JV.
2021-02-21 10:59:51 181
原创 Hive架构
Hive架构客户端提交SQL作业到HiveServer2,HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业,Hive会将所有的MapReduce作业都一一提交到YARN中,由YARN去负责创建MapReduce作业对应的子任务,并协调它们的运行。YARN创建的子任务会与HDFS进行交互,获取计算所需的数据,计算完成后将最终的结果写入HDFS或者本地。Hive自身主要包含如下3个部分:第一.
2021-02-21 10:58:02 1597
原创 YARN组件
YARN组件在生产环境中的大数据集群,所有作业或系统运行所需的资源,都不是直接向操作系统申请,而是交由资源管理器和调度框架代为申请。每个作业或系统所需的资源都是由资源管理和调度框架统一分配、协调。在业界中扮演这一角色的组件有YARN、Mesos等。YARN的优点(1)提高系统的资源利用率。(2)协调不同作业/不同系统的资源,减少不同作业和不同系统之间的资源争抢。(3)增强系统扩展性。资源管理和调度框架,允许硬件资源的动态伸缩,而不会影响作业的运行。(4)资源调度与管理工具把控着资源的
2021-02-21 10:54:53 358
原创 Hive架构
hive架构客户端提交SQL作业到HiveServer2,HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业,Hive会将所有的MapReduce作业都一一提交到YARN中,由YARN去负责创建MapReduce作业对应的子任务,并协调它们的运行。YARN创建的子任务会与HDFS进行交互,获取计算所需的数据,计算完成后将最终的结果写入HDFS或者本地。Hive自身主要包含如下3个部分:第一.
2021-02-21 10:53:10 97
原创 pg客户端工具使用
创建测试信息:--创建用户postgres=#create role pguser with encrypted password 'pguser';CREATE ROLE--创建表空间目录[postgres@pghostl~]$mkdir -p /home/postgres/pg_tbs/tbs_mydb--创建表空间postgres=#create tablespace tbs_mydb owner pguser location '/home/postgres/pg_...
2021-01-31 22:23:58 679
原创 pg配置基础
pg目录结构[postgres@base ~]$ tree -L 1 /soft/opt/pg12/soft/opt/pg12├── bin├── include├── lib└── shareshare 目录存放着 PostgreSQL 文档、 man 、示 件以及一些扩展, include 目录是PostgreSQL ++的 头文文件bin目录就 PostgreSQL 的应用程序PostgreSQL本身是一 构的程序 ,这些应用程序可以分为两类 :客户端程序和服务器...
2021-01-30 22:25:15 832 1
原创 postgresql体系结构
架构基础:PostgreSQL使用一种客户端/服务器的模型。一次PostgreSQL会话由下列相关的进程(程序)组成: 一个服务器进程,它管理数据库文件、接受来自客户端应用与数据库的联接并且代表客户端在数据库上执行操作。 该数据库服务器程序叫做postgres。 那些需要执行数据库操作的用户的客户端(前端)应用。 客户端应用可能本身就是多种多样的:可以是一个面向文本的工具, 也可以是一个图形界面的应用,或者是一个通过访问数据库来显示网页的网页服务器,或者是一个特制的数据库管理工具。 一些
2021-01-26 22:17:10 122
转载 psql: could not connect to server: No such file or directory&&PGHOST
由于环境变量 PGHOST配置不当引起的postgres@pgdb-> psqlpsql: could not connect to server: No such file or directoryIs the server running locally and acceptingconnections on Unix domain socket "/tmp/.s.PGSQL.1921"?若环境变量PGHOST未配置,且psql不加-h命令的时候,则默认使用的是数据库参数unix_s
2021-01-26 15:37:05 1086
原创 源码编译安装PostgreSQL(pg12)
系统环境: Centos 7.7 PostgreSQL12.21. 安装依赖包# yum -y install readline readline-devel zlib zlib-devel pam pam-devel libxml2 libxml2-devel libxslt libxslt-devel perl perl-devel tcl-devel uuid-devel gcc gcc-c++ make flex bison perl-ExtUtils*#yum...
2021-01-26 15:34:17 469 1
转载 Oracle 用户、角色、权限相关
权限管理是 Oracle 系统的精华,不同用户登录到同一数据库中,可能看到不同数量的表,拥有不同的权限。Oracle 的权限分为系统权限和数据对象权限,共一百多种,如果单独对用户授权,很囧,有一些用户需要的权限是相同的,就把这些用户归为同一类——某种角色,通过设立一些有预定权限的角色简化和明确授权操作,角色出现的动机也就是为了简化权限管理,它是权限的集合。一般做法是:系统把权限赋给角色,然后把角色赋给用户,当然也可以直接把某权限赋给用户。Oracle 提供细粒度的权限,可以对表的某一列单独设置权限,可以对某
2021-01-26 11:29:24 224 1
转载 PostgreSQL中几个对象概念及其关系
DB实例与schema: 模式是数据库实例的逻辑分割。数据库是被模式(schema)来切分的,一个数据库至少有一个模式,所有数据库内部的对象(object)是被创建于模式的。用户登录到系统,连接到一个数据库后,是通过该数据库的search_path来寻找schema的搜索顺序:可以通过命令SHOW search_path;来查看具体搜索顺序(默认如下):postgres=#showsearch_path;search_path----------------"$user",pu...
2021-01-26 11:23:35 657
转载 了解Oracle体系结构
学习oracle的目的:一致性性能一致性的要求优先于性能处理模型C/S模型客户端:用户和用户进程服务器端:服务器进程、实例和数据库本身概念:实例/instance: 后台进程+共享内存 用于管理和控制数据库数据库/database: 物理文件的集合 为实例提供数据,如数据文件,控制文件,参数文件,日志文件等数据库服务器/database server: 软件+实例+数据库oracle数据库环境有以下两部分:oracle软件,存放在服务器本地硬盘上oracle数据库,存放在共
2021-01-26 11:20:09 201
转载 Oracle数据库中用户与模式的区别与联系
用户与模式 用户(user):Oracle用户是用连接数据库和访问数据库对象的。(用户是用来连接数据库访问数据库)。 模式(schema):模式是数据库对象的集合。模式对象是数据库数据的逻辑结构。(把数据库对象用模式分开成不同的逻辑结构)。 用户(user)与模式(schema)的区别:用户是用来连接数据库对象。而模式用是用创建管理对象的。(模式跟用户在oracle 是一对一的关系。) 详解 从官方的定义中,我们可以看出schema为数据库对象的集合。为了区分各个集合,我
2021-01-26 10:50:59 1106
原创 关于Greenplum的架构
Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。 Greenplum使用这种高性能系统架构来分布数T字节数据仓库的负载并且能够使用系统的所有资源并行处理一个查询。Greenplum数据库是基于PostgreSQL开源技术的。它本质上是多个PostgreSQL面向磁盘..
2021-01-25 19:08:05 100
原创 gp工具命令之psql
选项:-a | --echo-all读取时将所有非空输入行打印到标准输出。 (这不适用于以交互方式读取的行。) 这等效于将变量ECHO设置为all。-A | --no-align切换到不对齐输出模式。 (默认输出模式已对齐。)-c ‘command’ | --command=‘command’指定psql将执行指定的命令字符串,然后退出。 这在shell脚本中很有用。 command必须是服务器可以完全解析的命令字符串,也可以是单个反斜杠命令。不能将SQL和psql元命令与此选项混合使用。 为此
2021-01-24 22:04:33 781
原创 gp工具命令之gpstate
gpstate显示正在运行的Greenplum数据库系统的状态。gpstate工具显示有关正在运行的Greenplum数据库实例的信息。 由于Greenplum数据库系统由跨多台机器的多个PostgreSQL数据库实例(Segment)组成, 因此用户可能需要了解关于Greenplum数据库系统的额外信息。gpstate 工具为Greenplum数据库系统提供了额外的状态信息,例如:哪台Segment主机已被关闭?Master和Segment配置信息(主机、数据目录等)。系统使用的端口。主S
2021-01-24 21:27:12 1475
原创 gp工具命令之gpstop
gpstop停止或者重启Greenplum数据库系统。gpstop工具用于停止构成Greenplum数据库系统的数据库服务器。当用户停止一个 Greenplum数据库系统时,用户实际上是一次停止几个postgres数据库服务器进程 (Master和所有的Segment实例)。gpstop工具处理个别实例的关闭。每个实例 被并行地关闭。默认情况下,如果有任何客户端连接到数据库,则不允许关闭Greenplum数据库。使用-M fast 选项来回滚所有正在进行的事务,并在关闭之前终止所有连接。如果有任何事
2021-01-24 21:15:44 2022
原创 gp工具命令之gpstart
gpstart启动一个Greenplum数据库系统。gpstart工具用于启动Greenplum数据库服务器进程。当用户启动一个Greenplum 数据库系统时,用户实际上是同时启动了几个postgres数据库服务器监听器进程 (Master和所有的Segment实例)。gpstart工具处理各个实例的启动。每个实例 都是并行启动的。管理员第一次运行gpstart时,该工具将在用户的主目录中创建一个名为 .gphostcache的主缓存文件。随后,该工具使用此主机列表更有效地启动系统。 如果将新主机
2021-01-24 21:04:58 1642
原创 gp工具命令之gpinitsystem
gpinitsystem使用gpinitsystem_config文件中指定的配置参数初始化一个Greenplum数据库系统。gpinitsystem -c cluster_configuration_file #配置文件的完整路径和文件名称,用于配置和初始化新的 Greenplum数据库系统.示例初始化配置文件可以在 $GPHOME/docs/cli_help/gpconfigs/gpinitsystem_config中找到。 [-h hostfile_gpinitsyst
2021-01-24 20:30:33 1321
原创 JAVA SE笔记
1.注释单行注释//这是单行注释多行注释/* 这是多行注释 */文档注释/** 这是文档注释 */2.标识符标识符注意点所有的标识符都应该以字母,$或_开始首字符之后可以是字母,$,_或数字的任意组合标识符是大小写敏感的不能使用关键字作为变量名或方法名可以使用中文命名,但不建议这么做3.数据类型强类型语言要求变量的使用要严格符合规定,所有变量都必须先定义后才能使用弱类型语言基本类型数值类型整数类型byte 占1个字节short 占2个字节int
2021-01-24 19:45:49 52
原创 Greenplum安装要点
安装总结:1、执行gpssh-exkeys -f /home/gpadmin/conf/hostlist 进行免密钥配置时,若出现报错,先自行配置master到segment节点的免密钥配置,然后再执行签名的命令2、初始化数据库时,若要支持mirror,需在初始化配置文件中配置mirror目录的同时,放开MIRROR_PORT_BASE=7000的配置。3、若停库出现segment的postgres进程未停完的情况,可以手工kill掉,同时要删除/tmp目录下的锁文件。集群搭建核心点:1、ssh
2021-01-24 19:29:02 95
原创 DOS命令大全
net use ipipc$ " " /user:" " 建立IPC空链接net use ipipc$ "密码" /user:"用户名" 建立IPC非空链接net use h: ipc$ "密码" /user:"用户名" 直接登陆后映射对方C:到本地为H:net use h: ipc$ 登陆后映射对方C:到本地为H:net use ipipc$ /del 删除IPC链接net use h: /del 删除映射对方到本地的为H:的映射net user 用户名 密码 /add 建立用户net us
2021-01-09 21:28:07 157
原创 windows快捷键
windows快捷键常用的快捷键 复制快捷键:Ctrl+C 粘贴快捷键:Ctrl+V 剪切快捷键:Ctrl+X 删除快捷键:Ctrl+D 撤销快捷键:Ctrl+Z 恢复快捷键:Ctrl+Y 【Win键】+【L】=锁屏 【Win键】+【E】=我的电脑 【Win键】+【D】=桌面 【Win键】+【Tab】=3D效果窗口 【Win键】+【R】------输入【psr.exe】-------【回车】.
2021-01-09 21:16:12 71
原创 Markdown学习
Markdown学习这是二级标题这是三级标题字体Hello,world 加粗 Hello,world 斜体 Hello,world 斜体加粗 Hello,world 这是删除线引用"世上本没有路,走的人多了,也便有了路". 鲁迅如此说过.分割线图片超链接点击跳转链接列表有序列表1.a 2.b 3.c 4.d 5.e 第一项: 第一项嵌套的第一个元素 第一项嵌套的第二个元素 ...
2021-01-09 20:41:28 56
转载 Win7如何开启Telnet服务?
在远程服务器管理或者网络管理中经常需要用到Telnet服务,在Windows XP系统中该服务是自动开启的,然后在Win7系统中Telnet服务默认是关闭的,因此才会出现不少朋友询问Win7如何开启Telnet服务的问题,下面本文电脑百事网编辑与大家分享下win7开启telnet服务方法。首先介绍下什么是telnet服务:Telnet协议是TCP/IP协议族中的一员,是Internet远程
2013-01-05 16:01:57 352
linux下greenplum(gp)数据库集群安装
2016-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人