- 博客(185)
- 收藏
- 关注
转载 Sqoop详解
数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。Sqoop工具接收到客户端的shell命令或者Java api命令后,通过Sqoop中的任务翻译器(Task Translator)将命令转换为对应的MapReduce任务,而后将关系型数据库和Hadoop中的数据进行相互转移,进而完成数据的拷贝。对于不同的命令,有不同的参数,这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码,本文目前介绍常用的导入、导出的一些命令。
2023-11-08 10:32:58 197 1
原创 livy部署及应用
Livy把spark交互式和批处理都搬到了web上,提供restful接口,Livy一方面接收并解析客户端提交的REST请求,转换成相应的操作,另一方面它管理着客户端所启动的spark集群Livy会为用户运行多个session,每个session就是一个常驻的spark context也可以成为一个spark集群。用户通过restful接口在对应的spark context执行代码,Livy服务端通过RPC协议与Spark集群进行通信。
2023-05-09 20:16:50 822 1
转载 [Hive]表生成函数(UDTF)使用指南
UDTF是User-Defined Table-Generating Functions 的缩写,即用户定义的表生成函数。UDTF 用于从原始表中的一行生成多行数据。典型的 UDTF有EXPLODE、posexplode等函数,它能将array或者map展开。表生成函数和聚合函数是相反的,表生成函数可以把单列扩展到多列。表生成函数:可以理解为一个函数可以生成一个表。
2023-04-23 11:42:44 849
原创 sqoop同步数据
(1) 把lzo的jar包复制到sqoop_home的lib下: sqoop-1.4.7.bin__hadoop-2.6.0]$ cp hadoop-lzo-0.4.20.jar lib/sqoop需要hadoop2.x环境,所以在配置环境里加相应的配置(感觉配置HADOOP_COMMON_HOME和HADOOP_MAPRED_HOME不太有效)3) mysql数据导入到hdfs。这两个参数需要进一步验证有效性。1) 查看数据库列表。...
2022-08-29 21:51:51 792
翻译 hadoop3.x支持LZO压缩配置
hadoop3本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需要依赖hadoop和lzo进行编译,编译步骤如下
2022-08-08 10:33:12 608
转载 Spark—结构化流Structured Streaming编程指南-Streaming Query
定义了最终结果DataFrame/Dataset之后,剩下的就是开始流计算了,为此,必须使用Dataset.writeStream()方法返回的DataStreamWriter。而且必须在这个接口中指定一个或多个以下内容:1.输出接收器的详细信息:数据格式、位置等。2.输出模式:指定写入输出接收器的内容。3.查询名称:可选,为标识指定查询的唯一名称。4.触发间隔:可选,指定触发间隔。如果没有指定,系统将在之前的处理完成后立即检查新数据的可用性。如果由于之前的处理没有完成而错过了触发时间,那么
2022-05-09 10:52:18 865
转载 Spark SQL 的 Catalyst介绍
一、SQL解析细节(通用)Parse:SQL语句解析生成ASTBind:元数据绑定Optimize:优化执行策略Execute:执行二、Catalyst概念SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于规则优化是一种经验式、启发式的优化思路,更多地依靠前辈总结出来的优化规则,简单易行且能够覆盖到大部分优化逻辑,但是对于核心优化算子Join却显得有点力不从心一个简单的例子,两个表执行Join到底应该使用BroadcastHashJoin还
2022-04-06 16:06:44 341
转载 clickhouse之chproxy代理
在clickhouse集群中,每一台机器都是单独的实例,我们可以使用其中的一台作为查询机器。此时如何更好的完成负载均衡是我们所关注的,chproxy即是这么一个工具。Chproxy, is an http proxy and load balancer for ClickHouse database.如何使用chproxy第一步: 下载chproxy,可以直接在下方引文中下载,也可以通过命令下载:$ mkdir -p /data/chproxy$ cd /data/chproxy$
2022-01-25 21:02:40 3204
转载 clickhouse分区操作实践
clickhouse分区操作实践_m0_37813354的博客-CSDN博客_clickhouse 分区1 分区表ClickHouse支持PARTITION BY子句,在建表时可以指定按照任意合法表达式进行数据分区操作,比如通过toYYYYMM()将数据按月进行分区、toMonday()将数据按照周几进行分区、对Enum类型的列直接每种取值作为一个分区等。数据Partition在ClickHouse中主要有两方面应用:在partition key上进行分区裁剪,只查询必要的数据。灵活的par
2021-10-13 15:43:35 629
转载 【转】最佳实践|Apache Doris Join 实现与调优实践
【转】https://mp.weixin.qq.com/s/YNGdTbnG6iBjT1qtsK912wDoris 简介首先简单介绍一下 Doris 。Doris 是百度自主研发并开源的一个基于 MPP (大规模并行处理) 架构的分析型数据库,它的特点就是性能卓越,能够做到 PB 级别的数据分析的毫秒/秒级的响应,适用于高并发低延时下的实时报表、多维分析等需求场景。Doris 最早是叫 Palo ,2017 年我们以百度 Palo 的方式在 GitHub 上进行了开源,在 2018 年的时候把它
2021-09-03 00:27:40 716
转载 MySQL-什么是聚集索引,非聚集索引,索引覆盖,回表,索引下推
聚集索引我们先建如下的一张表CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '学号', `name` varchar(10) NOT NULL COMMENT '学生姓名', `age` int(11) NOT NULL COMMENT '学生年龄', PRIMARY KEY (`id`), KEY `idx_name` (`name`)) ENGINE=InnoDB;插入如下sq
2021-06-30 12:46:29 183
转载 Spark—SparkSQL的几种JOIN实现(left/right/inner)
依亲身经历而言,面试官的确有可能会问你JOIN有哪些分类,这时候一定不要慌,让我们一起来看看该怎么回答。JOIN的基本要素join条件(ON)、过滤条件(where)、JOIN方式(join/left join/full join等)是构成JOIN的三大基本要素JOIN的基本实现流程Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter),通常streamIter为大表,buildIter为小表,我们不用担心哪个表为streamIter,哪个表为
2021-05-24 21:01:25 3106
转载 Spark——SparkSQL的3种Join实现
[转载]:https://www.toutiao.com/i6713491937078280712引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:Broadcast Hash Join :适合一张较小的表和一张大表进行join Shuffle Hash Join : 适合一张小表和一张大表进行joi
2021-05-24 19:29:42 845
转载 [转载] MySQL索引那些事:什么是索引?为什么加索引就查得快了?
转载:https://www.toutiao.com/i6964712627998147109大家有没有遇到过慢查询的情况,执行一条SQL需要几秒,甚至十几、几十秒的时间,这时候DBA就会建议你去把查询的 SQL 优化一下,怎么优化?你能想到的就是加索引吧?为什么加索引就查得快了?这就要从索引的本质以及他的底层原理说起。01 索引是什么?那索引到底是什么呢?你是不是还停留在大学学『数据库原理』时老师讲的“索引就像字典的目录”这样的概念?老师讲的没错,但没有深入去讲。其实索引就是一种用于快
2021-05-24 15:43:59 162
原创 xampp的安装和thinkphp的部署
一、xampp的安装1、xampp的下载:https://www.apachefriends.org/zh_cn/index.htmlxampp for linux v5.6.12下载的文件为:xampp-linux-x64-5.6.12-0-installer.run2、安装 其他权限无法安装。切换到linux的root权限下,执行 ./xampp-linux-x64...
2015-08-30 09:49:36 3124
原创 [转] Centos开机自启动redis
修改redis.conf,打开后台运行选项:?123# By default Redis does not run as a daemon. Use 'yes' if you need it.# Note that Redis will write a pid file in /var/run/redis.pid when daemoniz...
2015-08-29 19:30:32 106
原创 [转]HBase的特征和优点
Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduc...
2015-08-26 21:12:15 205
原创 php在windows下的环境搭建
准备:1、Apache24的下载;2、php-5.6.10-Win32-VC11-x64下载;3、mysql下载 1、配置php首先,在【环境变量】的【Path】中加入:;E:\Program Files\PHP; E:\Program Files\PHP\ext两个值。其次,在解压的根目录下找到php.ini-development,是用于开发环境的配置文件;还有一个php....
2015-07-07 15:34:37 148
原创 java的IO流操作
1.输入字节流InputStreamIO 中输入字节流的继承图可见上图,可以看出:1)、InputStream 是所有的输入字节流的父类,它是一个抽象类。2)、ByteArrayInputStream、StringBufferInputStream、FileInputStream 是三种基本的介质流,它们分别从Byte 数组、StringBuffer、和本地文件...
2015-06-15 16:51:15 179
原创 git branch 打分支操作
在git上打分支及提交文件到分支的操作:1、创建分支 git branch dev01 ( 这里分支名称为dev01)2、查看所有分支 git branch or git branch -a (列出了所有的分支,包括dev01分支,其中带*的就是当前分支;)3、切换分支 git...
2015-03-20 18:22:04 881
原创 SpagoBI的filter-paramter-lov的关系
在spagobi开发中,设计到的报表的filter、driver(parameter)、lov之间的关系图: 在前端页面表现为: 结束
2015-03-13 15:10:42 104
原创 【转】Spring事务配置的五种方式
Spring事务配置的五种方式 前段时间对Spring的事务配置做了比较深入的研究,在此之间对Spring的事务配置虽说也配置过,但是一直没有一个清楚的认识。通过这次的学习发觉Spring的事务配置只要把思路理清,还是比较好掌握的。 总结如下: Spring配置文件中关于事务配置总是由三个组成部分,分别是DataSource、TransactionManager和...
2015-02-26 16:51:55 71
原创 [转]SpringAOP拦截器的代理机制
要使用方法名匹配AOP切面编程,需要使用到Spring中的 org.springframework.aop.support.NameMatchMethodPointcutAdvisor这个类,advice 属性定义一个通告类,mappedName定义通告类针对的方法,通告的类需要实现一些特定的接口在特定的时候执行: MethodBeforeAdvice :方法之前执行 Af...
2015-02-26 15:47:42 87
原创 spagobi知识积累
1、获取配置文件信息1)从properties中获取: var message = "<%=msgBuilder.getMessage("1013","component_spagobidocumentcompositionIE_messages", request)%>";2)从js文件中获取LN(‘’); LN('sbi.users.fullName')...
2015-02-06 14:38:28 124
原创 【转】MySQL性能优化之参数配置
1、目的:通过根据服务器目前状况,修改Mysql的系统参数,达到合理利用服务器现有资源,最大合理的提高MySQL性能。 2、服务器参数:32G内存、4个CPU,每个CPU 8核。3、MySQL目前安装状况。 MySQL目前安装,用的是MySQL默认的最大支持配置。拷贝的是my-huge.cnf.编码已修改为UTF-8.具体修改及安装MySQL,可以参...
2015-02-04 15:34:51 120
原创 linux的crontab调度shell命令
1、编写shell脚本,添加可执行权限。 eg: backup_spagobi_db.sh #!/bin/sh#backup spagobi db#note:#from 099 to 102 db#30 23 * * * root run-parts /home/work/scripts/backup_spagobi_db.sh >/dev/null...
2015-02-03 16:07:20 193
原创 mysql主从同步备份方案-
环境:主服务器上的MySQL数据库版本同为5.5.29主机IP:192.168.0.1从机IP:192.168.0.2一. MySQL主服务器配置(0.1机器)1.编辑配置文件/data/dbroot/my.cnf# 确保有如下行server-id = 1log-bin=mysql-binbinlog-do-db = home #需要备份的数据库名,如果备份多个数据库,重复设置这个选项...
2015-01-30 12:30:10 260
原创 mysql源码编译安装
(!)先给出MySQL For Linux 源码下载地址,是xx.tar.zg格式的http://www.filewatcher.com/m/mysql-5.0.45.tar.gz.24433261.0.0.html (1) -------------预备工作---------- 1:假如下载的文件名为:mysql-5.0.45.tar.gz ...
2015-01-28 19:32:48 79
原创 数据库表分割技术浅析(水平分割/垂直分割/库表散列)
数据库表分割技术包含以下内容:水平分割/垂直分割/库表散列.接下来将对以上分割进行详细介绍,感兴趣的朋友可以了解下,对你日后维护数据库是很有帮助的 一.水平分割 什么是水平分割?打个比较形象的比喻,在食堂吃饭的时候,只有一个窗口,排队打饭的队伍太长了,都排成S型了,这时容易让排队的人产生焦虑情绪,容易产生混乱,这时一个管理者站出来,增加多个打饭窗口,把...
2015-01-06 19:50:04 98
原创 JAmon做web监控
一、下载:http://sourceforge.net/projects/jamonapi/files 二、介绍 http://www.iteye.com/post/354575http://www.th7.cn/Program/java/201406/217842.shtml
2014-11-25 20:07:40 125
原创 SpagoBI配置文件解读
spago框架的灵活性在于它可插拔的配置文件。 在spagobiProject工程的/SpagoBIProject/web-content/WEB-INF/conf目录下,分模块滴放着各类配置文件,每个模块一般配置是如下的:/SpagoBIProject/web-content/WEB-INF/conf/analiticalmodel/SpagoBIProj...
2014-10-22 16:14:02 186
原创 SpagoBI新需求改造:实现tableCharts报表
版本:spagobi 4.2 要求:1)table用extjs,能分页,能过滤; 2)单击table的一行,能和chart进行联动,chart用highchart; 知识储备: 动态创建column: var GroupRecord = Ext.data.Record.create([ ...
2014-10-21 14:26:54 233
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人