自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 收藏
  • 关注

转载 数据仓库预测分析-软文

数据仓库预测分析

2022-08-15 16:05:29 115

转载 spark join 的三种实现方式

https://www.cnblogs.com/duodushuduokanbao/p/9911256.html

2022-03-14 11:40:42 316

转载 数据仓库如何划分主题域

https://jishuin.proginn.com/p/763bfbd33dfe

2021-04-14 19:01:11 1062

转载 Hive中UDF、UDTF 、UDAF函数详解及示例

https://blog.csdn.net/qq_40579464/article/details/105903405

2021-03-23 17:01:14 234

转载 Mac Git 学习教程 之 本地项目代码上传到GitHub

https://jingyan.baidu.com/article/636f38bb9747d1d6b84610f3.html

2021-03-11 15:39:25 65

转载 Hive UDF整理

转载:https://my.oschina.net/repine/blog/193867字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hive> select reverse(‘ab

2021-03-04 19:35:19 121 2

原创 用sort_array函数解决collet_list列表排序混乱问题

由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可,示例如下:SELECT memberid, regexp_replace( concat_ws('-', sort_array( collect_list(

2021-03-04 19:16:58 920 1

转载 MAC搭建Python开发环境

https://blog.csdn.net/zhou1225283915/article/details/80034328

2019-11-25 14:19:20 167

转载 图解Mac下MySQL下载及安装

https://blog.csdn.net/youzhouliu/article/details/80782892

2019-11-21 11:18:50 127

原创 使用secureCRT连接mac的本地终端

1、首先需要启动MAC的sshd服务:打开mac的命令终端,执行:sudo launchctl load -w /System/Library/LaunchDaemons/ssh.plist2、停止sshd服务的方法:在mac的终端执行:sudo launchctl unload -w /System/Library/LaunchDaemons/ssh.plist3、查看sshd服务是否启...

2019-11-20 17:52:00 663

原创 拉链表设计

https://blog.csdn.net/weixin_40444678/article/details/81083614

2019-11-20 11:22:50 189

转载 hive开窗函数总结

https://blog.csdn.net/Abysscarry/article/details/81408265

2019-07-30 17:52:32 207

原创 Hdfs block数据块大小的设置规则

Hdfs block数据块大小的设置规则1.概述hadoop集群中文件的存储都是以块的形式存储在hdfs中。2.默认值从2.7.3版本开始block size的默认大小为128M,之前版本的默认值是64M.3.如何修改block块的大小?可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值。注意:在修改HDFS的数据块大小时,首先停掉集群hadoop的运行...

2019-06-28 16:12:28 2270

原创 如何将hive的数据表导出到csv格式的文件中

由于在hive hue web页面上无法全部展示比较大的数据,并且就算导出到excel中也会对服务器产生特别大的压力。所以就需要将hive数据表的数据导出以csv形式的存储!hive -e “select * from dhtest.temp_uv” >> res1.csv将需要的查询数据导出到 res1.csv[hdfs@datanode11 wangchong]$ hive ...

2019-06-24 13:43:39 5121

原创 spark性能优化

Spark实践经验和Spark原理为依据调优sparkhttp://www.aboutyun.com/forum.php?mod=viewthread&tid=20451Spark性能优化的10大问题及其解决方案http://www.aboutyun.com/forum.php?mod=viewthread&tid=12676Spark之性能优化http://www.ab...

2019-06-19 18:52:16 112

转载 正则表达式学习

本篇文章文字内容较多,但是要学习正则就必须耐心读下去,正则表达式是正则表达式其实并没有想像中的那么困难,但是想要熟练的掌握它,还是需要下功夫勤加练习的。这里讲一些正则表达式的语法和学习方法,大家还要多参考前辈们写的正则表达式,才能达到熟练精通的地步。一、正则表达式到底是什么东西?  正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、...

2019-06-18 16:36:31 136

转载 数仓分层

https://www.cnblogs.com/shengyang17/p/10545198.html

2019-06-14 16:36:46 559

转载 Hive map和reduce个数的设置

hive优化的几种情况目标就是每个map,reduce数据处理量要适当1.hive小文件很多,造成map个数很多,需要减少map个数set mapred.max.split.size=100000000;set mapred.min.split.size.per.node=100000000;set mapred.min.split.size.per.rack=100000000;se...

2019-06-12 14:49:16 1020

原创 自己设置mapreduce程序的map个数和reduce个数

设置reduce个数(一个reduce生成一个文件)1、如果不指定reduce个数,hive会基于一下两个参数自动计算(1)hive.exec.reducers.bytes.per.reducer这是每个reduce处理的数据量,默认为1G=1000000000(2)hive.exec.reducers.max(每个任务的最大reduce个数,默认1009)reduce个数=min(参数...

2019-06-11 20:43:35 2984

原创 从一个经典案例看优化mapred.map.tasks的重要性

我所在公司所使用的生产Hive环境的几个参数配置如下:dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2因为合并小文件默认为true,而dfs.block.size与hive.merg...

2019-06-11 17:12:20 2046

转载 大数据:Hive常用参数调优

https://www.cnblogs.com/ITtangtang/p/7683028.html

2019-06-06 15:01:28 277

转载 Hive中压缩使用详解与性能分析

https://blog.csdn.net/qq_26442553/article/details/85766558

2019-06-06 10:53:57 365

转载 REGEXP_REPLACE 函数

https://blog.csdn.net/gxftry1st/article/details/22489275

2019-06-05 15:22:00 428

转载 hive中的lateral view 与 explode函数的使用

https://blog.csdn.net/guodong2k/article/details/79459282

2019-06-04 15:04:36 219

转载 hive表信息查询:查看表结构、表操作等

转自:http://www.aboutyun.com/forum.php?mod=viewthread&tid=8590&highlight=hive问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表1.hive模糊搜索表show tables like ‘name’;2.查看表结构信息desc form...

2019-05-28 11:00:29 5488

原创 linux top命令详解

https://www.cnblogs.com/sbaicl/articles/2752068.html

2019-05-22 10:49:10 97

原创 python编程中的if __name__ == 'main': 的作用和原理

在大多数编排得好一点的脚本或者程序里面都有这段if name == ‘main’: ,虽然一直知道他的作用,但是一直比较模糊,收集资料详细理解之后与打架分享。1、这段代码的功能一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。因此if name == ‘main’: 的作用就是控制这两种情况执行代码的过程,在if...

2019-05-17 10:28:24 352

转载 Python中 sys.argv[]的用法简明解释

https://www.cnblogs.com/aland-1415/p/6613449.html

2019-05-16 17:38:48 99

原创 crontab文件的含义

用户所建立的crontab文件中,每一行都代表一项任务,每行的每个字段代表一项设置,它的格式共分为六个字段,前五段是时间设定段,第六段是要执行的命令段,格式如下:minute hour day month week command其中:minute: 表示分钟,可以是从0到59之间的任何整数。hour:表示小时,可以是从0到23之间的任何整数。day:表示日期,可以是从1到31之间的任何...

2019-05-16 15:48:50 867

转载 mongodb数据以json的形式写入hive再ETL

2018年09月23日 16:49:17 sky-mz 阅读数:114mongodb数据以json的形式写入hiveCDH为6.0.01、http://www.congiu.net/hive-json-serde/1.3.8/cdh5/json-serde-1.3.8-jar…> 02-May-2017 11:18 83Kjson-udf-1.3.8-jar-w…> 02-M...

2019-05-16 11:56:17 499

原创 为什么上班只是坐着,一天下来还是觉得好累?

其实关于这个问题,很多人肯定想过为什么,今天让我们一起来解密。为什么上班只是坐着,还是会觉得累:你觉得上班疲惫不堪但又说不出个所以然,根本原因在于:你其实心里很清楚你每天做的事情毫无意义。以前魔兽世界流行的时候每个地方都有很多那种网吧男孩,他们可以啃白面包,喝矿泉水,窝在毫无人体工程学设计的破椅子上熬上几个星期,每天超过 15 个小时下副本,只是为了一把橙色武器。他们一样也是「在电脑前一坐不...

2019-05-07 18:20:25 202

原创 Sqoop-将MySQL数据导入到hive orc表

sqoop创建并导入数据到hive orc表复制代码sqoop import –connect jdbc:mysql://localhost:3306/spider –username root --password 1234qwer –table org_ic_track --driver com.mysql.jdbc.Driver –create-hcatalog-table –...

2019-05-06 18:37:12 2035

原创 Linux文件夹文件创建、删除

Linux文件夹文件创建、删除Linux删除文件夹命令 linux删除目录很简单,很多人还是习惯用rmdir,不过一旦目录非空,就陷入深深的苦恼之中,现在使用rm -rf命令即可。直接rm就可以了,不过要加两个参数-rf 即:rm -rf 目录名字删除目录、文件 rm(remove)功能说明:删除文件或目录。语  法:rm [-dfirv][–help][–version][文件或目...

2019-05-05 18:24:19 88

转载 Sqoop教程(一) Sqoop数据迁移工具

https://blog.csdn.net/yuan_xw/article/details/51553451

2019-05-05 18:07:54 144

原创 Sqoop import加载Hive过程中,遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:dr

Sqoop import加载Hive过程中,遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x在执行hive sqoop抽取的时候,遇到了一个错误,如下图:在执行程序的过程中,遇到权限问题很正常,也容易让人防不胜防,有问题就想办法解决,这个是关键。解决办法如下:第一步...

2019-05-05 18:05:55 7289 1

原创 sqoop组件运行出错问题解决--com.mysql.jdbc.Driver

sqoop list-tables --connect jdbc:mysql://192.168.11.94:3306/huochetoudalian --username xxx -password xxxWarning: /opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/bin/…/lib/sqoop/…/accumulo does not e...

2019-05-05 14:49:09 963

转载 sqoop详解

一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。三 Sqoop 命令Sqoop大...

2019-05-05 14:26:17 504

转载 shell脚本教程

https://blog.csdn.net/Jacksun_huang/article/details/88973257

2019-04-28 19:02:10 856

转载 数仓建模

https://blog.csdn.net/zuochang_liu/article/details/81434611

2019-04-19 14:52:45 443

转载 数据仓库建设的方法 绝对的好文

原文链接:点击打开链接在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp)其中,数据仓库(DW)起到了数据大集中的作用。通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次(当然是自动的)。这个过程,我们称之为ETL过程。那么,今天,我们就来谈一谈:如何搭建数据仓库,在这个过程...

2019-04-19 10:35:01 761 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除