Studying Zhou-CSDN博客

转载 spark join 的三种实现方式

https://www.cnblogs.com/duodushuduokanbao/p/9911256.html

2022-03-14 11:40:42 316

转载数据仓库如何划分主题域

https://jishuin.proginn.com/p/763bfbd33dfe

2021-04-14 19:01:11 1062

转载 Hive中UDF、UDTF 、UDAF函数详解及示例

https://blog.csdn.net/qq_40579464/article/details/105903405

2021-03-23 17:01:14 234

转载 Mac Git 学习教程之本地项目代码上传到GitHub

https://jingyan.baidu.com/article/636f38bb9747d1d6b84610f3.html

2021-03-11 15:39:25 65

转载：https://my.oschina.net/repine/blog/193867字符串函数字符串长度函数：length语法: length(string A)返回值: int说明：返回字符串A的长度举例：hive> select length(‘abcedfg’) from dual;7字符串反转函数：reverse语法: reverse(string A)返回值: string说明：返回字符串A的反转结果举例：hive> select reverse(‘ab

2021-03-04 19:35:19 121 2

原创用sort_array函数解决collet_list列表排序混乱问题

由collect_list形成的列表经过concat_ws拼接后顺序具有随机性，要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可，示例如下：SELECT memberid, regexp_replace( concat_ws('-', sort_array( collect_list(

2021-03-04 19:16:58 920 1

转载 MAC搭建Python开发环境

https://blog.csdn.net/zhou1225283915/article/details/80034328

2019-11-25 14:19:20 167

转载图解Mac下MySQL下载及安装

https://blog.csdn.net/youzhouliu/article/details/80782892

2019-11-21 11:18:50 127

原创使用secureCRT连接mac的本地终端

1、首先需要启动MAC的sshd服务：打开mac的命令终端，执行：sudo launchctl load -w /System/Library/LaunchDaemons/ssh.plist2、停止sshd服务的方法：在mac的终端执行：sudo launchctl unload -w /System/Library/LaunchDaemons/ssh.plist3、查看sshd服务是否启...

2019-11-20 17:52:00 663

原创拉链表设计

https://blog.csdn.net/weixin_40444678/article/details/81083614

2019-11-20 11:22:50 189

转载 hive开窗函数总结

https://blog.csdn.net/Abysscarry/article/details/81408265

2019-07-30 17:52:32 207

原创 Hdfs block数据块大小的设置规则

Hdfs block数据块大小的设置规则1.概述hadoop集群中文件的存储都是以块的形式存储在hdfs中。2.默认值从2.7.3版本开始block size的默认大小为128M，之前版本的默认值是64M.3.如何修改block块的大小？可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值。注意：在修改HDFS的数据块大小时，首先停掉集群hadoop的运行...

2019-06-28 16:12:28 2270

原创如何将hive的数据表导出到csv格式的文件中

由于在hive hue web页面上无法全部展示比较大的数据，并且就算导出到excel中也会对服务器产生特别大的压力。所以就需要将hive数据表的数据导出以csv形式的存储！hive -e “select * from dhtest.temp_uv” >> res1.csv将需要的查询数据导出到 res1.csv[hdfs@datanode11 wangchong]$ hive ...

2019-06-24 13:43:39 5121

原创 spark性能优化

Spark实践经验和Spark原理为依据调优sparkhttp://www.aboutyun.com/forum.php?mod=viewthread&tid=20451Spark性能优化的10大问题及其解决方案http://www.aboutyun.com/forum.php?mod=viewthread&tid=12676Spark之性能优化http://www.ab...

2019-06-19 18:52:16 112

转载正则表达式学习

本篇文章文字内容较多，但是要学习正则就必须耐心读下去，正则表达式是正则表达式其实并没有想像中的那么困难，但是想要熟练的掌握它，还是需要下功夫勤加练习的。这里讲一些正则表达式的语法和学习方法，大家还要多参考前辈们写的正则表达式，才能达到熟练精通的地步。一、正则表达式到底是什么东西？　　正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、...

2019-06-18 16:36:31 136

转载数仓分层

https://www.cnblogs.com/shengyang17/p/10545198.html

2019-06-14 16:36:46 559

转载 Hive map和reduce个数的设置

hive优化的几种情况目标就是每个map，reduce数据处理量要适当1.hive小文件很多,造成map个数很多，需要减少map个数set mapred.max.split.size=100000000;set mapred.min.split.size.per.node=100000000;set mapred.min.split.size.per.rack=100000000;se...

2019-06-12 14:49:16 1020

原创自己设置mapreduce程序的map个数和reduce个数

设置reduce个数（一个reduce生成一个文件）1、如果不指定reduce个数，hive会基于一下两个参数自动计算（1）hive.exec.reducers.bytes.per.reducer这是每个reduce处理的数据量，默认为1G=1000000000（2）hive.exec.reducers.max(每个任务的最大reduce个数，默认1009)reduce个数=min(参数...

2019-06-11 20:43:35 2984

原创从一个经典案例看优化mapred.map.tasks的重要性

我所在公司所使用的生产Hive环境的几个参数配置如下：dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2因为合并小文件默认为true，而dfs.block.size与hive.merg...

2019-06-11 17:12:20 2046

转载大数据：Hive常用参数调优

https://www.cnblogs.com/ITtangtang/p/7683028.html

2019-06-06 15:01:28 277

转载 Hive中压缩使用详解与性能分析

https://blog.csdn.net/qq_26442553/article/details/85766558

2019-06-06 10:53:57 365

转载 REGEXP_REPLACE 函数

https://blog.csdn.net/gxftry1st/article/details/22489275

2019-06-05 15:22:00 428

转载 hive中的lateral view 与 explode函数的使用

https://blog.csdn.net/guodong2k/article/details/79459282

2019-06-04 15:04:36 219

转载 hive表信息查询：查看表结构、表操作等

转自：http://www.aboutyun.com/forum.php?mod=viewthread&tid=8590&highlight=hive问题导读：1.如何查看hive表结构？2.如何查看表结构信息？3.如何查看分区信息？4.哪个命令可以模糊搜索表1.hive模糊搜索表show tables like ‘name’;2.查看表结构信息desc form...

2019-05-28 11:00:29 5488

原创 linux top命令详解

https://www.cnblogs.com/sbaicl/articles/2752068.html

2019-05-22 10:49:10 97

原创 python编程中的if name == 'main': 的作用和原理

在大多数编排得好一点的脚本或者程序里面都有这段if name == ‘main’: ，虽然一直知道他的作用，但是一直比较模糊，收集资料详细理解之后与打架分享。1、这段代码的功能一个python的文件有两种使用的方法，第一是直接作为脚本执行，第二是import到其他的python脚本中被调用（模块重用）执行。因此if name == ‘main’: 的作用就是控制这两种情况执行代码的过程，在if...

2019-05-17 10:28:24 352

转载 Python中 sys.argv[]的用法简明解释

https://www.cnblogs.com/aland-1415/p/6613449.html

2019-05-16 17:38:48 99

原创 crontab文件的含义

用户所建立的crontab文件中，每一行都代表一项任务，每行的每个字段代表一项设置，它的格式共分为六个字段，前五段是时间设定段，第六段是要执行的命令段，格式如下：minute hour day month week command其中：minute：表示分钟，可以是从0到59之间的任何整数。hour：表示小时，可以是从0到23之间的任何整数。day：表示日期，可以是从1到31之间的任何...

2019-05-16 15:48:50 867

转载 mongodb数据以json的形式写入hive再ETL

2018年09月23日 16:49:17 sky-mz 阅读数：114mongodb数据以json的形式写入hiveCDH为6.0.01、http://www.congiu.net/hive-json-serde/1.3.8/cdh5/json-serde-1.3.8-jar…> 02-May-2017 11:18 83Kjson-udf-1.3.8-jar-w…> 02-M...

2019-05-16 11:56:17 499

原创为什么上班只是坐着，一天下来还是觉得好累？

其实关于这个问题，很多人肯定想过为什么，今天让我们一起来解密。为什么上班只是坐着，还是会觉得累：你觉得上班疲惫不堪但又说不出个所以然，根本原因在于：你其实心里很清楚你每天做的事情毫无意义。以前魔兽世界流行的时候每个地方都有很多那种网吧男孩，他们可以啃白面包，喝矿泉水，窝在毫无人体工程学设计的破椅子上熬上几个星期，每天超过 15 个小时下副本，只是为了一把橙色武器。他们一样也是「在电脑前一坐不...

2019-05-07 18:20:25 202

原创 Sqoop-将MySQL数据导入到hive orc表

sqoop创建并导入数据到hive orc表复制代码sqoop import –connect jdbc:mysql://localhost:3306/spider –username root --password 1234qwer –table org_ic_track --driver com.mysql.jdbc.Driver –create-hcatalog-table –...

2019-05-06 18:37:12 2035

原创 Linux文件夹文件创建、删除

Linux文件夹文件创建、删除Linux删除文件夹命令 linux删除目录很简单，很多人还是习惯用rmdir，不过一旦目录非空，就陷入深深的苦恼之中，现在使用rm -rf命令即可。直接rm就可以了，不过要加两个参数-rf 即：rm -rf 目录名字删除目录、文件 rm(remove)功能说明：删除文件或目录。语　　法：rm [-dfirv][–help][–version][文件或目...

2019-05-05 18:24:19 88

转载 Sqoop教程(一) Sqoop数据迁移工具

https://blog.csdn.net/yuan_xw/article/details/51553451

2019-05-05 18:07:54 144

原创 Sqoop import加载Hive过程中，遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:dr

Sqoop import加载Hive过程中，遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x在执行hive sqoop抽取的时候，遇到了一个错误，如下图：在执行程序的过程中，遇到权限问题很正常，也容易让人防不胜防，有问题就想办法解决，这个是关键。解决办法如下：第一步...

2019-05-05 18:05:55 7289 1

原创 sqoop组件运行出错问题解决--com.mysql.jdbc.Driver

sqoop list-tables --connect jdbc:mysql://192.168.11.94:3306/huochetoudalian --username xxx -password xxxWarning: /opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/bin/…/lib/sqoop/…/accumulo does not e...

2019-05-05 14:49:09 963

转载 sqoop详解

一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。三 Sqoop 命令Sqoop大...

2019-05-05 14:26:17 504

转载 shell脚本教程

https://blog.csdn.net/Jacksun_huang/article/details/88973257

2019-04-28 19:02:10 856

转载数仓建模

https://blog.csdn.net/zuochang_liu/article/details/81434611

2019-04-19 14:52:45 443

转载数据仓库建设的方法绝对的好文

原文链接：点击打开链接在上一期的专栏文章中，我们曾经提到：数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端（图一：pic1.bmp）其中，数据仓库（DW）起到了数据大集中的作用。通过数据抽取，把数据从源系统源源不断地抽取出来，可能每天一次，或者每3个小时一次（当然是自动的）。这个过程，我们称之为ETL过程。那么，今天，我们就来谈一谈：如何搭建数据仓库，在这个过程...

2019-04-19 10:35:01 761 1

空空如也

空空如也