达达呀-CSDN博客

原创 hive 函数汇总

1.hive去掉前一个字符，和后一个字符select substr("[1,2,3]",2,length("[1,2,3]")-2);

2021-03-18 10:58:26 854

一、基础1、HDFS优缺点（1）优点高容错性：数据自动保存多个副本。它通过增加副本的形式，提高容错性。某一个副本丢失以后，它可以自动恢复。适合处理大数据数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；文件规模：能够处理百万规模以上的文件数量，数量相当之大。可构建在廉价机器上，通过多副本机制，提高可靠性。（2）缺点可构建在廉价机器上，通过多副本机制，提高可靠性。无法高效的对大量小文件进行存储。存储大量小文件的话，它会占用NameNod

2021-03-18 09:01:44 206

原创 linux常用操作

1、集群间拷贝1）scp（secure copy）安全拷贝（1）scp 定义 scp 可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）（2）基本语法 scp-r $pdir/$fname $user@$host:$pdir/$fname 命令递归要拷贝的文件路径/名称目的地用户@主机:目...

2021-03-18 07:17:35 168

原创 hive

1、出现最后一个reduce过不去的情况（1）现象：（2）原因：使用了count(distinct field.....)（3）方案：修改为：rownumberselect uid,count(*) as aa from(select uid,devid,row_number()over(partition by uid,devid) rnks from table)awhere a.rnks=1group by uid;（4）修改之后的现象原因：这个增加了一个

2021-03-02 19:11:17 97

原创 cron遇到的坑

1、liunxcrontab: installing new crontab"/tmp/crontab.zxUusX":48: bad day-of-montherrors in crontab file, can't install.格式不对导致。

2021-01-21 14:30:54 1516 1

原创 Presto遇到的坑

1、使用除法\，结果值为0原因：在presto中：两个value相除，至少有一个为浮点数才能返回正确结果解决方案：转为浮点型（1）select sum(case when storecode = '15' then 1 else 0 end)*1.00 / count(1) from orders;（2）cast(value AS type)转自：https://blog.csdn.net/qq_35531549/article/details/90477306...

2021-01-19 14:32:50 601

原创正则表达式入门整理

一、基础1、书写的格式（1）包含字符格式符号：[ ] 符号解释：包含的字符写在中括号[ ]里，支持0-9表示0至9这种。举例：匹配字母、数字、下划线。等价于'[A-Za-z0-9_]'，用元字符代替也就是\w。（2）排除字符格式符号：^ 符号解释：将不包含的字符前面加上这个符号，提醒，比如是中括号里面的^，即[^ ]。举例：匹配非字母、数字、下划线。等价于 ...

2021-01-18 21:00:00 276

原创斐波那契代码

一、CODE1、常规解法 public static int fib(int n){ if(n==1 || n==2){ return 1; } System.out.println("iiii"); return fib(n-1)+fib(n-2); }2、自顶向下：备忘录模式 int[] arr=new int[11]; public static int fib1(int

2020-12-29 23:33:29 1169

原创导入hive表数据为空问题解决

一、现象（1）在本地运行hql时，数据可以正常插入，执行hql文件时，数据插入表时，查不到数据。（2）使用TEZ引擎时，hql执行不通过，报错；使用MR运行时，可以通过，但是无数据输出。二、排查经过排查，发现sql中有一个三个表union all的语句，只要一执行到这个语句，数据就会为空，hql如下： select group_id,uid,day from ods.tmp union all s...

2020-12-29 21:34:40 3348

原创 2020-12-22笔记--scala动态解析json数据【特定场景】

一、背景昨晚接了一个需求，从kafka里读数据，解析json，然后将json转成相应的格式。【这还不简单，分分钟搞定，然后就有了下面的难点，吼吼吼吼】二、难点今天看了一眼数据发现，json数据居然有不确定数量的URL，这咋搞？数据格式如下：{"text": "你"}{"text": "你","url1":"https://nnihl"}{"text": "你","url1":"https://nnihl","url2":"https:...

2020-12-22 23:23:21 317

原创苹果电脑初使用--MAC JDK1.8配置

1、JDK下载及安装见网盘：链接: https://pan.baidu.com/s/1RBuKmEdb8q1exldFbp4Hvg 密码: 857e安装路径默认： /Library/Java/JavaVirtualMachines/jdk1.8.0_211.jdk2、环境变量配置（1）配置第一种情况：如果你是第一次配置环境变量，可以使用“touch .bash_profile” 创建一个.bash_profile的隐藏配置文件，输入“op...

2020-11-05 10:49:19 575

原创 hive理解文档

1、 Hive本质就是翻译器，通过写sql的形式写mapreduce，起到翻译的作用，写的是sql，翻译成mapreduce2、特点：慢，表达能力有限，适合处理大数据：决定hive主要处理数仓，数仓读多写少，重点在查。3、 Hive调优比较困难，因为它翻译成mapreduce的过程我们无法干预，调优只能根据大体上的进行调优，无法细化。4、 Hive基于hadoop，是hadoop的表现形式...

2019-02-21 15:51:08 235

原创 Zookeeper

1． Zookeeper：协调其他组件运行。自己不提供具体服务。2．文件系统+通知机制。存数据，如果有关心一些数据的主机，这其中被关心的数据变化时，zookeeper会通知他们。3．没有文件夹文件的概念。每个节点称作一个ZNode，每个默认存储1MB的数据。4．全局一致性—》通过ZAB协议（Zookeeper Atomic Broadcast）zookeeper原子广播，保证全局一致性...

2019-01-27 09:39:53 141

原创 MapReduce底层及注意事项

一、mapreduce框架原理1、 mapreduce按照task分，分为maptask和reducetask2、 mapreduce按流程划分分为inputformat，map，shuffle，reducer，outputformat二、shuffle流程1、 map()将&amp;lt;k,v&amp;gt;写入环形缓冲区，并且，在写入环形缓冲区之前，这个&amp;lt;k,v&amp;gt;已经知道了它在哪个分..

2019-01-23 19:55:30 427

翻译 Hadoop配置文件_yarn-default.xml

<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agre...

2019-01-18 19:36:47 1705

翻译 Hadoop配置文件_mapred-default.xml

<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agree...

2019-01-18 19:35:54 1590

翻译 Hadoop配置文件_hdfs-default.xml

<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agre...

2019-01-18 19:34:55 1845

翻译 Hadoop配置文件_core-default.xml

<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agre...

2019-01-18 19:33:15 2010

原创 MySQL笔记

1、一般情况下查询和卸载用rpm用rpm -qa | grep mysql查询有没有如果有的话，版本不一致时，用rpm -e –nodeps mysql-lib…卸载然后用rpm -ivh …就可以安装了。有安装包的时候用rpm，没有安装包的时候用yum。Rpm和yum的区别：Rpm最大的功能在于安装软件包，而不是下载。Rpm用rpm -i也可以下载，但是没有对应的源，也就是没有对应的...

2019-01-18 19:25:38 148 1

原创 redis笔记

一、非关系型数据库：什么是nosql数据库？Not noly sql，指非关系型数据库。底层：Nosql数据库不依赖业务逻辑方式存储，而以简单的key—value模式存储特点：（1）不遵循sql标准：因为sql标准依赖于业务逻辑，所以nosql不支持nosql。（2）不支持事务的回滚，不支持所有的ACID，仅支持CI。（ACID：原子性，一致性，隔离性，持久性）（3）远超于...

2019-01-18 19:19:26 87

weixin_43870699的博客

原创 doris初使用--安装

原创 hive 函数汇总

翻译 Hadoop整理--基础--HDFS

原创 linux常用操作

原创 hive

原创 cron遇到的坑

原创 Presto遇到的坑

原创正则表达式入门整理

原创斐波那契代码

原创导入hive表数据为空问题解决

原创 2020-12-22笔记--scala动态解析json数据【特定场景】

原创苹果电脑初使用--MAC JDK1.8配置

原创 hive理解文档

原创 Zookeeper

原创 MapReduce底层及注意事项

翻译 Hadoop配置文件_yarn-default.xml

翻译 Hadoop配置文件_mapred-default.xml

翻译 Hadoop配置文件_hdfs-default.xml

翻译 Hadoop配置文件_core-default.xml

原创 MySQL笔记

原创 redis笔记

空空如也

空空如也