随风奔跑之水-CSDN博客

转载 Flink理解时间和watermark机制原理

1、Flink时间管理（满足不同场景需要）https://zhuanlan.zhihu.com/p/3997518872、Flink中watermark机制（处理数据延迟和数据乱序问题）（解决数据丢失）https://blog.51cto.com/u_12824426/2581930

2021-08-20 17:44:56 227

转载 Flink算子实操（图文）

原文地址：https://zhangboyi.blog.csdn.net/article/details/114288304

2021-08-19 15:59:23 384

原创在VMware中搭建多节点Hadoop集群（全系列篇）

https://www.cnblogs.com/chaoren399/p/10709483.html

2021-02-02 17:11:45 670

配置Hadoop集群客户端版本更新内容备注v1.0创建文档2020-10-11v1.1新增词根相关2021-01-06Markdown在线编辑器：http://www.mdeditor.com在Hadoop和Spark集群搭建好了之后，如果我们需要向集群中发送、获取文件，或者执行MapReduce、Spark作业，通常是搭建一个外围的、集群的客户端，在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时，集群和客户端的结.

2021-01-13 10:31:21 700

原创某某的一生

以下文字摘自网络，内心共鸣，随写于此26岁，你看着身边的人都结了婚婚礼的份子钱逐年递增春节回家，父母从带你串亲戚变成了带你去见相亲对象见了十几个姑娘你每次都觉得和那个她比差了一点28岁那年，你遇到了一个和你遭遇差不多的姑娘你们有一搭没一搭的聊着她说，你还不错你喝了一口可乐说：你也是你还不确定喜不喜欢她双方家长就已经摆好了订婚宴结婚的前一周，你和朋友出去喝酒你说，不想结婚朋友说，你啊，就是想太多，谁不是这么过来的？这辈子.29岁，你们终于结了婚婚礼办的不..

2020-12-04 09:54:48 404 2

原创 Hive中的数据分桶

参考文章：hive分桶管理https://blog.csdn.net/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.csdn.net/wl1411956542/article/details/52931499---------------------------------------------------------------------------------------------------------

2020-11-10 11:34:00 2943

原创数据仓库-缓慢渐变维度解决方法

在从OLTP业务数据库向DW数据仓库抽取数据的过程中，特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题：业务数据库中的一些数据发生了更改，到底要不要将这些变化也反映到数据仓库中？在数据仓库中，哪些数据应该随之变化，哪些可以不用变化？考虑到这些变化，在数据仓库中的维度表又应该如何设计以满足这些需要。很显然在业务数据库中数据的变化是非常自然和正常的，比如顾客的联系方式，手机号码等信息可能随着顾客的所在地的更改发生变化，比如商品的价格在不同时期有上涨和下降的变化。那么在业务数据库中，很自然的就...

2020-11-06 15:30:01 283

原创 MYSQL数据库-表维护

1、监控MySQL磁盘容量如果想知道MySQL数据库中每个表占用的空间、表记录的行数的话，可以打开MySQL的information_schema数据库。在该库中有一个TABLES表，这个表主要字段分别是：TABLE_SCHEMA:数据库名TABLE_NAME：表名ENGINE：所使用的存储引擎TABLES_ROWS：记录数DATA_LENGTH：数据大小INDEX_LENGTH：索引大小其他字段请参考MySQL的手册，我们只需要了解这几个就足够了。所以要...

2020-08-31 11:18:19 1220

原创 Spark-Shell 常用算子练习

// 在控制台执行：spark-shell// ------------------------------------------------------// 一、元素型 RDD数据val rdd = sc.parallelize(1 to 10, 3) => rdd: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)// transformation 转换，记录了RDD演变的过程，只有action才会触发transformatio.

2020-08-27 14:03:20 418

原创 hive查询结果转为json格式

问题描述：app_name,container,platform,get_json_object(biz,'$.desc') ===> pv-- 传统计算，给定参数值：SELECT count(distinct distinct_id) UV, -- 2 count(distinct_id) PV -- 61from ods.t_user_behavior ...

2020-07-20 14:16:55 7969 1

原创如何给证件照换底色；如何调整证件照大小

一、如何给证件照换底色1、打开Excel，点击【插入】>【图片】2、选择需要更换底色的照片，然后点击【插入】3、此时工作表中就添加了需要更换底色的照片。（白色比较复杂，如果白色会更换了，其它颜色就不在话下了）4、选中图片，在弹出的格式菜单中选择最左侧的【删除背景】工具5、同时配合【标记要保留的区域和】和【标记要删除的区域】将照片中颜色几乎相同的白色衬衣标记为要保留的区域。然后点击【保留更改】6、此时点击图片以外的区域，我们看到的照片就是已经去除背景色的照片了，.

2020-07-17 19:02:24 3866 1

原创常用数据挖掘算法整理

1、热度算法和个性化推荐http://www.woshipm.com/pmd/723735.html

2020-07-14 17:28:25 312

原创 UDF（PYTHON / JAVA）入门级开发

开发前的声明 udf开发是在数据分析的时候如果内置的函数解析不了的情况下去做的开发，比方说你只想拆分一个字段，拼接一个字段之类的，就不要去搞udf了，这种基本的需求自带函数完全支持，具体参数可参考文档： http://spark.apache.org/docs/latest/api/sql/search.html?q=cast 里面列举了所有函数的介绍和使用，推荐优先使用官方推出的，因为自己写的udf如果对一些异常处理不到位可能会导致数据分析的失败或者意...

2020-07-07 10:08:23 1778

转载文本类数据分词、词频、标签

1、贝叶斯案例3：文本关键词提取、新闻分类（python实现）https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/78786984

2020-07-01 10:18:51 369

原创你的数据业务系统需要数据仓库吗？（合集）

参考博客：https://www.cnblogs.com/JaneZSS/p/6678548.html

2020-06-22 10:35:21 325 1

转载 Scala中特殊符号的使用

Scala中常用特殊符号

2020-06-12 10:47:12 390 1

转载 Linux三剑客之awk命令

Linux三剑客之awk命令

2020-06-11 19:55:19 220

原创在IDEA中利用Maven创建Spark项目

1、安装相应sdk及环境变量配置（1）安装java-sdk（2）安装scala-sdk（3）安装spark2、安装IDEA从官网下载安装包，常规安装，在Plugins中添加所需的插件，scala等3、maven配置打开maven存放文件夹找到 conf ->settings.xml找到<mirrors>节点把下面内容写入节点内配置为阿里云的镜像　　<mirror> <id>alimaven</id>

2020-06-08 14:48:50 2401

原创 Win10下开发基于hadoop的spark、flink项目（全系列篇）

个人感觉有帮助的，就不复制了，链接如下：https://blog.csdn.net/songhaifengshuaige/article/details/79480491

2020-05-15 10:26:29 1055

转载 sparkSQL实战详解

摘要如果要想真正的掌握sparkSQL编程，首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识，然后就是对各个层级关系有一个清晰的认识后，才能真正的掌握它，对于sparkSQL整体框架这一块，在前一个博客已经进行过了一些介绍，如果对这块还有疑问可以看我前一个博客：http://9269309.blog.51cto.com/9259309/1845525。本篇博客主要是对sparkSQL实战进行讲解和总结，而不是对sparkSQL源码的讲解...

2020-05-14 14:58:44 308

原创 sparkSQL的实现原理解析

这篇博客的目的是让那些初次接触sparkSQL框架的童鞋们，希望他们对sparkSQL整体框架有一个大致的了解，降低他们进入spark世界的门槛，避免他们在刚刚接触sparkSQL时，不知所措，不知道该学习什么，该怎么看。这也是自己工作的一个总结，以便以后可以回头查看。后续会对sparkSQL进行一系列详细的介绍。慢慢来吧~~~1、sql语句的模块解析当我们写一个查询语句时，一般包含三个部分，select部分，from数据源部分，where限制条件部分，这三部分的内容在sql中有专门的名称：..

2020-05-14 14:38:38 714

转载云计算、大数据和人工智能三者到底什么关系

今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢？因为这三个东西现在非常火，并且它们之间好像互相有关系：一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员，就可能比较难理解这三者之间的相互关系，所以有必要解释一下。一、云计算最初的目标我们首先来说云计算。云计算最初的目标是对资...

2020-04-03 15:53:12 2634

转载 IntelliJ IDEA 如何创建一个普通的 Java 项目，及创建 Java 文件并运行

https://blog.csdn.net/oschina_41790905/article/details/79475187

2019-12-17 10:36:49 317

转载 PostgreSQL（pg数据库）分区表 - 10.x之前版本（老方法）

一、在PostgreSQL中按时间自动创建分区表PostgreSQL数据库中对表做分区，与11g之前的Oracle类似，需要手动创建分区表、索引等。不是很实用，最好是可以实现自动创建分区表。PostgreSQL中通过继承，可以支持基本的表分区功能，比如按时间，每月创建一个表分区，数据记录到对应分区中。按照官方文档的操作，创建子表和index、修改trigger等工作都必须DBA定期去手动执...

2019-11-28 16:11:29 904

原创 Hive中with cube、with rollup、grouping sets用法

表结构CREATE TABLE test (f1 string, f2 string, f3 string, cnt int) ROW FORMAT delimited FIELDS TERMINATED BY '\t' stored AS textfile; L...

2019-11-04 18:23:30 10220 1

转载 hadoop任务参数配置-原理-调优

一、MapReduce On Yarn的配置详解和日常维护https://www.cnblogs.com/yinzhengjie/articles/11064239.html二、YARN and MapReduce 内存参数设置原理https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.0.9.1/bk_installing_manually...

2019-10-18 17:24:18 280

原创深入解析hive中的NULL(空值)和''(空字符串)

一、hive里面的 null(空值) 和 ''(空字符串) 是两个不同的东西1、如果查某个字段【 a 是否为空】应该这样写：a is nullais not null2、如果查某个字段【a 是否为''】应该这样写：a = ''a <>''在hive的数据中，null值（空值）较为常见，比如字段没有值，就是所谓的null值（空值），而 ''（空字符串）...

2019-09-29 15:09:03 25314 1

原创 hadoop – 如何将数据插入Hive中的Parquet表

Hive中的Parquet表本质是一种被压缩了的二进制文件，不方便对其进行操作编辑方法一：（针对数据量不大时）优点：方便、快捷insert into table TABLE_NAME1 partition(dt="2019-09-05")select32451,"支付卡券11111qaz",19,19,"2019-09-06 17:34:19"from TABLE_NAME2...

2019-09-06 18:15:47 1915

原创 hdfs中的数据离线校核

一、将目标数据拉取到本地1、将目标数据筛选后转到Liunx系统文件中hdfs dfs -text /backup/dataflow/20190822/* | grep "mwapp" > mwapp.log## 1、先查询指定日期下的所有数据，2、通过管道筛选出含有指定字符的内容，3、将数据重定向到log文件less mwapp.log## 查看文件的前一部分2、将中转...

2019-08-23 15:44:00 130

原创将win本地文件数据导入hive表中（通用方法）

重要说明：1、本地文件理论上可以是任意格式的数据(.txt , .json , 字符串...)2、过程完全可以复用(同种类型问题)数据源示例：json格式数据[ { "cityId": 19, "cityName": "北京", "province": "北京", "shortWord": "B", ...

2019-08-21 17:57:50 3057 1

转载 Hive优化

Hive优化一、Hadoop 计算框架的特性1、什么是数据倾斜由于数据的不均衡原因，导致数据分布不均匀，造成数据大量的集中到一点，造成数据热点。2、Hadoop框架的特性不怕数据大，怕数据倾斜jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的sum,coun...

2019-08-21 14:30:56 104

转载 Hive Shell操作

Hive Shell操作一、Hive Shell 基本操作1、Hive 命令行hive [-hiveconf x=y]* [<-ifilename>]* [<-f filename>|<-e query-string>] [-S]-i 从文件初始化HQL-e 从命令行执行指定的HQL-f 执行HQL脚本-v 输出执行的HQL语句到控...

2019-08-21 14:23:59 197

转载 HiveQL

HiveQL一、DDL1、DDL功能建表删除表修改表结构创建／删除视图创建数据库显示命令增加分区、删除分区重命名表修改列的名字、类型、位置、注释增加/更新列增加表的元数据信息2、建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_namedata_type [COMMENT col_comm...

2019-08-21 14:17:12 243

转载 Hive高级编程 -- UDF

Hive高级编程一、产生背景为了满足客户个性化的需求，Hive被设计成一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本：不管什么语言，利用stdin/stdout 传输数据...

2019-08-21 14:05:50 478

转载 Hive参数

Hive参数hive.exec.max.created.files说明：所有hive运行的map与reduce任务可以产生的文件的和默认值:100000hive.exec.dynamic.partition说明：是否为自动分区默认值：falsehive.mapred.reduce.tasks.speculative.execution说明：是否打开推测执行默认值：true...

2019-08-21 13:56:14 224

转载 Hive JDBC

Hive JDBC1、基本操作对象的介绍1、Connection说明：与Hive连接的Connection对象Hive的连接jdbc:hive://IP:10000/default“获取Connection的方法DriverManager.getConnection("jdbc:hive://IP:10000/default","", "");2、Statement...

2019-08-21 13:48:01 469

转载 Hive内建操作符与函数开发

Hive内建操作符与函数开发1、关系运算符等值比较: =不等值比较: <>小于比较: <小于等于比较: <=大于比较: >大于等于比较: >=空值判断: IS NULL非空判断: IS NOT NULLLIKE比较: LIKEJAVA的LIKE操作: RLIKEREGEXP操作: REGEXP等值比较: =...

2019-08-21 13:42:49 165

转载 Hive的安装部署、配置及实践操作

在此强调：Hadoop，zookpeer，spark，kafka,mysql已经正常启动一、开始安装部署hive基础依赖环境：1，jdk 1.6+2, hadoop 2.x3，hive 0.13-0.194，mysql （mysql-connector-jar）安装详细如下：#javaexport JAVA_HOME=/soft/jdk1.7.0_79/expor...

2019-08-21 11:59:59 304

转载 Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

Pig介绍一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：）Pig是一种数据流语言，用来快速轻松的处理巨大的数据。Pig包含两个部分：Pig Interface,Pig Latin。Pig可以非常方便的...

2019-08-21 11:34:07 495

转载 Sqoop最佳实践

https://www.jianshu.com/p/be33f4b5c62e

2019-08-20 17:10:23 118

空空如也

空空如也