无语梦醒-CSDN博客

原创 DolphinScheduler3.0.1（数据质量）

一开始我在数据质量的模块里找了半天如何创建监控任务，直到我在工作类型中看到DATA_QUALITY，我……核心配置项如下，不同的监控规则可以在数据质量的规则管理界面查看。

2023-03-15 11:47:41 2393 11

原创 DolphinScheduler跨版本升级1.3.8至3.0.1

dolphinscheduler1.3.8越级升级3.0.1 & 部署dolphinscheduler

2023-02-27 16:50:24 1506 1

原创 HIVE-TEZ引擎配置安装

HIVE安装TEZ引擎的配置安装，包括TEZ编译，PROTOBUF安装，LZO安装编译等

2022-07-19 10:57:16 1216

一.背景最近想整理整理pyspark的环境，由于本人是windows本，所以之前都是用winutils解决跨平台问题，最近想着我能不能直接使用服务器上的pyspark环境啊，所以在网上搜索了一番加上测试了一趟，捋了捋流程发出来记一下，mark！二.必备1. 完成SSH免密登录的Linux服务器一台和Windows笔记本一台（理论上只要免密了都适用）2. Linux服务器本地存在正常可使用的pyspark环境3. 可能有同学是anaconda环境，这里备注一下，只需要在对应位置的pytho

2022-04-09 16:59:52 2634

转载 DolphinScheduler流程调度工具

目录一、平台简介二、竞品软件分析三、安装部署 3.1 基础环境3.2 安装前操作3.3具体安装操作步骤3.4 名词解释四.功能介绍4.1 首页&项目管理4.1.1 首页4.1.2 项目管理4.1.3 任务节点类型和参数设置4.2 资源中心4.2.1文件管理4.2.2 UDF管理4.3 数据源中心4.4 监控中心4.5 安全中心4.5.1 租户管理4.5.2 用户管理4.5.3 告警组管理4.5.4 Wor.

2022-03-16 11:57:01 7250 2

原创数据可视化——Davinci

数据可视化——Davinci对比及功能使用一. 数据可视化个人引用部分1.有趣的意义2.常规的意义二.图形的内涵1. 图形类型2. 优秀可视化的特点三.可视化需求分析1. 四个问题2. 三个沟通点四.Davinci功能详解1. 可视化构建流程2. 数据源-Source3. 数据视图-View4. 可视化组件-Widget1. 可视化配置本质2. 功能支持3. 图表支持5. 仪表板-Dashboard1. 图表联动2. 全局控制器3. 数据钻取6. 大屏-Display1 区别原创声明：本创作是本人的原创内

2022-03-15 10:36:24 5817 1

原创 Flink实践——CDC（一）

Flink CDC实践（一）Refer详细步骤开启MySQL BinLogIDEA Flink ProjectPOMIDEA问题解决基本功能示例基本功能示例Refer遵循历史，依然要感谢各位在网上的输出！Flink CDC实时获取MySQL数据详细步骤开启MySQL BinLog首先要明确的是是否需要开启BinLog，如果在正式环境上，一般不用自己开启，运维侧一般为了恢复数据等恢复策略已经开启了BinLog哈，我这里的操作仅支持个人测试使用哦！Linux：更改my.cnf文件Wi

2021-12-16 18:19:33 1133

原创 Linux 安装Redis

Linux 安装Redis背景Refer具体步骤基础准备安装过程背景记录一下自己的安装过程，整理一些问题以备后用Refer还是一样，挂出该篇中引用或查看到的各位大神的文章，感谢！https://www.jb51.net/article/79096.htmhttp://www.redis.cn/download.htmlhttps://blog.csdn.net/Justinboy/article/details/109772377具体步骤基础准备Redis-Linux安装包

2021-12-02 11:16:16 102

原创 Linux 安装Anaconda

Linux安装Anaconda背景Refer具体步骤基础准备安装过程背景记录一下自己的安装过程，整理一些问题以备后用Refer还是一样，挂出该篇中引用或查看到的各位大神的文章，感谢！具体步骤基础准备Anaconda安装包Anaconda官方安装文档安装过程执行安装包sh Anaconda3-2021.05-Linux-x86_64.sh用户协议（yes，DDDD）选择安装路径（默认路径已经给出了，建议改一个哈，另外不用提前创建文件夹，有了反而会退出安装。

2021-11-01 15:37:40 353

原创 Datart使用说明

跑象团队新发布的开源平台 Datart安装问题记录

2021-10-26 09:27:13 5914 1

原创 Davinci使用说明

Davinci使用说明文档背景Refer功能详解用户能力用户注册用户权限组织能力编辑项目信息编辑成员信息编辑角色信息编辑组织信息编辑用户能力基础使用顺序数据源-SourceJDBCCSV数据视图-View编辑变量可视化组件-Widget数据配置可视化样式其他配置组件配置仪表板-Dashboard分享联动控制器大屏-Display定时任务-Schedule背景针对目前Davinci的基础能力进行归纳和整理，针对过往的能力不支持部分进行整理满足，此外参考用户手册进行文档整理。建议先仔细研读官方用户手册而后

2021-10-09 11:35:39 4649 9

原创 SuperSet安装及问题

SuperSet安装及问题SuperSet 安装环境基础环境配置SuperSet 安装环境在这里我使用的是如下的配置进行的安装：Windows 10Anaconda 4.10.1（虚拟环境使用的是Python 3.7.11）NodeJS 14.17.5其他组件（包括sasl,Twisted,wordcloud）PycharmSuperSet基础环境配置首先要保障基础能力的完整性，具体下载和安装在这里暂且不谈（若首次使用Anaconda，会出现一些Windows无法兼容的问题，比如不显

2021-10-09 10:51:59 242

原创 windows配置Spark连接远程集群

Windows配置Spark连接远程集群本地Spark环境python findsparkSpark代码配置本地Spark环境在使用Spark连接远程集群的过程中要依赖本地的Spark环境，也就是在Windows本地需要有Spark，我这里使用的是2.4的windows spark，如果使用的是CDH配置的Hive集群，那么记得要选择CDH可关联使用的Spark版本由于需要连接到集群上的Spark环境，我们需要本地拥有线上的hdfs-site.xml放在本地的Spark目录中的conf文件夹中，CD

2021-10-08 18:21:56 1267

原创数据仓库面试题整理（一）

面试题整理数据仓库基础范式建模和维度建模主题域划分数据仓库分层优点事实表分类缓慢变化维数据输出SLAHive基础Hive Join类型Hive Map和Reduce个数常见Hive SQL面试题连续登陆N日留存共同好友数据仓库基础范式建模和维度建模1.范式建模2.维度建模主题域划分1.主题域和业务过程2.主题域和主题数据仓库分层优点数仓分层优点：1.解耦数据开发过程，专人专事，降低出问题的风险的同时方便问题定位。2.用空间换时间，用多人多步操作换取使用数据的高效性。3.数据流向规范，

2021-07-25 14:19:02 1557 2

原创数据仓库知识整理（三）

1.背景归纳整理数据仓库的基础知识，了解数据仓库的全貌和可深入学习的部分，本章节会主要梳理Hadoop&Hive&Spark，末尾链接会梳理离线/实时数仓部分技术能力（持续更新，如果我坚持下去了的话，哈哈哈）。其中部分话术来源于网络，会在统一位置进行标注引用，感谢大家在网络上的分享！2.数据仓库知识整理2.1 文章引用2.2 Hadoop2.3Hive2.4Spark...

2021-06-08 16:01:28 469

原创数据仓库知识整理（一）

1.背景归纳整理数据仓库的基础知识，了解数据仓库的全貌和可深入学习的部分。其中部分话术来源于网络，会在统一位置进行标注引用，感谢大家在网络上的分享！2.数据仓库知识整理2.1 文章引用 2.2 数仓建设必要性数据仓库的建设自下而上是为了解决BI等技术人员更方便快捷的获取数据，自上而下是为了帮助决策人员更好地了解业务进度、成果，并制定策略。2.3名词解析及图例2.4...

2021-05-31 21:19:50 535

原创指标体系建设

1.背景结合业务场景将多个不同指标和维度进行组合，从而针对某一真实业务场景进行数据分析和决策导向，并能在整体业务变化中发现和定位问题。2.概念理解与示例分析2.1 指标体系指标体系名称分类解析作用/示例指标结果型指标时机：动作发生后监控数据异常过程型指标时机：动作发生中可以通过运营策略影响过程指标体系（维度）定性维度文字类描述城市，性别，职业定量维度数值类...

2020-09-03 18:06:00 1836

原创 Hadoop权威指南复读（一）

最近又重新回读权威指南，感觉曾经都只是浅显的略过，可能确实是学的多了就会看到事物不一样的那一面哈……所以这一遍正确记录下来一些心得和所学吧，也会在记录的同时查看很多前人的笔记，所以还是要感谢各位在网络上的分享！一.摘要及重要信息记录 1.数据集： Amazon Web Services Infochimps.org 美国国家气...

2020-06-21 16:28:17 174

原创 WaterDrop整体安装流程总结

最近在学习WaterDrop的工作流程和代码逻辑，首先先得把环境搭起来啊，我所有的内容都搭建的单机版，先把项目启动起来了，记录在这里以备后用。 WaterDrop官网：https://interestinglab.github.io/waterdrop/#/zh-cn/v2/ 版本选择： waterdrop-dist-2.0.0-p...

2020-06-21 15:31:32 3626

原创 Flink安装流程及问题

最近在虚拟机上部署很多的环境，但是由于很多都想用新版本一些的，所以遇到了很多问题，在这里记录一下。我下载的版本是flink-1.10.0-bin-scala_2.12.tgz，网址为https://flink.apache.org/downloads.html，流程如下当然可以根据需要更改版本，不过可能不太适合这篇文章的错误和排错方式，这点要注意。 ...

2020-04-29 15:03:34 868

原创 Mysql 错误记录

最近在虚拟机上安装MySQL时出现了很多问题，也是因为我选择的版本是8.0.x的原因，所以记录一下错误信息和问题解决以供再出现该问题时有迹可循。当然也是参考了很多网友的博客和文章，感谢各位曾经解决了我的问题！ 1.Connect Error: SQLSTATE[HY000] [2054] Server sent charset unknown to the client....

2020-04-20 15:33:51 713

原创 React+Ant Design Pro初学

最近因为工作原因看了一些前端框架的知识，之前没太接触过这方面的内容，所以有点凌乱，梳理一下写篇文章记录一下，文中的很多链接都是直接导向对应位置的，挺适合初学者，我引用了定义，但是括号里也写了一些自己的理解，应该没事哈。希望自己能多学习多实践，感谢各位在网络上的各种提问，回答，总结！菜鸟教程：https://www.runoob.com/react/react-tut...

2020-04-13 10:16:20 2362

原创 Hive数据连接及合并

最近有重新回看了《Hadoop权威指南》，又想起来总结一些博文了，所以针对Hive常Hive数据连接及合并又仔细查了很多资料，写了这篇文章，还是一样，感谢各位在网络上的分享！！！一.Hive连接： Hive中的join只支持等值join，在join on中的on后的连接条件只能是“=”，不能是“<”或“>”等符号。并且，on中的等值连接只能是and，不能是...

2020-03-30 12:00:13 4835

原创 Hive常用函数和性能调优

最近有重新回看了《Hadoop权威指南》，又想起来总结一些博文了，所以针对Hive常用函数和性能调优又仔细查了很多资料，写了这篇文章，还是一样，感谢各位在网络上的分享！！！博客分享： https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 一.Hive常用函数...

2020-03-29 15:57:08 925

原创 JAVA回顾复习（一）

redis集群模式：伪分布式客户端分片（自己定义分片规则，使得key分区域存储）哨兵模式：存在选举时间集群模式：也存在slave节点到master节点的过程，但是由于分槽存储，所以只是某一块槽内无法使用集群中更改一个配置文件，就相当于是更改为一个不同的节点更改方式： daemonize：后台模式...

2020-03-29 15:36:29 152

原创 JAVA关联学习（一）

本着关联学习（问题关联什么学习什么）的原则，这一篇讲的是Redis。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！博客分享： https://www.jianshu.com/p/65765dd10671 https://blog.csdn.net/u011692780/article/details/81213010 ...

2019-12-28 12:20:46 461

原创 JAVA基础复习（九）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的JUC。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！ blog推荐： https://blog.csdn.net/weixin_44460333/article/details/86770169 https://www.cnblogs.com/aobing/p/1...

2019-12-20 15:42:33 157

原创 JAVA基础复习（八）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的ReentrantLock。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！就像上一篇说的，这一块知识薄弱，终究还是要攻克的。看了视频，也看了文章，学习到了ReentrantLock相关的真的很好的东西，我不知道b站上的那位up是不是本家，就不放视频课的链接了，毕竟还是要在b站学编程的...

2019-12-14 21:00:57 144

原创 JAVA基础复习（七）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的多线程。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！ mark一下：https://www.cnblogs.com/television/p/9462214.html（非常清晰，每个问题都很精髓，得弄懂）多线程这一块一直是我比较薄弱的，也是强行拿出来写一些东西，为了能够巩...

2019-12-10 22:23:51 160

原创 JAVA基础复习（六）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的特性。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！在正式开始JAVA的特性之前，再来回顾一下OOP，上篇学习了AOP面向切面编程，OOP则是面向对象编程。面向对象实际上就是把所有事物都看做是对象的这种思想。面向对象比之面向过程更容易维护，并且代码可复用也更容易拓展，但是性能会比面向...

2019-12-07 22:19:48 120

原创 JAVA基础复习（五）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的Spring框架。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！感谢：https://me.csdn.net/nrsc272420199 https://blog.csdn.net/changudeng1992/article/details/80625...

2019-12-04 21:47:29 238

原创 JAVA基础复习（四）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的反射。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！根据之前学习的泛型引出了JAVA的另一个高级特性——反射。JAVA反射机制即是在运行状态中，对于任意一个实体类，都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意方法和属性；这种动态获取信息以及动态调用对象方法的...

2019-12-01 21:18:15 154

原创 JAVA基础复习（三）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的泛型。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！上一篇中复习了很多集合类，现在回想起来还都是各种<E>，而这些<E>体现的正是JAVA中的泛型的思想。它接收很多可能被参数化的类型，而不是强制使用某一种类型，将类型的具体定义放在具体实现时，如创建对象，接受返...

2019-11-30 22:45:36 112

原创 JAVA基础复习（二）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的集合类。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！针对集合类，其实平时接触最多的应该就是根据不同的应用场景使用的各种各样功能强大的List或者Map，今天来总结一下，深入调查一下其中的区别和关联。这张图是很详尽的一张关系网络，可以先从这张图入手。我首先从左上角的I...

2019-11-27 22:36:47 117

原创 JAVA基础复习（一）

本着重新学习（看到什么复习什么）的原则，这一篇讲的是JAVA的封箱和拆箱。看了诸位大神的解释后详细的查了一些东西，记录下来，也感谢各位在网络上的分享！！！参考链接如下：https://www.cnblogs.com/vilionzhan/p/8552067.html https://www.cnblogs.com/xi...

2019-11-20 21:48:14 196

原创基于阿里云数加构建企业级数据分析平台——个人笔记

基于阿里云数加构建企业级数据分析平台注：本文有小部分来自于阿里云大学教学文档中，有兴趣的可以直接进行学习。1.数加：误以为数加是云服务阿里云大数据品牌名，包含不同大数据服务阿里云一站式数据开发，分析，数据处理应用平台2.数据分析：（数据量大，数据价值密度低，所以需要提炼）基于商业目的，有目的的进行收集，整理，加工...

2019-01-24 14:07:34 1503

原创机器学习PAI实现精细化营销——个人笔记

机器学习PAI实现精细化营销1.精细化营销的目标用户就是有需求的用户，精细化营销不是私人定制(移动套餐)：低成本高收益2.聚类没有参考物，分类有参考物3.精细化营销的数据处理过程：商业理解：业务理解，需求理解，目标确认，什么流程，什么方案数据理解：数据分布，数据来源，覆盖业务，数据质量数据预处理：解决脏数据，错误数据问题，把数据标准化规范化，提高数据质量 ...

2019-01-24 13:59:41 557

原创 Quick BI企业报表制作——个人笔记

Quick BI企业报表制作1.报表：用表格、图表等格式来显示数据。常见的报表格式有数字报表、图表等。报表是商业智能(BI)的基础应用。图表：通过数据展现，清晰读取精确数字，从数字得到图像不如图形化报表图形化报表：通过图形的方式将数据的特点展现，精确数字不如图表2.数据可视化：是将相对复杂的数据通过可视的、交互的方式进行展示，从而形象、直观的表达数据蕴含的信息和规律原...

2019-01-24 13:56:56 1778

原创 MOOC网络日志分析——个人笔记

MOOC网络日志分析1.常见的服务器容器：Tomcat，Apache，Nginx2.程序日志是用户在程序中自定义构建的，故没有通用性 PV(page view)：即页面浏览量,或点击量;UV(独立访客)：即Unique Visitor,访问您网站的一台电脑客户端为一个访客。 IP(独立IP)：指独立IP数。3.PV约等于UV：用户在访问网站时，点击次数并不多，网站不吸引人...

2019-01-24 13:47:03 529

Docker for Windows安装包

空空如也