自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 资源 (11)
  • 问答 (1)
  • 收藏
  • 关注

原创 数据架构——2024你有什么规划?

2024你有什么规划?

2024-02-20 23:38:15 1108

原创 大数据从入门到放弃——浅谈数据架构的前世今生

随着云时代的发展,大数据的使用变得越来越便捷,数据也变得越来越重要,你可以说一个企业暂时没有从数据中挖掘出价值,但是一个企业绝对不可能离开数据工作,大数据对于很多的人而言,终究像是一位神秘女神,一睹她芳泽的人把她传的神乎其神,导致最终的听者都觉得她无所不能,特别在最近很火的AI生成ChatGPT的带领下,仿佛数据已经是IT技术界的虚空黑洞,不仅可能吞噬一切,而且所有解释不了的东西,最终都可以从中得到答案,尽管博主也觉得ChatGPT 的充满潜力和希望,但是博主今天还是更想跟大家聊聊数据本身的发展规律……

2023-08-20 19:15:13 456

原创 亚马逊云科技——户外广告传媒行业数字化转型的摆渡者

本文就亚马逊云科技在IoT物联网、数据仓库、数据湖、数据可视化等方面的如何助力户外广告传媒行业数字化转型的问题上展开探讨。

2022-05-19 12:24:50 3251

原创 idea for mac 最全快捷键整理

最强IDEA关于Mac版本的常用快捷键

2022-05-06 11:03:10 1450

原创 Apache Flink从入门到放弃——快速上手(Java版)(二)

以经典的大数据word count统计为例,讲述传统Apache Flink DataSet API(批处理API)和新的流式DataStream API的两种Java代码的实现,从代码动手开始揭开Apache Flink的神秘面纱。

2022-05-04 00:27:11 1108

原创 Apache Flink从入门到放弃——Flink简介(一)

Apache Flink是一个分布式大数据计算引擎,可以对有界的数据和无界的数据进行有状态的计算,可部署在各种集群环境中,对各种大小数据规模进行快速计算,本章节主要介绍下Flink的历史和由来以及框架基础。............

2022-05-03 13:12:20 6199 1

原创 飞算(SoFlu)软件机器人——人人都是全栈架构师

 SoFlu(飞算)软件机器人是全球首款面向微服务架构设计和最佳实践的软件项目开发智能平台,平台以Java为主要开发语言,包含(后端)全自动开平台、(前端)全自动开发平台、全自动测试平台、全自动运维平台的项目全栈解决方案;她全程参数化的配置填写,拖拉拽的界面设计使得一人就能全栈解决后端服务到前端开发,以及后续的测试部署,甚至机器资源的运维监控与服务,因为她的存在,人人都是全栈架构师。

2022-04-26 00:25:56 6524 2

原创 JavaSE基础——异常机制

曾有人说过:“一个程序项目内30%的代码就能实现功能,剩下70%的代码都在检查异常、增加约束……”本文就总结下Java的异常机制。

2022-04-16 00:54:47 552

原创 Java面向对象程序的执行顺序及内存分析

Java面向对象程序的执行顺序及数据在内存中的状态变化是怎么样的呢?本文就带你领略一番。

2022-04-13 00:23:12 525

原创 brew结合iTerm2花式玩转MacOS软件管理的终端指令

为什么你的Mac终端能语法高亮、高端智能提示、风骚的指定风格、有趣的fuck插件(shell指令报错怎么办?fuck一下!),还有张陌上人如玉,公子世无双的嵩嵩(老婆最爱)的背景板等等,因为我利用国内镜像安装brew,结合iTerm2花式玩转MacOS的软件管理呀,想学呀?我教你呀!

2022-03-29 00:50:51 2415

原创 Linux基础篇——ftp的安装与配置

为啥ftp?安装ftp主要是还为了传输文件,但是我有一台服务器或者计算机,直接登录进去获取文件不行吗?为啥还要多此一举用ftp呢?原因是用ftp的话,它的会话是持久的,只有一次认证过程,传输多个文件都是使用同一个连接。因为 ftp 就是为远程文件交互而设计的,更适;而且有些时候只是为了单纯让你做一个文件传输,运维未必会给你一台服务器,这个时候往往只是给你搭建ftp服务。

2022-03-28 00:09:14 17953 14

原创 大数据之路之Linux篇

为什么要学习Linux1. 工作需要,从事IT工作或多或少都要设计Linux;2. 迟早老子会有钱,要买一台苹果Mac坐在星巴克追剧,那你会发现,Mac的命令行模式竟然和Linux惊人的相识,我每次用到Mac命令行操作都是直接网上直接copy的,不知道啥意思,这是我一个做设计的朋友跟我吐槽的,嘿嘿,就怕哪天你copy了个`rm -rf *`3.每次看美国大片,发现那些电脑高手都在一个黑框框里啪啦啪啦的敲键盘,他们在敲啥呢?想不想成为他们一样的高手?

2022-03-27 14:13:34 5359

原创 Linux基础篇——Linux进程、服务管理

程序(program)、进程(process)、守护进程(daemon)与服务(service)的之间是什么关系?简直一个头两个大,服务器之间的各个进程、服务又是怎么管理的呢?本篇文章,带你走进Linux进程(process)和服务(service)的世界。

2022-03-11 19:23:21 3406

原创 项目实战——参数配置化Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch(Java版本)

如何优雅的将Hive的数据写入ES,每次新增一张表是否新增一个配置文件就能实现呢?当然可以,本篇文章就带你走进这个优雅的ETL Jar包;

2022-03-03 17:49:41 3197

原创 Linux基础篇——Linux运行级别及找回root密码

离职的前辈把root密码也带走了,或者自己root密码忘记了,咋办?这篇文章就带你玩点刺激的,毕竟人生来就喜欢偷窥秘密。

2022-02-08 18:48:09 3448

原创 Linux基础篇——Linux网络配置(配置网卡、固定IP,固定hostname,终端远程)详解

你是在玩单机吗?对于现在而言,这句话无疑是略带嘲讽的含义,也恰恰证明了网络的重要性,那么计算机里面的网络是怎么分布的呢,为啥你能上网呢,Linux系统需要需要进行哪些网络配置呢,这里就给大家简单介绍下;

2022-01-12 11:40:54 19267 3

原创 Apache Superset——开源的大数据探索分析、可视化报表平台

传统BI工具数据源太老?商用BI工具昂贵?云产品又技术壁垒?公司又没人力物力自研一款BI工具?那么你可以了解下Apache Superset,一款开源的大数据探索分析、可视化报表平台,支持丰富的数据库作为数据源,多姿多彩的图表可视化,非常好用。

2021-07-25 20:31:51 26144 13

原创 Metabase——开源的大数据分析探索、可视化报表神器

metabase是一款开源的简易但强大同时又无缝兼容大数据和传统数据库的分析工具,帮助公司每一个人对企业数据的学习挖掘,进而达到更好的数据化运营和决策。

2021-07-23 16:28:48 17551 8

原创 免费相对安全的远程控制软件

有了这些支持跨平台(Windows,Mac,Linux,IOS,Android)免费的白嫖远程控制软件,再也不用担心女朋友的电脑有问题了,再也不用担心在家远程办公不稳定了。

2021-06-20 15:08:28 6939 3

原创 Apache DolphinScheduler——开源大数据调度器神器

手把手教您玩转开源大数据调度器Apache DolphinScheduler安装维护与实践,学不会你来打我。

2021-06-11 19:20:00 8434 7

原创 Linux基础篇——Linux磁盘操作(磁盘基础知识、分类、分区、挂载、卸载、扩容)详解

目 录1.概 念1.概 念图1.1 分区的概念与好处  假如你有个大木桶要装东西,如果木桶没有划分层,所有东西全部放入里面,虽然可以装,但是对大木桶的使用就合不合理,造成杂乱无章,寻找东西时候也耗时,甚至还有不同物品之间不能存放在一起而导致危险,那更好的做法自然是给大木桶画一下不同的区域,分成不同的层,每个层放不同的东西,即安全,寻找起来也方便;  计算机的磁盘(也叫硬盘)也是如此,为了区分存储内容的不同,以及快速定位寻址文件,也需要采取分区的形式;...

2021-05-23 20:05:15 16772 50

原创 Linux通过anaconda来安装python

consumer.commitAsync(new OffsetCommitCallback() { @Override public void onComplete(Map<TopicPartition, OffsetAndMetadata> offsets, Exception exception) { if (exception != null) { System.out.println("Commit failed, offset =

2021-04-25 18:18:14 2719 3

原创 python执行sql server的insert 、update、delete未commit的坑

目 录1. 问题场景2. `import pymssql`代码案例3. `from sqlalchemy import create_engine`代码案列4.`pyspark` 操作sql server默认就是自动提交1. 问题场景  由于平时博主都是python操作mysql比较多,python处理sql server极为少见,但最近发现python在操作sql server的insert 、update、delete、truncate table等改变表数据内容的DML语句时,必须手动提交;这里

2021-04-23 18:45:08 2178

原创 SQL Server有则更新,无则插入操作之merge into

目 录1.场景2.实现1.场景  sql server假设目标表rpt.tbb_student被前端报表无缝链接,或被其它库订阅,则在更新表rpt.tbb_student就不能用全删全插的理念,这个时候就会有个思路有则更新,无则插入的增量理念;  sql server天生就自带这种语法merge into,有的人疑问了,那我直接写两段语句,一段update,一段insert不行吗?答案当然是可以的,只是这种做法相对于merge into效率较低,不够优化,因为这样的两段语句需要扫描表两次,时间复杂度

2021-04-21 10:34:29 1468

原创 用distcp实现ftp到hdfs、hdfs到hdfs、hdfs到ftp的文件传输

  文件本身存在ftp上,为了文件内的数据和数仓hive中的数据做分析,需要将ftp的数据上传 到hdfs,方法有很多,如果不是需要完全实时监控的话,可以采取hdfs自带的指令distcp抽取;   题外话:完全实时上传可以采取flume监控ftp文件件,再读取存入kafka,后续消费者消费kafka获取文件数据的方式,后续再讲,这节只讲distcp;1. 指令用法  distcp不仅可以实现hdfs集群1到hdfs集群2的文件传输,也可以实现ftp和hdfs之间的文件传输,只需要切换相应的协议头即

2021-04-10 12:51:05 1652 7

原创 花式玩转Linux集群免密登录

@[TO]1.言  大数据集群往往需要多台机器构成一个集群,集群内的这些机器往往需要能够互相免密登录,这里就总结下设置免密登录的常见做法;  重点:  1)需要集群内部的集群都有这个相同的用户;  2)免密登录是绑定用户的,当你设置了用户hadoop的免密登录后,你切换到另一个用户rowyet,如果rowyet本身配置是没有免密登录的话,那么rowyet并不能实现集群内部的免密登录,也需要配置;  结论:大数据集群上组件启动,最好需要用配置了免密登录账号启动较为稳妥,虽然有些组件设计容错性较高,

2021-04-05 18:10:28 1404 1

原创 如何写一篇沁人心脾的博客文档

文章目录1.缘起心态2.逻辑架构3.布局排版4.词藻讲究5.标识语言markdown6.大神都在用的小工具6.1 MarkDown免费编辑笔记本Typora6.2 在线作图工具`Process On`6.3 思维导图软件`幕布`6.4 markdown格式转微信公众号文章格式6.5 插入动态图片gif7.自审加她审8.发版1.缘起心态  做任何一件事,心态当然最重要啦,伟大的“哲学家”暗黑元首辛德拉曾经说过:“人们总是害怕那些他们不能理解的事物! ”,所以重要的是客服内心的恐惧,真正的高手向来都是包罗万

2021-04-01 00:07:10 247 1

原创 ElasticSearch中嵌套结构使用

文章目录1.需求2.ElasticSearch嵌套数据存储结构2.ElasticSearch嵌套数据写入2.ElasticSearch嵌套查询2.ElasticSearch嵌套Java API操作1.需求需求看板查看全国各省的城市,当选中江西省时,可以点进去查看江西省的各大城市;2.ElasticSearch嵌套数据存储结构  这个情况呢,可以存两个index,形成一对多的关系来查询;那这里说另一种结构,嵌套结构;  建表语句如下,citys_list就是一个嵌套结构,你可以认为citys_l

2021-03-09 11:59:44 654

原创 Kibana 7.7.1安装

文章目录1.版本配置2.官网下载3.安装3.1 解压,设置软链3.2 修改配置3.3 启动,查询端口、网页访问1.版本配置OS:CentOS7ElasticSearch:7.7.1Kibana:7.7.1   注意:ELK架构中elasticsearch,kibana必须版本一致,如果不一致请下载同一样的版本;2.官网下载    Download Kibana    如图2.1,找到自己相应的版本下载,注意,一定要和自己的elasticsearch的版本一致;下载选择tar包下载吧;下载

2021-03-02 20:34:25 710

原创 Apache Zeppelin支持Spark,Python的小试牛刀

版 本  Apache Zeppelin:0.9.0  Spark 2.3.3  关于Apache Zeppelin-0.9.0的安装以及配置Spark-2.3.3请参考博客Apache Zeppelin-0.9.0安装配置Spark-2.3.3,这里不再重复累赘;创建Note  打开zeppelin网页端口,登录后,可以通过图1菜单栏Notebook下拉或者直接点击页面的Create new note创建Note,Note就是你写代码的编辑窗口,然后弹出图2,按要求编辑好;图1 zeppe

2021-01-13 21:33:46 906

原创 Apache Zeppelin-0.9.0安装配置Spark-2.3.3

什么是Apache Zeppelin图1 Apache Zeppelin的功能  直接上官网图,Apache Zeppelin是一个支持20+种语言的多功能后端,说白了就是一个支持多种语言的开发集成环境,如你写spark一般用linux的spark-shell或者spark-sql,你写python你可能用pycharm,你写flink你可能用flink-shell等,等等,现在好了,有一款可以集成这些所有语言的即时查询环境,你觉得棒不棒?配置好了,用起来确实很香,物极必反,包含的多,坑也多,所以耐心

2021-01-13 20:20:38 1573

原创 ElasticSearch7.7.1安装分词器——ik分词器和hanlp分词器

背 景  之所以选择用ES,自然是看重了她的倒排所以,倒排索引又必然关联到分词的逻辑,此处就以中文分词为例以下说到的分词指的就是中文分词,ES本身默认的分词是将每个汉字逐个分开,具体如下,自然是很弱的,无法满足业务需求,那么就需要把那些优秀的分词器融入到ES中来,业界比较好的中文分词器排名如下,hanlp> ansj >结巴>ik>smart chinese analysis;   博主这里就选两种比较常用的讲解hanlp和ik ,hanlp在业界名声最响,ik是官方推荐和ES版

2020-12-25 19:59:57 3347 2

原创 ElasticSearch处理数据库里面的null值

背 景  博主有次在给ES导数的时候,将Hive内的一个字段导入ES内,一直报错说什么null值异常,一开始一脸懵逼,后面经过查阅了官网发现原来ES不支持null值;  其实我们想想原理也很简单,因为ES是根据他的field来做倒排索引,如果给的是个null值,你让怎么排呢对吧?全文索引:也叫倒排索引,将需要匹配搜索条件的一段词语根据分词器进行分词,分出的单个词语放到一个分词库中,并且标注这个词隶属于哪一个行目标数据id;于是客户端在搜索时,根据搜索内容也进行分词到分词库中去检索,然后找打匹配的内容

2020-12-14 11:22:37 1868

原创 Hive从入门到放弃——Hive与其他技术的结合之spark on hive(十七)

背 景  

2020-12-14 10:45:18 347

原创 Spark从入门到放弃——Spark2.4.7安装和启动(二)

Spark版本  Spark是Apache开源的顶级项目,官网地址,目前也一直不断更新迭代,截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.4.7,所以后续的教程都是以Spark2.4.7为主;   讲解版本:Spark2.4.7  工欲善其事,必先利其器!这里就讲解下Spark的安装与启动;安装准备  Spark从入门到放弃——初始Spark(一)说到,Spark只是计算框架,取代的是Ma

2020-12-14 00:57:24 2727 2

原创 Spark从入门到放弃——初识Spark(一)

Spark版本  Spark是Apache开源的顶级项目,官网地址,目前也一直不断更新迭代,截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.3.3,所以后续的教程都是以Spark2.3.3为主;   讲解版本:Spark2.3.3什么是Spark   Apache Spark is a fast and general-purpose cluster computing system.

2020-12-09 11:46:10 743 1

原创 ElasticSearch实现字符串既要分词查询又要字段整体排序(一个字段既要text也要keyword)

背 景  ElasticSearch常用的字符串类型有keyword和text,那keyword支持排序但是不支持分词,而text类型字段,ES默认分词且不会建立正排索引。即使设置"fielddata": true建立正排索引后,对该字段的排序依然有问题:ES不会以整个字段文本排序,而是选择分词后的一个字段进行排序。  而有的需求,我不但要字段支持分词,也要该字段整体能排序,而不是分词后的字段排序,如设置的标签字段tag_key,我希望别人搜索标签的时候能支持分词,同时我也希望搜出来的标签是有序的;实

2020-11-30 19:00:01 1888 3

原创 项目实战——Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch(Java版本)

目 录项目实战——将Hive表的数据直接导入ElasticSearch  此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)  此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!

2020-11-30 18:03:34 2274

原创 项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量(Java版本)

目 录项目实战——将Hive表的数据直接导入ElasticSearch  此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)  此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!

2020-10-24 22:54:31 871

原创 项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)

目 录项目实战——将Hive表的数据直接导入ElasticSearch  此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)  此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!

2020-10-24 21:31:12 2741 7

Apache Flink快速上手word count项目(Java版)

Apache Flink作为流式计算的佼佼者,如何快速入手一个Flink项目呢,本例就以经典的大数据word count统计为例,讲述传统Apache Flink DataSet API(批处理API)和新的流式DataStream API的两种实现,从代码动手开始揭开Apache Flink的神秘面纱,项目包含以下内容: 1. 环境准备和创建项目 1.1 软件准备及版本 1.2 IDEA下创建Java项目FlinkTutorial 2. DataSet API 批处理实现word count 3. DataStream API 流处理实现word count 3.1 有界的流处理 3.2 无界的流处理

2022-05-04

hive常见的优化方案ppt

涉及到Hive优化相关的一些常用技巧,当Hive出现数据倾斜时或者负载不均衡等情况,往往会出现耗久,甚至跑不出结果的尴尬场面,这个时候如果计算资源监控显示有没有完全饱和利用,就需要涉及到优化了;

2020-12-15

项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量(Java版本)

此篇文章主要选取关键性指标,数据校验数据源Hive和目标ES内的数据是否一致; 因为你不知道将Hive的数据导入到了ElasticSearch后,数据量是否准确,所以需要钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量,注意,这个项目打包后,最好另起一个进程调用,并且开始时间为文章1或者2最大预估的结束时间后的10分钟后调用,这样可以校验两种情形: 1.ETL项目被调度了,但是造成了数据异常,可以捕捉到; 2.ETL项目压根就没起来,即超时了,造成了数据异常,亦可被捕捉!

2020-10-24

项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)

项目实战:Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,数据较快。

2020-10-24

ElasticSearch常用查询的Java实现

ElasticSearch查询term,terms,match,id查询 ElasticSearch查询refix,fuzzy,wildcard,range,regexp查询 ElasticSearch查询scroll,delete-by-query,bool,boosting,filter,highlight查询 ElasticSearch查询cardinality,range,extended_stats聚合统计aggregations查询 ElasticSearch查询geo_distance,geo_bounding_box,geo_polygon地图检索geo查询 的Java实现

2020-10-12

elasticsearch-HQ.zip

ElasticHQ 是一个基于浏览器的直观和功能强大的 ElasticSearch 管理和监控工具,它提供了对 ElasticSearch 的实时监控、全集群管理、搜索和查询等功能。 ElasticHQ 主要优点如下: 能够实时监控ElasticSearch的集群和集群节点 能够管理索引、映射、分片、别名和节点 能够查询一个或多个索引 具有REST风格的API,无需繁琐的JSON的数据格式 完全基于Web浏览器,无需安装或者下载任何软件 针对手机、平板电脑和其他小屏幕的设备进行了优化 具有易于使用和吸引力的用户界面 免费

2020-08-21

城市GDP_总人口数据_清洗后(截至2019).xlsx

截至2019年中国各大城市GDP,人口数统计数据整理;数据来源于百度百科,国家统计局等公开数据,个别城市上报的比较慢,只能采用距离2019年更近的年份数据,作为城市GDP,人工的统计标签。

2020-07-20

数据库原理PPT课件.zip

共四章内容,适合数据库初学者,数据库PPT教学;分别为 第一章:关系代数 第二章:SQL语言 第三章:关系数据理论 第四章:数据库设计

2020-05-29

hive-2.3.5配置文件.rar

Hive的配置,选定一个Hive的master,其他的节点为slaves,master和slaves的配置略有不同,不是完全照搬,准确的来说,应该是只有一个节点是Hive的服务器节点负责和元数据库以及集群内部通信,其他的Hive节点其实是装的client,这些节点在访问元数据库时,先会内部跳转到Hive服务器的节点,该包命名成了hive-site_master.xml和hive-site_client.xml以区分,使用的时候请注意改回名字hive-site.xml。

2020-05-17

MobaXterm_Personal_1

一款免安装的远程terminal桌面管理软件,适合在windows平台访问linux服务器等功能,可以手动将windows文件拖入linux目录下,安全、方便;x-shell有的功能都有,而且免费!

2018-03-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除