MnerX-CSDN博客

原创算法复杂度

前言算法很重要，但是一般情况下做移动开发并不经常用到，所以很多同学早就将算法打了个大礼包送还给了老师了，况且很多同学并没有学习过算法。这个系列就让对算法头疼的同学能快速的掌握基本的算法。过年放假阶段玩了会游戏NBA2K17的生涯模式，没有比赛的日子也都是训练，而且这些训练都是自发的，没有人逼你，从早上练到晚上，属性也不涨，但是如果日积月累，不训练和训练的人的属性值就会产生较大差距。这个突然让我意识到了现实世界，要想成为一个球星（技术大牛）那就需要日积月累的刻意训练，索性放下游戏，接着写文章吧。1.算法

2021-07-02 14:46:35 382

原创 Flume sink hive Flume对接Hive（Sink）遇到的坑，以及最终放弃hive选用hdfs。欢迎讨论指点

项目中打算使用Flume把数据直接传到Hive表而不是HDFS上，使用Hive作为Sink，Flume版本为1.9.0。前期启动遇到各种报错：NoClassDefFoundError: org/apache/hadoop/hive/ql/session/SessionStateNoClassDefFoundError: org/apache/hadoop/hive/cli/CliSessionStateNoClassDefFoundError: org/apache/hadoop/hive/

2021-03-18 18:59:58 697

原创 Flume HDFS Sink配置详解以及影响hdfs文件关闭的优先级

Flume HDFS Sink配置详解Name Default Description channel – type – 组件的名称，必须为：HDFS hdfs.path – HDFS目录路径，例如：hdfs://namenode/flume/webdata/ hdfs.filePrefix FlumeData HDFS目录中，由Flume创建的文件前缀。 hdfs.fileSuffix – .

2021-03-09 16:55:08 771 2

原创 Linux 一条命令杀死占用端口的所有进程

方法一Linux网络编程的实验中遇到了开启server后用CTRL+C退出但是端口仍被server占用的情况，首先可以用lsof查看占用端口的进程号 lsof -i:端口号然后kill掉占用进程，就可以再次启动server了 kill -9 进程号当然上述还是有些麻烦，因此可以用以下一条命令替代： sudo kill -9 $(lsof -i:端口号 -t)方法二port=8030# 根据端口号去查询对应的PIDpid = $(netst...

2021-03-09 15:49:09 1987

原创本地Spark连接服务器hive测试HADOOP_HOME and hadoop.home.dir are unset 报错处理

一般是windows才会出现这个问题请看下面的解决方案：第一步：下载winutils-master.zip蓝奏云：https://www.lanzous.com/i55ccnc如果你安装的hadoop版本是：3.1.2或者3.2.0 就用winutils-master里面的hadoop-3.0.0配置环境变量吧！第二步：配置环境变量1，新建系统变量2，编辑path变量第三步：重启idea或者eclipse，如果还是报错，请重启电脑试试！...

2020-12-11 10:42:27 1299

原创数据结构与算法之美（02）如何抓住重点，系统高效地学习数据结构与算法？

什么是数据结构？什么是算法？大部分数据结构和算法教材，在开篇都会给这两个概念下一个明确的定义。但是，这些定义都很抽象，对理解这两个概念并没有实质性的帮助，反倒会让你陷入死抠定义的误区。毕竟，我们现在学习，并不是为了考试，所以，概念背得再牢，不会用也就没什么用。虽然我们说没必要深挖严格的定义，但是这并不等于不需要理解概念。下面就从广义和狭义两个层面，来帮你理解数据结构与算法这两个概念。从广义上讲，数据结构就是指一组数据的存储结构。算法就是操作数据的一组方法。图书馆储藏书籍你肯定见过吧？为了.

2020-10-19 16:11:46 236

原创数据结构与算法之美（01）为什么要学习数据结构和算法？

你是不是觉得数据结构和算法，跟操作系统、计算机网络一样，是脱离实际工作的知识？可能除了面试，这辈子也用不着？尽管计算机相关专业的同学在大学都学过这门课程，甚至很多培训机构也会培训这方面的知识，但是据我了解，很多程序员对数据结构和算法依旧一窍不通。还有一些人也只听说过数组、链表、快排这些最最基本的数据结构和算法，稍微复杂一点的就完全没概念。当然，也有很多人说，自己实际工作中根本用不到数据结构和算法。所以，就算不懂这块知识，只要 Java API、开发框架用得熟练，照样可以把代码写得“飞”起来。事实真的

2020-10-19 15:47:29 806

原创【数据结构与算法】常见数据结构及基本操作

数据结构及基本操作1.数据结构与算法常见概念： 2.数据结构： 2.1线性结构：基本概念数组字符串队列栈链表 2.2树形结构基本概念二叉树的递归遍历二叉树的非递归遍历 2.3图形结构 2.4集合结构 3.资源链接总结《大话数据结构》和《C++Primer》，文后附《大话数据结构》和《C++Primer》第五版下载链接，本文相关代码均由C++编写。1.数据结构与算法常见概念：数据：是..

2020-09-03 16:19:53 1122

原创数据结构之算法——递归

递归，其实就是函数调用其本身来实现某些算法。在非必要情况下，尽可能不用递归，而是使用迭代来进行处理。即，使用for、while、foreach等循环来取代递归。迭代使用的是循环结构，递归使用的是选择结构。每个递归定义必须至少有一个条件，当满足条件时递归不再进行。递归的优点：结构更清晰，代码更简洁，更容易让人理解，从而减少代码的阅读时间。下面是两个经典的问题，一个经典的汉诺塔问题，是递归入门的基础，一个八皇后问题，一般是回溯算法的经...

2020-09-02 17:49:35 532

原创 Hive之——Hive SQL优化

一、Hive优化目标在有限的资源下，提高执行效率二、Hive执行HQL——> Job——> Map/Reduce三、执行计划查看执行计划explain [extended] hql四、Hive表优化1、分区静态分区动态分区 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; 2、分桶 set ..

2020-08-30 12:38:39 197

原创 hive的map join

Hive的map join 什么是Map Join?MapJoin顾名思义，就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。Map Join的原理？即在map 端进行join，其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。通常情况下，要连接的各个表里面的数据会分布在不同的Map中进行处理。即同一个Key对应的Value可能存在不同的Map中。这样.

2020-08-30 12:07:24 303

原创缓存雪崩和缓存穿透等问题

缓存雪崩　　缓存雪崩是由于原有缓存失效(过期)，新缓存未到期间。所有请求都去查询数据库，而对数据库CPU和内存造成巨大压力，严重的会造成数据库宕机。从而形成一系列连锁反应，造成整个系统崩溃。　　1. 碰到这种情况，一般并发量不是特别多的时候，使用最多的解决方案是加锁排队。 public object GetProductListNew() { const int cacheTime = 30; co...

2020-08-23 22:41:34 104

原创数据仓库之维度建模

概述数据仓库包含的内容很多，它可以包括架构、建模和方法论。对应到具体工作中的话，它可以包含下面的这些内容：以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法，如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大，在数据仓库体系中，数据模型的核心地位是不可替代的。因此，下面的将详细地阐述数据建模中的典型代表：维度建模，对它的的相关理论以及实际使用做深入的分析。文章结构本文将按照下面的顺序进行阐述：

2020-08-23 16:59:49 512

原创理解数据仓库中星型模型和雪花模型

在数据仓库的建设中，一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。（一）星型模型图示如下：星型模是一种多维的数据关系，它由一个事实表和一组维表组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理，将多个维度集合到一个事实表，形成一个宽表。这也是我们在使用hive时，经常会看到一些大宽表的原因，大宽表一般都是事实表，包含了维度关联的主键和一些度量信息，而维度表则是事实表里面维度的具体信息，使用时候一般通过join来

2020-08-23 16:57:50 499 1

原创快速排序~快排~~~

原理: 快速排序,说白了就是给基准数据找其正确索引位置的过程. 如下图所示,假设最开始的基准数据为数组第一个元素23,则首先用一个临时变量去存储基准数据,即tmp=23;然后分别从数组的两端扫描数组，设两个指示标志:low指向起始位置，high指向末尾. 首先从后半部分开始，如果扫描到的值大于基准数据就让high减1,如果发现有元素比该基准数据的值小(如上图中18<=tmp)，就将high位置的值赋值给low位置,结果如下:然后开始从前往后扫描,如果扫描到的值小于基准数据就让l.

2020-08-23 14:40:04 128

原创 SSH免密互信

第一种方法：1.⽣成密码对 ssh-keygen 2.copy到远程机器 ssh-copy-id -i ~/.ssh/id_rsa.pub root@host 3.登录 ssh host 第⼆种⽅法1. 关闭防⽕墙和SELinux /sbin/service iptables stop 该命令可以关闭防⽕墙，但是当重启后，防⽕墙会重新开启，输⼊下⾯的命令，让防⽕墙在重启后也不会开启。 chkconfig --level 35 iptabl..

2020-08-06 15:22:43 241

转载 docker简介和linux下安装（完整）

官网的简介如下：《docker中文》，大家更详细的，可以参看官网，当然中文的翻译，也是2017年的版本了，英文好的同学，可以直接观看国外的官网《英文官网》，不好的~可以对照着中文，互看~概述Docker 是世界领先的软件容器平台。开发人员利用 Docker 可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用 Docker 可以在隔离容器中并行运行和管理应用，获得更好的计算密度。企业利用 Docker 可以构建敏捷的软件交付管道，以更快的速度、更高的安全性和可靠的信誉为 Linux 和

2020-08-03 16:05:13 696

原创生成Hive数据字典（一目了然，史上最全）

生产中Hive的元数据存储在MySQL中，构建数据字典我们可以通过查询元数据表，导出查询结果后生成自己想要的文档。下面我会一步一步介绍如何生成markdown格式的数据字典文档。定义SQL首先废话不多说，贴出我们需要的在MySQL中使用的SQL。SELECT a. NAME as SCHEMA_NAME,-- 数据库名称 t.TBL_NAME as TABLE_NAME,-- 表名 b.PARAM_VALUE as TABLE_COMMENT,-- 表注释...

2020-07-24 11:42:26 1500

原创 Hive学习之路（三）Hive元数据信息对应MySQL数据库表

目录概述一、存储Hive版本的元数据表（VERSION）二、Hive数据库相关的元数据表（DBS、DATABASE_PARAMS） 1、DBS 2、DATABASE_PARAMS 三、Hive表和视图相关的元数据表 1、TBLS 2、TABLE_PARAMS 3、TBL_PRIVS 四、Hive文件存储信息相关的元数据表 1、SDS 2、SD_PARAMS 3、SERDES 4、SERDE_PARAMS 五、Hive表字段相关的元数据表 ...

2020-07-24 11:28:28 211

转载 MySQL数据库面试题（2020最新版、最完整版）

这篇文章写得非常不错~~~https://blog.csdn.net/ThinkWon/article/details/104778621?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendHotData-27.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendHotData-27.nonecase...

2020-05-28 15:37:47 1230

原创 TOGAF架构学习总结

TOGAF架构学习总结-----以下只是学习TOGAF的个人总结和转抄、转载汇总并非完全自创作于一个架构师尤其是企业架构师来说，丰富的理论知识可以帮助他在架构规划及管理过程中站在更高的角度去看待问题，历史发展原因有很多已成体系的架构理论，TOGAF是近年来比较接地气的，受到了政府和银行业的重视，本文是基于TOGAF培训机构所出培训材料的总结，对自己一个整理，给大家一个交流分享的“抓手”。还是那句话，把书看薄再看厚，再复杂的理论也可以用一张图来呈现。文章下面内容即回答关于TOGAF...

2020-05-26 18:15:05 4428

原创 kafka架构内部细节剖析

说明：kafka支持消息持久化，消费端为拉模型来拉取数据，消费状态和订阅关系有客户端负责维护，消息消费完后，不会立即删除，会保留历史消息。因此支持多订阅时，消息只会存储一份就可以了。Broker：kafka集群中包含一个或者多个服务实例，这种服务实例被称为BrokerTopic：每条发布到kafka集群的消息都有一个类别，这个类别就叫做TopicPartition：Partition是一个物理上的概念，每个Topic包含一个或者多个Partitionsegment：一个parti...

2020-05-22 11:30:10 160

原创 Kafka中消息队列的两种模式

消息队列包括两种模式，点对点模式（point to point， queue）和发布/订阅模式（publish/subscribe，topic）1、点对点模式点对点模式下包括三个角色：消息队列发送者 (生产者)接收者（消费者）消息发送者生产消息发送到queue中，然后消息接收者从queue中取出并且消费消息。消息被消费以后，queue中不再有存储，所以消息接收者不可能消费到已经被消费的消息。点对点模式特点：每个消息只有一个接收者（Consumer）(即一旦被消费，消息就

2020-05-21 17:02:31 3056 2

原创消息队列的应用场景

消息队列在实际应用中包括如下四个场景：应用耦合：多应用间通过消息队列对同一消息进行处理，避免调用接口失败导致整个过程失败；异步处理：多应用对消息队列中同一消息进行处理，应用间并发处理消息，相比串行处理，减少处理时间；限流削峰：广泛应用于秒杀或抢购活动中，避免流量过大导致应用系统挂掉的情况；消息驱动的系统：系统分为消息队列、消息生产者、消息消费者，生产者负责产生消息，消费者(可能有多个)负责对消息进行处理；下面详细介绍上述四个场景以及消息队列如何在上述四个场景中使用：1 异步处理具

2020-05-21 14:24:38 605

原创常用的消息队列介绍以及对比

1、RabbitMQRabbitMQ2007年发布，是一个在AMQP(高级消息队列协议)基础上完成的，可复用的企业消息系统，是当前最主流的消息中间件之一。2、ActiveMQActiveMQ是由Apache出品，ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现。它非常快速，支持多种语言的客户端和协议，而且可以非常容易的嵌入到企业的应用环境中，并有许多高级功能3、RocketMQRocketMQ出自阿里公司的开源产品，用 Java 语言.

2020-05-21 12:51:58 536

原创利用Maven插件将依赖包、jar/war包及配置文件输出到指定目录（完整版）

写在前面最近遇到一个朋友遇到一个项目需要将maven的依赖包和配置文件分开打包然后用脚本执行程序。这样的好处在于可以随时修改配置文件内容及查看jar包。如果将所有打成一个jar包就会有个问题（例如：修改数据库连接位置需要重新打包这样就失去了使用配置文件的有优点）1. 使用maven-dependency-plugin 插件将依赖包导出到指定文件夹<build> <plugins> <plugin> <groupId>org

2020-05-14 11:45:08 988

原创 Hue中hiveSQL执行报错“list index out of range”

问题：在hue中执行HiveSQL报错日志报错：1.desktop_document2的is_trashed类型设置有问题。2.hue库里的django_content_type表少一个name字段。解决方法：1.修改desktop_document2的is_trashed字段2.django_content_type新添加一个name字段（下面图有误，是name字段不是names）。...

2020-05-12 10:02:35 987

原创 linux中shell变量$#,$@,$0,$1,$2的含义解释（最全版本）

linux中shell变量$#,$@,$0,$1,$2的含义解释:变量说明:$$Shell本身的PID（ProcessID）$!Shell最后运行的后台Process的PID$?最后运行的命令的结束代码（返回值）$-使用Set命令设定的Flag一览$*所有参数列表。如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出所有参数。$@所有参数列表。如"$@"用「"」括起来的情况、以"$1" "$2" … "$n" 的形式输出所有参数。$#...

2020-05-09 11:11:11 655

原创 Linux中Crontab 与超级用户特殊区别之环境变量（Crontab 定时执行shell脚本报错GSS initiate faild ）

情况说明： linux中执行shell脚本使用root用户执行没有问题，但是当使用Crontab定时调度时则会出现报错： GSS initiate faild解决方案：

2020-05-09 11:05:27 271

原创 Hadoop命令大全（完整版）

hdfs常用命令：第一部分：hdfs文件系统命令第一类：文件路径增删改查系列：hdfs dfs -mkdir dir 创建文件夹hdfs dfs -rmr dir 删除文件夹dirhdfs dfs -ls 查看目录文件信息hdfs dfs -lsr 递归查看文件目录信息hdfs dfs -stat path 返回指定路径的信息第二类：空间大小查看系列命...

2019-12-18 16:29:46 1034

原创 WIN 10 系统Alt + Tab 切换窗口卡顿问题结局方案

创建文本，编辑REGEDIT4[HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer]"AltTabSettings"=dword:00000001另存为***.reg（切记后缀reg）双击导入注册表。最后重启计算机。...

2019-12-01 20:23:54 8750 4

原创 Hive动态分区

一）hive中支持两种类型的分区：静态分区SP（static partition）动态分区DP（dynamic partition）静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断。详细来说，静态分区的列实在编译时期，通过用户传递来决定的；动态分区只有在SQL执行时才能决定。二）实战演示如何在hive中使用动态分区1、创建一张分区表，包含两个...

2019-11-27 16:44:33 1055

原创 Git Bash提交代码避免每次输入用户密码

使用Git提交代码遇到每次都需要输入用户名密码的情况，只要在本地生成一个认证文件即可免去输入。在%HOME%目录，一般是C:\users\Administrator。使用git bash命令:$touch .git-credentials$vim .git-credentials// 然后输入https://{username}:{password}@github.com然...

2019-11-25 16:03:06 580

原创成功解决Git Bash运行脚本命令下载文件到默认C盘路径的问题

解决问题解决Git Bash运行脚本命令下载文件到默认C盘路径的问题解决思路%homedrive% 指操作系统所在盘%homepath% 指\Documents and Settings\(user)--user指你的用户名。(1)、比如administrator，所以可知，%homepath%= \Documents and Settings\adminis...

2019-11-25 15:59:22 935

原创 IntelliJ IDEA中关于GIT问题处理Cannot Run Git File not found:git.exe

打开Intellij Idea 找不到git.exe，解决方法如下：1、首先要保证下载git客户端，下载地址为：https://git-scm.com/download/win如果装的是github的客户端，需要指定的目录是GitHub内部使用的PortableGit目录，或者在Intellij Settings -> Version Control直接配置GitHu...

2019-11-25 14:38:47 15322

原创【数据结构】各种数据结构的特点介绍

1、列表包括（1）数组【1】会在内存中开辟一个连续的内存空间【2】随机访问的效率比链表高。数组只要给定下标，则可以直接定位到该下标所对应的元素，而链表每次都是从头节点开始遍历。【3】对元素的增删操作的效率比链表低。这里说的是从数组的中间插入或删除一个元素，并且数组中元素很多，实验证明，在数组头部或结尾增加或删除一个元素的效率和链表差不多。为什么？比如，每次对数组中间某一个...

2019-10-24 13:06:24 1680

原创 Structured Streaming 和 Spark streaming的区别

我先简单的说一下Spark streaming，然后在想对比的说一下Structured StreamingSpark streaming的概述Spark Streaming是一个基于Spark Core之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理 Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍...

2019-09-09 20:42:00 5710 2

原创数据仓库---拉链表详解

定义：拉链表 - 维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。拉链表通常是对账户信息的历史变动进行处理保留的结果。需求：1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等;3. 需要查看某一个时间...

2019-09-05 21:45:57 1461

原创大数据的4代计算引擎

概述在如今数据爆炸的时代，企业的数据量与日俱增，大数据产品层出不穷。出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。大...

2019-09-03 21:04:14 1294

原创数据挖掘十大经典算法之 KNN算法

一、KNN算法概述　　邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classification)算法，它输入基于实例的学习（instance-based le...

2019-08-22 19:15:54 2921 2

mysql配置参数详解（优化参考）.docx

空空如也