温暖会追上来的.-CSDN博客

原创数据结构：面向对象+链表实现循环队列

LoopQueue.h#include<iostream>#include <cassert>using namespace std;//template<class T>//class SeqQueue;//template<class T>////ostream& operator<< (ostream& out, SeqQueue<T>& Q)//将友元函数声明在前可以避免其警告友

2021-07-22 20:51:30 156

MyQueue.h#pragma once#include <iostream>using namespace std;template<class T>struct Node { T data; Node<T>* next;};template<class T>class MyQueue {private: Node<T>* head;//头指针 int count;//队列元素数量public: MyQu

2021-07-22 20:49:16 143

原创数据结构：模板+面向对象实现STL栈，数组实现

MySatck.hpp模板的声明和实现最好不要分文件编写，会比较麻烦。何在一起写就是.hpp文件#pragma once#include <iostream>using namespace std;template<class T>class MyStack{public: //构造函数 MyStack(int capacity) { this->m_Capacity = capacity; this->m_Size = 0; pA

2021-07-22 20:45:49 162

原创 Mysql的常用命令（完整版），写到我窒息了！！！

1、连接Mysql格式： mysql -h主机地址 -u用户名－p用户密码1、连接到本机上的MYSQL。首先打开DOS窗口，然后进入目录mysql\bin，再键入命令mysql -u root -p，回车后提示你输密码.注意用户名前可以有空格也可以没有空格，但是密码前必须没有空格，否则让你重新输入密码。如果刚安装好MYSQL，超级用户root是没有密码的，故直接回车即可进入到...

2020-04-27 16:19:01 805 1

原创 SparkSQL基本操作----作业三

题目：编程实现利用DataFrame 读写MySQL 的数据在 MySQL 数据库中新建数据库sparktest，再创建表 employee，添加两条记录，如下图：配置Spark，通过JDBC连接数据库MySQL，编程实现利用 DataFrame 插入如下图所示的两行数据到 MySQL 中，最后打印出age的最大值和age 的总和。表 6- 3 employee...

2020-04-27 15:54:18 1231

原创 SparkSQL基本操作----作业二

题目：编程实现将 RDD 转换为 DataFrame 源文件内容如下（包含 id, name, age）：1, Ella, 36 2, Bob, 29 3, Jack, 29 请将数据复制保存到 Linux 系统中，命名为 employee.txt，实现从 RDD 转换得到 DataFrame，并按“ id: 1, name: Ella, ...

2020-04-27 15:47:23 1726 1

原创 SparkSQL基本操作----作业一

题目：Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee. json。 { "id": 1 , "name":" Ella" , "age": 36 } { "id": 2, "name":" Bob","age": 29 } { "id": 3 , "name":" Jack"," age": 29...

2020-04-27 15:44:26 6171

原创 sparkGraphX 图操作：aggregateMessages聚合计算每个节点与根节点的距离

这里是一些代码的详细解释，还有一个老师布置的章节作业（在他的代码上进行优化算法）先写一个简单代码解释一下aggregateMessages聚合的作用吧；这是intalliji中aggregateMessages的方法解释：注意一下参数的传入和结果的形式就可以很好的应用了。 def aggregateMessages[A](sendMsg : scala.Function1[...

2020-04-19 20:26:50 814

原创 sparkGraphX 图操作：pregel（加强的aggregateMessages）

目录1、Pregel API：2、代码实现：使用pregal实现找出源顶点到每个节点最小花费使用pregel实现找出源节点到每个节点的最大深度1、Pregel API：图本身就是内在的递归的数据结构，因为一个顶点的属性可能依赖于其neighbor，而neighbor的属性又依赖于他们的neighbour。所以很多重要的图算法都会迭代计算每个顶点的属性，直到达到一个稳定状态。...

2020-04-16 10:26:21 1063

原创 sparkGraphX 图操作：（joinVertices、outerJoinVerticies）

一、解释1、 joinVertices/outerJoinVerticies:有时候需要从外部的RDD中跟Graph做数据的连接操作。例如：外部的user属性想要跟现有的graph做一个合并，或者想把图的顶点的属性从一个图迁移到另一个图中。这些可以用join来完成。def joinVertices[U](table: RDD[(VertexId, U)])(map: (VertexI...

2020-04-15 10:35:47 781

原创 sparkGraphX 图操作：（subgraph 、groupEdges 、reverses）

目录一、解释1. subgraph：2.reverse:3. groupEdges:4.mask：二、代码综合实现：一、解释1. subgraph：方法的定义：def subgraph(epred: EdgeTriplet[VD, ED] => Boolean = (x => true),vpred: (Verte...

2020-04-15 10:32:14 1878

原创 hadoop的数据流的压缩和解压缩

CompressionCodec 有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩，我们可以使用 createOutputStream(OutputStreamout)方法创建一个 CompressionOutputStream，将其以压缩格式写入底层的流。相反，要想对从输入流读取而来的数据进行解压缩，则调用 createInputStream(InputS...

2020-04-15 10:21:18 322

原创 sparkGraphX 图操作：GranphX的map操作（mapVertices、mapEdges、mapTriplets）

GranphX的map操作：import org.apache.spark.graphx.{Edge, Graph, VertexId}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object MapGraphX { def main(args:...

2020-04-15 10:17:04 1663

原创完全分布式集群搭建Spark环境并运行“Hello World”

目录idea安装Spark之前一：windows端环境设置1：安装javaJDK1.82:环境设置2.1:环境变量3：安装scala2.11.12(注意不要安装最新或最高版本，视你的操作系统的Idea版本，否则会出现版本冲突）3.1下载安装2.11.12(百度一下，有N多下载地址）3.3系统变量设置4:安装MAVEN4.1安装maven3.6.1(不要...

2020-02-25 21:58:10 711

原创 Storm集群 Kafka Mysql实现词频统计

目录Spout包中：WordSpout：Bolt包中：WordCountBolt：WordSplitBolt：Topology包中：WoedTopology：Spout包中：WordSpout：package com.xnmzdx.storm.spout;import java.util.Map;import com.xnmzdx.st...

2019-10-24 10:00:21 409

原创 Eclipse-Java实现Storm的WordCount词频统计

目录Spout层Bolt层Topology层结果：文章中的所有内容不明白的可以查看前后文或者call博主；相关文章：Storm集群安装部署1——准备版Storm集群安装部署2——Centos6.5的默认python2.6.6版本升级到python2.7.15Storm集群安装部署3——在节点服务器上安装 Storm并启动StormStorm集群安装部署...

2019-09-21 15:47:24 1050 1

原创 Storm集群安装部署4——在Storm节点服务器上安装 nimBus和supervisor

目录1、在tools文件下上传apache-storm-x.x.x-incubating文件2、上传之后解压到/home/softwares下面；3、配置文件；4、进入conf更改设置文章中的所有内容不明白的可以查看前后文或者call博主；相关文章：Storm集群安装部署1——准备版Storm集群安装部署2——Centos6.5的默认python2.6.6版本升级到...

2019-09-21 15:07:55 474

原创 Storm集群上运行第一个“Hello World文件”

目录1、打开Eclipse创建一个Maven项目2、添加依赖3、创建目录；4、编写内容；5、启动安装好集群的三台Storm节点；6、三个节点都启动ZooKeeper；7、在主节点启动nimbus和ui8、在两个从节点启动supervisor9、将我们在eclipse创建的maven项目打jar包10、在三个节点的home下创建temp文件，存放storm处理...

2019-09-19 19:54:28 732 1

原创 Eclipse配置、创建Maven项目

目录一、Maven简介 1、什么是Maven? 2、什么是构建工具？ 3、Maven有什么用？二、Maven的安装1、本地安装三、Eclipse中配置Maven四、Eclipse创建Maven项目文章中的所有内容不明白的可以查看前后文或者call博主；相关文章：Storm集群安装部署1——准备版Storm集群安装部署2——Cento...

2019-09-19 19:13:01 356 1

原创 Storm集群安装部署3——在Storm节点服务器上安装 ZooKeeper并启动Zk

目录1、解压文件2、修改配置文件3、配置环境变量4、启动服务文章中的所有内容不明白的可以查看前后文或者call博主；相关文章：Storm集群安装部署1——准备版Storm集群安装部署2——Centos6.5的默认python2.6.6版本升级到python2.7.15Storm集群安装部署3——在节点服务器上安装 Storm并启动StormStorm集群安装...

2019-09-06 19:07:08 393

原创 Storm集群安装部署2——Centos6.5的默认python2.6.6版本升级到python2.7.15

Centos6默认python的版本是2.6的，但是现在很多库都需要python版本2.7.15的。文章中的所有内容不明白的可以查看前后文或者call博主；相关文章：Storm集群安装部署1——准备版Storm集群安装部署2——Centos6.5的默认python2.6.6版本升级到python2.7.15Storm集群安装部署3——在节点服务器上安装 Storm并启动S...

2019-09-06 18:24:03 266

原创 Storm集群安装部署1——准备版

目录一、部署环境准备二、部署Storm集群2.1 搭建ZooKeeper集群2.1.1、搭建环境文章中的所有内容不明白的可以查看前后文或者call博主；相关文章：Storm集群安装部署1——准备版Storm集群安装部署2——Centos6.5的默认python2.6.6版本升级到python2.7.15Storm集群安装部署3——在节点服务器上安装 St...

2019-09-06 17:52:37 350

原创 hadoop分布式运算集群中MapReduce跑我的第一个“Hello World”

接着上一篇文档之后：手把手教你用虚拟机VMWare搭建hadoop伪分布式安装目录1.格式化文件2.启动集群3.启动yarn5.在data里写word6.//回到hadoop7.//上传words文件到words文件夹8.//运行hello，9.//查看结果是否出现10.//查看结果11.停止集群，停止yarn12.退出13.关闭linux，释放...

2019-09-05 10:20:39 388

原创用虚拟机VMWare搭建hadoop伪分布式安装1

目录1.安装CentOS虚拟机。2.用root账户登录。3.改网关。4.改时间。5.改好网关和时间之后，找空白处，点击鼠标右键，打开Open in Terminal6.打开SourceCRT7.打开notepad++8.关闭防火墙，禁用selinux9.修改主机名10.修改主机名与IP対应关系11.重启机器。12.免密登录。13、创建文...

2019-09-04 20:26:47 1376

原创 Scala Tuple与Map、快速排序

目录一、Tuple生成Tuple访问Tuple二、Map[K,V]定义Map访问Map中的元素三、快速排序一、TupleTuple名元组；生成Tuple“（）”生成Tuple。当（）里只有两个元素是，成为Double Tuple。“->”是（）的简写。Tuple会自动识别元素类型。访问Tuple访问Tupl...

2019-08-14 17:51:01 545

原创 Scala reduceLeft与foldLeft、Range和Stream

目录一、reduceLeft和foldLeft的基本解释reduceLeft表达式：foldLeft表达式：二、reduceLeft和foldLeft的实例应用三、Range定义Range生成Range四、Stream定义Stream生成Stream访问Stream元素一、reduceLeft和foldLeft的基本解释reduceLef...

2019-08-14 13:06:57 424

原创 Scala.Collection-List、List-map、通配符_的基本使用

目录一、集合类图二、List[T]2.1创建List的方法2.2 访问List的方法head、tail、isEmpty三、List的高级使用filter、toList、IsDigit、takeWhile四、List-map_、flatMap的使用一、集合类图二、List[T]List[T]是最常用的集合类，T用来表示泛型，表示List集合里...

2019-08-13 17:19:18 439

原创 Scala柯里化函数和递归函数

目录一、柯里化函数定义二、柯里化函数的实现三、递归函数四、尾递归函数五、综合性栗子：求一、柯里化函数定义柯里化函数（Curried Functoin）把具有多个参数的函数转换为一条函数链，每个节点上是单一参数。柯里化(Currying)指的是将原来接受两个参数的函数变成新的接受一个参数的函数的过程。新的函数返回一个以原有第二个参数为参数的函数。eg：以下两个a...

2019-08-13 15:38:29 340

原创 Scala高阶函数和匿名函数

目录一函数是第一等公民二函数类型1、定义2、代码3、运行结果三高阶函数1、定义2、代码3、运行结果四匿名函数1、匿名函数为1个参数。2、匿名函数中定义多个参数：3、不给匿名函数设置参数五匿名函数实例一函数是第一等公民1、把函数作为实参传递给另外一个函数。2、把函数作为返回值。3、把函数赋值给变量。4、把函数存储...

2019-08-10 17:28:22 570

原创 Scala基础if、for、try、match表达式

目录if表达式for表达式try表达式match表达式if表达式在Scala中if时表达式而并不是语句。if(logical_exp) valA else valB这个if的用法实际上和c语言 java语言用法差不多。当条件不成立且没有else选项是，结果为（），也就是Unit。for表达式for comprehension是用于实现...

2019-08-10 15:31:20 421

原创 Scala基本函数与代码块、求值策略

Block代码块用于用于组织多个表达式。Block也是一个表达式，其最终的求得的值是最后一个表达式的值。写法1：{exp1;exp2} //全部表达式卸载一行上面，表达式之间用；分号隔开写法2：{exp1 //一个表达式一行exp2 //末尾不写分号...}函数def functionName( param:ParamType, p...

2019-08-10 13:45:58 222

原创 Scala基础语法之变量+Scala数据类型

目录变量Scala类型体系数值类型（Numeric types）：Boolean类型：Char类型：Unit:Null：Nothing：String变量三种变量修饰符：val 定义immutable variable 常量； var 定义mutable variable 变量； lazy val 定义惰性求值的常量；sca...

2019-08-09 15:30:26 324

原创运行Scala的四种方式

目录1.scala环境下：2.sbt环境下：3.IDE中：4.记事本文件运行方式：report文件cmd中：1.scala环境下：进入cmd 键入scala然后键入你想运行的代码段：2.sbt环境下：进入cmd 键入sbt console键入你想运行的代码段：3.IDE中：由于大家使用的IDE各有不同。下面我说的是基...

2019-08-09 12:35:48 15668

原创 Spark2x基于内存的分布式计算

目录1.Spark概述Spark应用场景：Spark的特点：Spark VS MapReduce：2.Spark原理与架构Spark CoreSpark核心概念RDD：RDD的依赖关系RDD的Stage划分Spark重要角色Spark on Yarn-client的运行流程Spark on Yarn-cluster的运行流程Yarn-...

2019-07-27 15:11:35 1195

原创 MapReduce分布式离线批处理和YARN资源协调处理

目录1.MapReduce和YARN基本介绍2.MapReduce和YARN功能与架构MapReduce的功能YARN的组件架构MapReduce On YARN任务调度流程YARN HA方案YARN APPMaster容错机制3.YARN的资源管理和任务调度资源管理资源分配模型容量调度器（Capacity Scheduler）容量调度器的特点：...

2019-07-21 17:02:53 837

原创 HDFS分布式文件系统

目录1.HDFS概述及应用场景HDFS适合什么场景？HDFS不适合什么场景？2.HDFS在FusionInsight产品的位置3.HDFS系统架构HDFS写流程：HDFS的读流程：4.关键特性介绍HDFS的高可靠性（HA）元数据持久化HDFS联邦（Federation）数据副本机制配置HDFS数据存储策略分级存储标签存储节点组存...

2019-07-18 11:36:03 389

原创 Hadoop基本概念及其HDFS的基本理念

Hadoop是什么？hadoop是一个开源的大数据框架；hadoop是一个的分布式计算的解决方案；hadoop=HDFS（分布式文件操作系统）+MapReduce（分布式计算）。Hadoop的核心？HDFS分布式文件系统：存储是大数据技术的基础；MapReduce编程模型：分布式计算是大数据应用的解决方案。Hadoop基础架构？HDFS概念：HDFS...

2019-06-26 15:35:17 451

原创情感文本分析数据集处理和预测---K-lab平台预选赛

比赛网址：K-lab平台2019中国高校计算机大赛---大数据挑战赛预选赛题预选赛题——文本情感分类模型本预选赛要求选手建立文本情感分类模型，选手用训练好的模型对测试集中的文本情感进行预测，判断其情感为「Negative」或者「Positive」。所提交的结果按照指定的评价指标使用在线评测数据进行评测，达到或超过规定的分数线即通过预选赛。比赛数据 ...

2019-05-14 16:34:03 3674 15

原创「二分类算法」提供银行精准营销解决方案详解（随机森林）

这些数据与葡萄牙银行机构的营销活动相关。这些营销活动以电话为基础，一般，银行的客服人员需要联系客户至少一次，以此确认客户是否将认购该银行的产品（定期存款）。通过与葡萄牙银行机构的直销活动（电话）有关的一些数据，预测客户是否会订阅定期存款（变量Y）。这对于实际生产有着巨大作用，可以通过这个预测结果对未来的工作进行一个初步规划，同时也可以对某些用户是否会订阅定期存款提供一个参照等；...

2019-04-23 04:07:35 8978 6

原创 python 数据可视化PYECHARTS的使用

『数据可视化』基于Python的数据可视化工具Pyecharts如何做Python 的数据可视化？pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。一、安装#windowspip install pyecharts二、入门from pyecharts imp...

2019-04-18 23:44:21 1219

Javase.xmind

空空如也