sxsAffable-CSDN博客

原创 clickhouse 核心知识与集群介绍

clickhouse 核心知识与集群介绍，介绍了 ck 的表引擎、数据类型、以及常见的 sql 语法。

2021-12-07 15:49:52 2876

原创 springboot-log4j启动异常(java.lang.AbstractMethodError)

目录1. 问题描述2. 问题排查1. 问题描述springboot 2.0.4通过 springboot 内置 tomcat 启动服务无异常，但是使用外置 tomcat 启动报错，错误信息如下:Caused by: java.lang.AbstractMethodError: org.apache.logging.log4j.core.config.ConfigurationFactory.getConfiguration(Lorg/apache/logging/log4j/cor

2021-09-07 13:24:21 2882 1

原创 hadoop-介绍

hadoop的简介1. 出现背景2. 核心组件2.1 Hadoop Common2.2 Hadoop Distributed File System(HDFS)2.3 Hadoop YARN2.4 Hadoop MapReduce2.5 Hadoop Ozone1. 出现背景hadoop最早是为了解决大量网页的存储和索引问题。其原理来源于google发表的三篇论文，GFS、MapReduce和BigTable。主要是为了解决海量数据的存储与计算。2. 核心组件详细介绍见hadoop官网(ht

2020-05-28 10:03:12 279

原创 hadoop-伪分布式部署

hadoop伪分布式部署1. hdfs的部署2. yarn的部署版本: hadoop3.x。hadoop有三种运行方式: 单机模式、伪分布式模式、完全分布式模式。由于只有一台服务器，所以采用了伪分布式的部署方式。1. hdfs的部署从官网下载hadoop压缩包，上传到服务器并解压。服务器配置免密登录。使用 ssh localhost 测试是否配置成功。修改hadoop-env.sh。vim etc/hadoop/hadoop-env.sh# 添加以下配置------------

2020-05-27 18:51:30 405 1

原创协同过滤算法(基于用户)

协同过滤算法1. 流程图2. 算法详细步骤背景: 使用基于用户的协同过滤算法进行网站预测1. 流程图2. 算法详细步骤读取文件，处理每一行数据，把用户id和网址id转化为long类型(因为协同过滤模型这两列为long类)，并转化为DataModel(模型输入数据)。转化出用户评分矩阵(没有的填充0)。如下表所示(部分)：用户id\网址id1101001011021031041051060140100143103

2020-05-26 17:24:04 2206

原创 hadoop集群运行MR程序、mahout程序

hadoop集群运行MR程序1. 启动集群2. 上传程序资源到hdfs3. 修改程序文件路径4. 安装mahout5. 提交程序到集群本教程在配置完hadoop，可以正常运行的前提下进行1. 启动集群# 启动hdfssbin/start-dfs.sh# 启动yarnsbin/start-yarn.sh使用jps命令，看到如下图所示，启动成功。2. 上传程序资源到hdfs第一步：把文件上传到服务器。第二步：把文件上传到hdfs集群。bin/hadoop dfs -put

2020-05-22 15:59:44 555

原创日志系统搭建(elk7.x)

使用elastic stack搭建日志收集分析系统1. elasticsearch的搭建2. cerebro的搭建3. kibana的搭建4. fielbeat的搭建随着公司的发展，需要一个日志分析系统，来分析用户数据，为了调研，所以先使用elastic stack搭建了一个单节点的日志收集分析系统。使用技术：elasticsearch7.1.1、cerebro0.9.0、kibana7.1.1、filebeat7.1.1。1. elasticsearch的搭建elasticsearch的

2020-05-15 14:00:06 1338

原创机器学习(hadoop实战)01: 家电故障备件储备预测分析

家电故障备件储备预测分析本例来源于《Hadoop大数据分析与挖掘实战》第十二章家电故障备件储备预测分析。数据集：请留言，我会私发。问题：针对手机数据，要求从服务商代码中提取出地区编码，对每个地区进行故障率的预测，从而做到备件的提前储备。问题分析：从问题描述可以看出，可以看作是对每个地区进行故障的推荐，地区编码作为用户id，故障代码作为项目id，现有数据集中故障率作为评分，使用协同过滤算法进行故障的推荐。难点：需要把故障描述转化为故障代码，故障描述是用户对故障的描述，所以

2020-05-14 22:48:37 658 9

原创 redis集群搭建

在测试环境搭建三个主节点，三个从节点的redis集群。三台服务器，操作系统：centos7，redis版本：3.2.0。每台机器上有两个节点，一个主节点，一个从节点，所以每台机器上需要redis占用两个端口启动，分别是6379、6380。安装步骤：第一步：登录其中一台机器(我登录的是cdh1)，进入到安装目录(我的安装目录是 /appdata/tools，请修改为自己的安装目录)...

2019-09-19 15:53:18 223

原创 Spark写入数据到MySQL解析（未完成）

DF.write.mode("append").jdbc(url, tableName, prop)首先调用Dataset中的write方法，在write方法中创建DataFrameWriter对象；在DataFrameWriter中，调用mode方法，将设置的mode值保存在类成员变量中；调用jdbc方法，在jdbc方法中，调用format；把成员变量source设置...

2019-04-10 16:50:41 489

原创 spark读取HBase，处理输出到mysql

需求：spark读取HBase中的数据，提取某三列，经过聚合，输出到mysql中。代码实现：import java.util.Propertiesimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org...

2019-03-22 13:36:10 1061

转载 HDFS中namenode元数据管理机制

元数据：包含两个内容1) fileName2) block块存储位置 --> 刚开启hdfs时，datanode汇报块存储主机位置。如图所示：1、当client向namenode发出更新元数据请求时，namenode会根据更新的数据内容存放位置等更新好元数据。而每次做的更新操作都会被记录到edits中。2、secondaryNamenode每隔一段时间（默认为30分钟...

2019-03-04 19:29:49 1945

原创 HDFS写数据流程

相关概念：block：文件上传之前要分块，这个块就是block，一般为128M，是最大的一个单位。packet：packet是第二大单位，它是client向datanode或者datanode之间经过pipline传输数据的基本单位，默认为64kb。chunk：chunk是最小的单位，它是client向datanode或者datanode之间经过pipline传输数据时进行校验的基本单...

2019-03-04 18:54:21 328

转载 yarn运行流程

1、client向yarn提交job，首先找ResourceManager分配资源；2、ResourceManager开启一个Container，在Container中运行一个Application manager；3、Application manager找一个nodemanager启动Application master；4、Application master向Applicati...

2019-03-03 16:04:16 439

原创 hadoop的shuffle过程

hadoop的shuffle分为map端的shuffle和reduce端的shuffle1、map端的shuffle如上图所示： maptask先调用InputFormat中的getRecordReader方法，获取RecordReader对象读取文件。读取进内存中，经过map方法中的context.write()写出，由OutPutCollector收集到数据，并存放到环...

2019-03-03 15:33:07 334

原创数据库01

DBMS: DataBase Managerment System 数据库管理系统SQL分类： 1. 数据定义语言（DDL，Data Definition Language）：用来定义数据库对象，包括数据库 database ，表 table ，列 column 等。关键字：创建 create ，修改 alter ，删除 drop 等。 2. 数据操作语言（D

2018-01-26 21:56:53 170

设备维修原始数据.xlsx

《Hadoop大数据分析与挖掘实战》第十二章家电故障备件储备预测分析数据集，主要用于手机故障的分析，使用协同过滤算法进行预测每个地区每个故障的故障率。

2020-05-14

spark读取hbase数据，并使用spark sql保存到mysql

使用spark读取hbase中的数据，并插入到mysql中

2019-03-22

namenode元数据管理机制

hdfs的namenode的元数据管理机制，简要画出了元数据管理的流程分析

2019-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人