自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (3)
  • 收藏
  • 关注

原创 clickhouse 核心知识与集群介绍

clickhouse 核心知识与集群介绍,介绍了 ck 的表引擎、数据类型、以及常见的 sql 语法。

2021-12-07 15:49:52 2876

原创 springboot-log4j启动异常(java.lang.AbstractMethodError)

目录1. 问题描述2. 问题排查1. 问题描述springboot 2.0.4通过 springboot 内置 tomcat 启动服务无异常,但是使用外置 tomcat 启动报错,错误信息如下:Caused by: java.lang.AbstractMethodError: org.apache.logging.log4j.core.config.ConfigurationFactory.getConfiguration(Lorg/apache/logging/log4j/cor

2021-09-07 13:24:21 2882 1

原创 hadoop-介绍

hadoop的简介1. 出现背景2. 核心组件2.1 Hadoop Common2.2 Hadoop Distributed File System(HDFS)2.3 Hadoop YARN2.4 Hadoop MapReduce2.5 Hadoop Ozone1. 出现背景hadoop最早是为了解决大量网页的存储和索引问题。其原理来源于google发表的三篇论文,GFS、MapReduce和BigTable。主要是为了解决海量数据的存储与计算。2. 核心组件详细介绍见hadoop官网(ht

2020-05-28 10:03:12 279

原创 hadoop-伪分布式部署

hadoop伪分布式部署1. hdfs的部署2. yarn的部署版本: hadoop3.x。hadoop有三种运行方式: 单机模式、伪分布式模式、完全分布式模式。由于只有一台服务器,所以采用了伪分布式的部署方式。1. hdfs的部署从官网下载hadoop压缩包,上传到服务器并解压。服务器配置免密登录。使用 ssh localhost 测试是否配置成功。修改hadoop-env.sh。vim etc/hadoop/hadoop-env.sh# 添加以下配置------------

2020-05-27 18:51:30 405 1

原创 协同过滤算法(基于用户)

协同过滤算法1. 流程图2. 算法详细步骤背景: 使用基于用户的协同过滤算法进行网站预测1. 流程图2. 算法详细步骤读取文件,处理每一行数据,把用户id和网址id转化为long类型(因为协同过滤模型这两列为long类),并转化为DataModel(模型输入数据)。转化出用户评分矩阵(没有的填充0)。如下表所示(部分):用户id\网址id1101001011021031041051060140100143103

2020-05-26 17:24:04 2206

原创 hadoop集群运行MR程序、mahout程序

hadoop集群运行MR程序1. 启动集群2. 上传程序资源到hdfs3. 修改程序文件路径4. 安装mahout5. 提交程序到集群本教程在配置完hadoop,可以正常运行的前提下进行1. 启动集群# 启动hdfssbin/start-dfs.sh# 启动yarnsbin/start-yarn.sh使用jps命令,看到如下图所示,启动成功。2. 上传程序资源到hdfs第一步:把文件上传到服务器。第二步:把文件上传到hdfs集群。bin/hadoop dfs -put

2020-05-22 15:59:44 555

原创 日志系统搭建(elk7.x)

使用elastic stack搭建日志收集分析系统1. elasticsearch的搭建2. cerebro的搭建3. kibana的搭建4. fielbeat的搭建随着公司的发展,需要一个日志分析系统,来分析用户数据,为了调研,所以先使用elastic stack搭建了一个单节点的日志收集分析系统。使用技术:elasticsearch7.1.1、cerebro0.9.0、kibana7.1.1、filebeat7.1.1。1. elasticsearch的搭建elasticsearch的

2020-05-15 14:00:06 1338

原创 机器学习(hadoop实战)01: 家电故障备件储备预测分析

家电故障备件储备预测分析本例来源于《Hadoop大数据分析与挖掘实战》第十二章家电故障备件储备预测分析。数据集:请留言,我会私发。问题:针对手机数据,要求从服务商代码中提取出地区编码,对每个地区进行故障率的预测,从而做到备件的提前储备。问题分析:从问题描述可以看出,可以看作是对每个地区进行故障的推荐,地区编码作为用户id,故障代码作为项目id,现有数据集中故障率作为评分,使用协同过滤算法进行故障的推荐。难点:需要把故障描述转化为故障代码,故障描述是用户对故障的描述,所以

2020-05-14 22:48:37 658 9

原创 redis集群搭建

在测试环境搭建三个主节点,三个从节点的redis集群。三台服务器,操作系统:centos7,redis版本:3.2.0。每台机器上有两个节点,一个主节点,一个从节点,所以每台机器上需要redis占用两个端口启动,分别是6379、6380。安装步骤:第一步:登录其中一台机器(我登录的是cdh1),进入到安装目录(我的安装目录是 /appdata/tools,请修改为自己的安装目录)...

2019-09-19 15:53:18 223

原创 Spark写入数据到MySQL解析(未完成)

DF.write.mode("append").jdbc(url, tableName, prop)首先调用Dataset中的write方法,在write方法中创建DataFrameWriter对象;在DataFrameWriter中,调用mode方法,将设置的mode值保存在类成员变量中;调用jdbc方法,在jdbc方法中,调用format;把成员变量source设置...

2019-04-10 16:50:41 489

原创 spark读取HBase,处理输出到mysql

需求:spark读取HBase中的数据,提取某三列,经过聚合,输出到mysql中。代码实现:import java.util.Propertiesimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org...

2019-03-22 13:36:10 1061

转载 HDFS中namenode元数据管理机制

元数据:包含两个内容1) fileName2) block块存储位置 --> 刚开启hdfs时,datanode汇报块存储主机位置。如图所示:1、当client向namenode发出更新元数据请求时,namenode会根据更新的数据内容存放位置等更新好元数据。而每次做的更新操作都会被记录到edits中。2、secondaryNamenode每隔一段时间(默认为30分钟...

2019-03-04 19:29:49 1945

原创 HDFS写数据流程

相关概念:block:文件上传之前要分块,这个块就是block,一般为128M,是最大的一个单位。packet:packet是第二大单位,它是client向datanode或者datanode之间经过pipline传输数据的基本单位,默认为64kb。chunk:chunk是最小的单位,它是client向datanode或者datanode之间经过pipline传输数据时进行校验的基本单...

2019-03-04 18:54:21 328

转载 yarn运行流程

1、client向yarn提交job,首先找ResourceManager分配资源;2、ResourceManager开启一个Container,在Container中运行一个Application manager;3、Application manager找一个nodemanager启动Application master;4、Application master向Applicati...

2019-03-03 16:04:16 439

原创 hadoop的shuffle过程

hadoop的shuffle分为map端的shuffle和reduce端的shuffle1、map端的shuffle如上图所示: maptask先调用InputFormat中的getRecordReader方法,获取RecordReader对象读取文件。读取进内存中,经过map方法中的context.write()写出,由OutPutCollector收集到数据,并存放到环...

2019-03-03 15:33:07 334

原创 数据库01

DBMS: DataBase Managerment System 数据库管理系统SQL分类:    1. 数据定义语言(DDL,Data Definition Language):用来定义数据库对象,包括数据库 database ,表 table ,  列 column 等。关键字: 创建 create ,修改 alter ,删除 drop 等。    2. 数据操作语言(D

2018-01-26 21:56:53 170

设备维修原始数据.xlsx

《Hadoop大数据分析与挖掘实战》第十二章家电故障备件储备预测分析数据集,主要用于手机故障的分析,使用协同过滤算法进行预测每个地区每个故障的故障率。

2020-05-14

spark读取hbase数据,并使用spark sql保存到mysql

使用spark读取hbase中的数据,并插入到mysql中

2019-03-22

namenode元数据管理机制

hdfs的namenode的元数据管理机制,简要画出了元数据管理的流程分析

2019-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除