自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(20)--ECharts展示结果

本项目使用ECharts展示结果。ECharts是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。ECharts最初由百度团队开源,并于2018年初捐赠给Apache基金会,2021年后成为Apache下顶级项目。

2023-04-14 14:46:56 153

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(19)--通过Spark Streaming进行实时分析

Spark Streaming是SparkCore API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets。本项目将实时处理Kafka的数据。

2023-04-14 09:49:59 206

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(18)--通过Spark SQL进行离线分析

Spark SQL源自于Shark项目,但是Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark各个组件的相互集成,所以提出了Spark SQL项目。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码。

2023-04-06 20:45:10 103

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(17)--Spark SQL与Hive和Hbase集成

Spark SQL是从Shark发展而来。Spark SQL是Spark用来处理结构化数据的一个模块,它在RDD之上抽象出来Dataset/Dataframe,并且可以充当分布式SQL查询引擎。本项目使用Spark SQL进行离线分析,批量处理用户行为日志,对用户行为进行分析。离线分析过程:Spark SQL与Hive、Mysql、Hbase集成,其核心就是Spark SQL通过hive外部表来获取HBase的表数据。

2023-04-01 07:38:13 159

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(15)--集成Flume、Kafka和HBase

在IDEA工具的Terminal中,使用 mvn clean package -DskipTests将HBaseSink打包为flume-ng-hbase2-sink-1.9.0.jar,并上传至namenode的flume安装的lib目录下。在flume的安装目录下找到conf目录,创建flume-hbase-kafka.properties文件,然后修改该配置文件的内容。在IDEA中导入Flume源码中的 flume-ng-hbase2-sink 工程。启动kafka之前需要启动zookeeper。

2023-03-29 16:48:43 73

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(13)--安装与配置Flume

本实验使用的Flume版本为1.9.0。

2023-03-29 16:47:21 44

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(16)--安装和配置Spark

本实验使用的Spark版本为spark-3.1.2-bin-hadoop3.2。

2023-03-29 16:47:21 102

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(12)--集成Hive与HBase

在完成Hive与HBase表映射之后,接下来就可以使用Hive 查询HBase中的数据。进入hive安装目录,修改hive-site.xml文件,添加如下内容。修改hive-env.sh配置文件,添加内容如下所示。【注意】请确认在hbase中已经创建sogoulogs。将Hbase相关依赖包复制到Hive的lib目录下。#启动hive的metastore服务。Hive中存在两种表,内部表和外部表。#先启动Hadoop。#查看hive中的表。

2023-03-29 16:46:54 96

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(11)--安装和配置Hive

本实验使用的Hive版本为3.1.2。

2023-03-29 16:46:32 47

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(14)--安装与配置Kafka

本实验使用的kafka版本为kafka_2.12-2.6.0。本平台只在namenode上配置了一个Kafka,datanode上没有配置kafka。

2023-03-29 16:46:01 36

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(10)--安装MySQL

由于Hive运行过程中需要metaStore支持,本项目使用MySQL充当MetaStore。因此需要首先安装MySQL。

2023-03-29 16:45:30 53

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(9)--向HBase导入搜狗网数据

由于SogouQ.csv没有HBASE_ROW_KEY,因此需要手工创建HBASE_ROW_KEY(userid+datetime+当前时间),本项目已经变换完毕,保存在sogou-hbase.csv中,直接使用即可。向表fruitTable中插入ROWKEY=1001、“info:name”列,添加数据值为“banana"(注意这条语句不在hbase shell中运行,在Linux下的terminal下运行)创建一个表,该表名称为fruitTable,包含1个列族info。这里只给出部分截图,成功!

2023-03-27 07:48:37 95

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(7)--搭建Hadoop平台

以下操作请在namenode上执行。

2023-03-27 07:47:48 41

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(6)--配置主节点到其它节点的免密认证登陆

以下所有操作都是在namenode节点上进行的。

2023-03-27 07:46:35 59

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(5)--克隆生成datanode1和datanode2节点

#1、 克隆生成datanode1(1)、选择菜单“虚拟机–》管理–》克隆”选项(2)、点击“下一步”看到下面的界面(3). 使用默认选项,点击“下一步”,选择“创建完整克隆( F)”,点击“下一步”,如下图所示。(4)、将虚拟机重命名为 datanode1,选择一个存储位置,点击完成。

2023-03-27 07:46:02 43

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(8)--安装和配置HBase

本实验使用的HBase版本为2.3.0Hbase安装可以分为单机模式和分布式模式,本平台使用分布式模式安装,且使用Hbase自带的zookeeper。

2023-03-27 07:45:56 105

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(4)--安装JDK

jdk安装

2023-03-27 07:42:57 29

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(3)--配置Ubuntu 16.04操作系统

配置Ubuntu 16.04操作系统

2023-03-26 17:30:06 57

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(1)--需求描述及平台规划

基于Hadoop3.2的搜狗网搜索日志行为分析大数据项目介绍

2023-03-26 17:28:42 144

原创 基于Hadoop3.2的搜狗网搜索日志行为分析(2)--VMWare安装Ubuntu 16.04操作系统

使用VMWare安装Ubuntu 16.04的方法

2023-03-26 17:26:17 120

原创 RL总结

2017年是强化学习算法开始发力的一年,DeepMind, OpenAI,Uber,世界各大名校等人工智能团队贡献了大量的研究论文。

2019-09-26 21:06:34 89

原创 RL学习计划

1、第一周

2019-09-05 15:23:29 117

转载 增强学习Reinforcement Learning经典算法梳理

https://blog.csdn.net/songrotek/article/details/51378582

2018-08-25 16:18:04 289

转载 Giraph分析

1、Giraph安装 操作系统:centOS6.5 JDK 64位 Hadoop 2.5.1 zookeeper 3.4.6 giraph1.1.02、Giraph源码分析 https://blog.csdn.net/xin_jmail/article/details/22306495

2018-08-21 10:18:05 438

转载 Python语言

Python读入数据的方法 http://www.cnblogs.com/futurehau/p/6109965.html

2018-08-07 18:07:52 267

原创 吴恩达人工智能学习笔记

建议使用的工具Octave 1、the example of supervised learning housing price prediction (regression) cancer (classification) 2、the example of unsupervised learning google news org...

2018-08-02 11:49:46 802

转载 机器学习视频

1、吴恩达机器学习视频 https://blog.csdn.net/moffy_abo/article/details/79405174 (国内)https://www.coursera.org/learn/machine-learning (国外)

2018-08-02 11:05:42 459

转载 AI好文章及书籍

http://neuralnetworksanddeeplearning.com/chap1.html

2018-08-01 15:38:29 103

RDD、DataFrame和DataSet三者之间的关系

分别介绍使用RDD、Data Frame和DataSet实现以Word Count的方法

2023-03-22

基于Hadoop3.2搭建大数据平台

详细介绍了基于Hadoop3.2构建大数据平台过程,其中包括Hadoop3.2、HBase 2.3、Hive 3.1.2、Flume 1.9、Kafka2.12、Spark3.1.2的详细安装过程。适用于刚开始学习大数据平台的用户。

2023-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除