johnny00000-CSDN博客

原创 Hadoop中NameNode元数据管理机制解读

大家都知道hadoop是分布式离线批处理框架，主从架构，namenode是主节点，datanode是从节点，hadoop整体分为： HDFS：分布式文件存储系统 MapReduce：分布式离线并行计算框架 yarn：分布式资源调度管理框架1.元数据管理概述　　HDFS元数据，按类型分，主要包括以下几个部分：　　　　1、文件、目录...

2019-12-17 17:32:14 1391

原创 kafka原理解析

Apache的Kafka™是一个分布式流平台(a distributed streaming platform)。这到底意味着什么？我们认为，一个流处理平台应该具有三个关键能力：它可以让你发布和订阅记录流。在这方面，它类似于一个消息队列或企业消息系统。它可以让你持久化收到的记录流，从而具有容错能力。它可以让你处理收到的记录流。Kafka擅长哪些方面？它被用于两大类应用：建...

2018-08-22 17:16:44 3526

二、hadoop之MapReduce那些事提示：上个章节写了关于HDFS那些事，本章节详细的介绍MapReduce那些事。文章目录二、hadoop之MapReduce那些事前言1.Hadoop序列化1.1 序列化概述1.1.1 什么是序列化1.1.2 为什么要序列化1.1.3 为什么不用java序列化1.1.4 Hadoop序列化的特点1.2 自定义bean对象实现序列化接口（Writable）1.3 序列化案例实操2.MapReduce框架原理2.1 InputFormat数据输入2.1.1 切片与

2020-09-09 17:26:49 197

原创一、hadoop之HDFS那些事

一、hadoop之HDFS那些事1.HDFS写数据流程2.HDFS读数据流程3.NameNode和SecondaryNameNode4.NameNode工作机制NN和2NN工作机制详解：5.Fsimage和Edits解析6.集群安全模式6.1 基本语法6.2 案例7.NameNode多目录配置7.DataNode工作机制7.1 数据完整性7.2 掉线时限参数设置8.服役新数据节点9.退役旧数据节点9.1添加白名单9.2 黑名单退役10. Datanode多目录配置11. HDFS 2.X新特性11.1 集群

2020-09-08 17:18:56 302

原创关于flume使用lzo出现java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.的问题总结

使用flume抽取日志数据使用flume拦截器将数据发送到kafka不同的topic中，使用flume作为kafka的消费者将不同topic中的数据使用LZO压缩方式将数据sink到hdfs中出现以下错误：2020-01-30 22:04:11,378 (conf-file-poller-0) [WARN - org.apache.hadoop.util.NativeCodeLoader.&...

2020-01-30 23:58:41 2424 8

原创 Kafka学习指南

第1章 Kafka概述1.1 消息队列（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。（2）发布/订阅模式（一对多，数据生产后，推送给所有订阅者）发布订阅...

2020-01-03 02:30:51 754

原创 Python实现微信聊天机器人

序本文引自本人公众号环境要求Windows / Linux / Mac OSPython 3.4-3.6，以及 2.7 版本wxpy安装## 使用国内源安装速度快pip install -U wxpy -i "https://pypi.doubanio.com/simple/"实例让机器人与所有好友聊天from wxpy import *# 实例化，并登录微信bot = Bot(cache...

2018-05-04 09:43:21 709

编译好的lzo包可直接使用.rar

hadoop编译好的lzo包可以直接下载使用java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.

2020-01-30

大数据综合案例-搜狗搜索日志分析(修复版final).doc

基于搜狗查询数据500w条使用MapReduce做数据清洗，hive做离线分析的项目，详细文档附数据连接，搜狗实验室的搜索数据下载后缺少了用户ID字段的数据，所以本分析采用的是完整的数据，大家可以放心下载，如果下载数据的百度云链接失效无法下载，大家可以给我留言。

2019-12-20

大数据技术之Hive - 副本.doc

hive数据仓库从入门到精通文档，个人整理，适合学习或者授课，文档包含所有hive的内容，避免大家在通过网上资料学习遇到问题，学习上常遇到的问题以及解决方法都在文档中说明了。

2019-12-10

Spark从入门到精通

Spark安装配置，以及Spark三种运行方式，Spark原理，Spark案例、spark项目分析步骤全部涵盖

2018-11-23

机器学习算法详解

机器学习算法详解▪ 一、线性回归 ◦ 1、代价函数 ◦ 2、梯度下降算法 ◦ 3、均值归一化 ◦ 4、最终运行结果 ◦ 5、使用scikit-learn库中的线性模型实现 ▪ 二、逻辑回归 ◦ 1、代价函数 ◦ 2、梯度 ◦ 3、正则化 ◦ 4、S型函数（即） ◦ 5、映射为多项式 ◦ 6、使用的优化方法 ◦ 7、运行结果 ◦ 8、使用scikit-learn库中的逻辑回归模型实现 ▪ 逻辑回归_手写数字识别_OneVsAll ◦ 1、随机显示100个数字 ◦ 2、OneVsAll ◦ 3、手写数字识别 ◦ 4、预测 ◦ 5、运行结果 ◦ 6、使用scikit-learn库中的逻辑回归模型实现 ▪ 三、BP神经网络 ◦ 1、神经网络model ◦ 2、代价函数 ◦ 3、正则化 ◦ 4、反向传播BP ◦ 5、BP可以求梯度的原因 ◦ 6、梯度检查 ◦ 7、权重的随机初始化 ◦ 8、预测 ◦ 9、输出结果 ▪ 四、SVM支持向量机 ◦ 1、代价函数 ◦ 2、Large Margin ◦ 3、SVM Kernel（核函数） ◦ 4、使用中的模型代码 ◦ 5、运行结果 ▪ 五、K-Means聚类算法 ◦ 1、聚类过程 ◦ 2、目标函数 ◦ 3、聚类中心的选择 ◦ 4、聚类个数K的选择 ◦ 5、应用——图片压缩 ◦ 6、使用scikit-learn库中的线性模型实现聚类 ◦ 7、运行结果 ▪ 六、PCA主成分分析（降维） ◦ 1、用处 ◦ 2、2D-->1D，nD-->kD ◦ 3、主成分分析PCA与线性回归的区别 ◦ 4、PCA降维过程 ◦ 5、数据恢复 ◦ 6、主成分个数的选择（即要降的维度） ◦ 7、使用建议 ◦ 8、运行结果 ◦ 9、使用scikit-learn库中的PCA实现降维 ▪ 七、异常检测 Anomaly Detection ◦ 1、高斯分布（正态分布） ◦ 2、异常检测算法 ◦ 3、评价的好坏，以及的选取 ◦ 4、选择使用什么样的feature（单元高斯分布） ◦ 5、多元高斯分布 ◦ 6、单元和多元高斯分布特点 ◦ 7、程序运行结果

2018-04-12

智联招聘岗位信息爬取

使用Python2.7的版本，爬取智联招聘岗位信息，并将招聘结果保存在excel中。