自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

欢迎来到李奇峰的数据世界

微信号:17314891853

  • 博客(75)
  • 收藏
  • 关注

原创 Kafka副本知识总结

Kafka副本管理—— 为何去掉replica.lag.max.messages参数https://www.cnblogs.com/huxi2b/p/5903354.htmlkafka的副本数据的同步原理https://blog.csdn.net/madongyu1259892936/article/details/99596335Kafka水位(high watermark)与leader epoch的讨论https://www.cnblogs.com/huxi2b/p/7453543.html

2021-09-30 00:27:07 1102 4

原创 ElasticSearch核心知识讲解

ElasticSearch核心知识讲解倒排索引倒排索引建立流程倒排索引具体组成分词Analysis(文本分析)Analyzer(分词器)分词测试mappingdynamic查询倒排索引倒排索引作为ES的核心,底层基于Lucene进行实现。倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地来讲,正向索引是通过文档ID找单词,类似于书的目录结构。反向索引则是通过单词找文档ID,类似于字典查词,首先必须知道单词的全拼,然后通过字典的索引页再去查找单词的详情。倒排索引建立

2021-09-15 17:10:13 551

原创 【2022持续更新】大数据最全知识点整理-HBase篇

大数据最全知识点整理-HBase篇基础问题:1、Hbase是什么2、Hbase架构3、Hbase数据模型4、Hbase和hive的区别5、Hbase特点6、数据同样存在HDFS,为什么HBase支持在线查询,且效率比Hive快很多7、Hbase适用场景8、RowKey的设计原则9、HBase中scan和get的功能以及实现的异同?10、Scan的setCache和setBatchsetCachesetBatch11、HBase 写流程12、HBase 读流程13、HBase中Zookeeper的作用14、S

2021-02-08 15:36:34 2987 7

原创 【2022持续更新】大数据最全知识点整理-HDFS篇

此专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题,读者可以在评论区补充,博主会在一天内进行更新!!!最后预祝大家新的一年升职加薪,工资涨涨涨!...

2021-01-26 23:24:15 1901 8

原创 【源码解读】Flink-Kafka连接器自定义序列器和分区器

通过阅读源码得知,目前Flink官方不推荐通过分区器来进行数据的分区操作,可以通过序列化器实现。同时KeyedSerializationSchema分区器已经不推荐使用,推荐使用KafkaSerializationSchema

2021-01-19 23:15:30 2900 4

原创 【教程】Hbase+ElasticSearch构建海量数据检索平台

【教程】Hbase+ElasticSearch构建海量数据检索平台导读架构设计导读当前文章构建在读者已经了解Hbase与ElasticSearch相关技术的前提下,如果读者对这两个数据库较为陌生,那么推荐以下两篇文章:《可能是最易懂的Hbase架构原理解析》《原来 Elasticsearch 还可以这么理解》看到这个标题,了解ElasticSearch的同学可能就要说为什么做数据检索要加上Hbase,ElasticSearch本身的存储性能不是就足以支撑海量数据吗?首先ElasticSear

2020-12-27 23:48:47 5847 7

原创 开源-基于ElasticSearch的通用搜索引擎

想要做出一个好的搜索引擎,重中之重是要先做好数据治理。

2020-12-21 23:57:41 2630 19

原创 Centos7在线安装CDH6

以下步骤亲测有效无误!!!!!一、 基础环境准备1)软件清单Centos7(64位)服务器3台,地址如下:jdk1.8Mysql5.7 (必须要5.7的版本!!)mysql-connector-java-5.1.42-bin.jarcloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm(https://archive.clouder...

2020-01-06 17:23:37 2265 4

原创 Kafka中数据通过SpringBoot-WebSocket进行实时数据可视化

此博客主要讲解了如何在SpringBoot中配置WebSocket和Kafka,并将两者进行结合,将Kafka数据通过WebSocket实时推送到前端进行展示

2019-11-22 15:31:58 3216

原创 基于scrapy与xslt的通用爬虫框架

框架简述此框架基于scrapy框架与xslt技术构建,通过一个包含xslt样式和xpath语法的xml文件来对网页上的内容进行匹配,然后将匹配到的字段与内容做持久化存储。 其中,在xml文件的编辑中可以定义网页深度和下一级链接,并且匹配到的网页内容可以在不同深度之间进行传递。 其次,代码在入库的时候回根据网页中匹配到的字段和内容自动创建数据库,并且写入数据。...

2018-06-10 13:17:37 1060 1

原创 对数据中台的梳理与思考

中台是将系统的通用化能力进行打包整合,通过接口的形式赋能到外部系统,从而达到快速支持业务发展的目的。比如业务中台,更多的是对业务的支持,比如客户信息,组织信息、产品信息等,这些都来自某一个系统,且分别支持多个系统的业务。提供给业务中台使用。从技术角度,中台是为了搭建一个灵活快速应对变化的架构,可以快速实现前端提的需求,避免重复建设,这也是符合敏捷开发理念。业界目前对数据中台没有统一的定义,本篇文章仅基于共识给出PowerData的理解。数据中台并不是一种技术,更多的是数据集成、管理、应用的体系。

2023-01-30 18:48:25 809 2

原创 数据质量管理深入浅出

质量是生活中最常关注的话题,我们都期望享用高质量的商品与服务,且企业也不断加大质量管理的投入,为了更好的用户体验。在企业数字化转型浪潮下,传统手段已无法应对数字化转型中的数据质量管理需求,我们需要探索出一条数据独有的质量管理体系应对新的需求。本篇文章以数据质量管理为目标,探究数据质量背后的逻辑,并通过管理与技术手段进行落地。

2023-01-30 14:25:52 566

原创 【实战】元数据管理落地实施

我是谁,我从哪里来,我要到哪里去,我会做什么,我能做什么?我时常反思这些问题,才不至于在快速发展的社会中迷失。作为数据从业者,我们也需要探查数据的本质,并对其进行追踪、登记、管理,才不至于在海量数据中迷失。今天这篇文章将会详细介绍描述数据的数据:元数据,并给出具体的落地实施方案。

2022-10-24 22:04:04 1213 3

原创 【实战讲解】数据血缘落地实施

在复杂的社会分工协作体系中,我们需要明确个人定位,才能更好的发挥价值,数据也是一样,于是,数据血缘应运而生。今天这篇文章会全方位的讲解数据血缘,并且给出具体的落地实施方案。........................

2022-07-24 16:38:29 4218 5

原创 【思考】数据资产管理痛点以及解决思路

文章中所有内容均为本人从事大数据行业以来,所遇到的数据开发-数据仓库-数据管理方向所暴露出来的通用性问题以及思考后总结的一些解决思路,无关具体行业与业务。希望自己的思考可以给各位同仁提供一些微不足道的参考。一、痛点总结1.1 元数据层面目前很多公司亦或是不重视或是不存在元数据层面的管理,殊不知作为大数据中老生常谈的内容,其存在的必要性以及其对数据管理的有效性。元数据作为记录数据的数据,随着公司数据资产的增加,需要对其进行有效的管理,从而能够快速获取到数据的相关信息并进行使用。包括数据在哪里.

2022-05-08 18:08:19 2377 2

原创 【2022持续更新】大数据最全知识点整理-数据仓库篇

大数据最全知识点整理-数据仓库篇1、什么是数据仓库(数仓的定义)2、数据仓库特点面向主题集成性稳定性反映历史变化3、数据库和数据仓库的区别4、数仓构建流程1) 数据调研、划分主题域2) 明确统计指标3) 构建总线矩阵4) 构建明细模型5) 构建汇总模型6) ETL以及代码实现7) 数仓应用、结果验证8) 数仓管理5、数仓分层概述6、数仓为什么要分层把复杂问题简单化清晰数据结构:空间换时间、减少重复开发。数据之间解耦合:7、维度建模选择:星型、雪花、星座星型模型雪花模型星座模型比较8、缓慢变化维处理9、拉链表

2022-01-19 09:54:45 5736 40

原创 【2022持续更新】大数据最全知识点整理-Spark篇

大数据最全面试题整理-Spark篇导语基础问题:导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题,读者可以在评论区补充,博主会在一天内进行更新!!!最后预祝大家新的一年升职加薪,工资涨涨涨!基础问题:

2021-11-18 16:26:06 1438

原创 宏观解释Kafka数据发送流程

Kafka数据写入流程1、确定集群暴露地址1、确定集群暴露地址在进行Kafka数据写入的过程中,首先第一步需要先确定Kafka集群对外暴露的地址。也许你可能会有疑惑,Kafka的地址还需要确认?不是直接kafka_ip:9092就可以了吗?稍等稍等,你也许对Kafka的地址了解的没有那么多。在Kafka中有两个参数:listeners和advertised.listenerslisteners:用来定义Kafka Broker的本机监听地址,如果没有设置,默认使用本机的hostname:9092

2021-09-14 09:50:57 853

原创 Kafka中的Controller(控制器)节点

文章目录导语Controller(控制器)知识点什么是ControllerController选举过程元数据内容Controller主要作用:故障转移脑裂问题导语在kafka暴露公网的过程中,遇到了一些例如元数据无法获取、生产者无法正常发送数据等问题在不断查找资料的过程中,详细深入了解了kafka的网络、数据发送过程、controller、leader等概念,并合理应用以上知识点顺利将kafka进行公网暴露。Controller(控制器)知识点在前期的公网暴露测试过程中,只是随机将kafka

2021-09-08 22:49:48 1588

原创 Centos7搭建FTP服务器(vsftpd)

1、关闭防火墙systemctl stop firewalldsystemctl disable firewalld2、关闭SELINUXsetenforce 0vim /etc/sysconfig/selinuxSELINUX=disabled3、安装vsftpdyum -y install vsftpd4、修改vsftpd配置文件cd /etc/vsftpdvim vsftpd.conf#是否允许匿名,默认noanonymous_enable=NO#这个设定值必须要

2021-09-08 18:06:57 6214 2

原创 Kafka配置公网访问,直接暴露方式与nginx代理方式(绝对没问题)

1、无需在配置文件里添加listeners与advertised.listeners两个配置项2、修改集群中每个broker的advertised.host.name,将其修改为你想要映射的公网IP或域名3、修改集群中每个broker的advertised.port,将其修改为你想要映射到公网上的端口4、必须确保集群中的每个broker都暴露的公网,也就是都必须进行映射。5、如果多个broker中的advertised.host.name相同,也就是对外只有一个公网IP,那么多个broker间的ad

2021-08-25 15:21:49 4954 1

原创 【2022持续更新】大数据最全知识点整理-Kafka篇

大数据最全知识点整理-Kafka篇导语1、 kafka 是什么?有什么作用?2、Kafka为什么这么快3、Kafka架构及名词解释4、Kafka中的AR、ISR、OSR代表什么?5、HW、LEO代表什么?6、ISR收缩性:7、kafka follower如何与leader同步数据8、Zookeeper 在 Kafka 中的作用(早期)9、Kafka如何快速读取指定offset的消息?10、生产者发送消息有哪些模式?11、发送消息的分区策略有哪些?12、Kafka可靠性保证(不丢消息)13、Kafka 是怎么

2021-07-15 09:29:55 1478 4

原创 【教程】docker容器间跨宿主机通信-基于overlay

docker容器间跨宿主机通信-基于overlayoverlay网络解析环境介绍consul安装配置创建overlay网络网络测试overlay网络解析内置跨主机的网络通信一直是Docker备受期待的功能,在1.9版本之前,社区中就已经有许多第三方的工具或方法尝试解决这个问题,例如Macvlan、Pipework、Flannel、Weave等。虽然这些方案在实现细节上存在很多差异,但其思路无非分为两种: 二层VLAN网络和Overlay网络简单来说,二层VLAN网络解决跨主机通信的思路是把原先的网络

2021-02-17 15:13:12 4571 1

原创 【2022持续更新】大数据最全知识点整理-hive篇

本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题,读者可以在评论区补充,博主会在一天内进行更新!

2021-01-31 21:56:41 1771 2

原创 【2022持续更新】大数据最全知识点整理-Java篇

大数据最全知识点整理-Java篇语言特性string,stringgbuffer,stringbuilder区别:== 和equals区别ArrayList和LinkedList的区别HashTable和HashMap区别并发与多线程JAVA多线程实现的四种方式Thread 类中的start() 和 run() 方法有什么区别?volatile 和synchronized ?什么是线程池? 为什么要使用它?JVM内存模型简述GC内存回收类加载顺序new一个对象的具体过程双亲委派机制语言特性string,

2021-01-26 21:05:10 955 1

原创 Flink与Kafka版本对应关系

这边建议各位在使用Flink中Kafka连接器的时候,去Maven仓库中查看一下依赖,选用匹配的Flink与Kafka版本,避免出现异常。

2021-01-13 13:40:26 7698

原创 Flink、Spark、Storm技术对比列表

ApacheFlinkSpark StreamingStorm架构架构介于Spark和Storm之间,主从结构与SparkStreaming相似,DataFlow Grpah与Storm相似架构依赖Spark,每个Batch处理都依赖主(Driver),可以理解为时间维度上的spark DAG。主从模式,且以来Zookeeper,处理过程中对主节点依赖不大。处理模式NativeMicro-batchNative容错基于CheckPoint机制WAL及RDD...

2021-01-03 23:10:43 778

原创 CDH大数据节点宕机测试

一、集群现状集群组件说明:目前集群中安装了若干大数据相关组件,包括HDFS、Hbase、Hive等存储相关组件与Flume、Spark、Kafka等数据采集与处理相关组件。集群主机说明:目前集群中有5台主机,为同一台宿主机上的5台虚拟机。为确保HDFS副本正常分布,故主机cdh1、cdh2、cdh3的机架设置为“test1”,cdh4、cdh5的机架设置为“test2”注:Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为:第一个副本放在其中一台节点中第

2020-05-25 20:09:58 928

原创 HDFS文件上传异常分析:put: `test.txt': No such file or directory

问题描述Linux上传本地文件到HDFS中时,出现“No such file or directory”但是你发现当前文件夹下此文件是存在的这个时候你也许担心会不会是文件权限的问题,因为我们在使用hdfs命令时,切换到了hdfs用户,但是当前文件所属的用户与用户组为root,于是我们在将此文件的用户与用户组修改为hdfs再试一下可以看到,还是报同样的错误,然后又按照同样的方法将此文件所在文件夹的用户与用户组修改为了hdfs,还是不行解决方法将此文件所在文件夹的用户与用户组修改为hdfs后,

2020-05-09 16:34:22 19512 3

原创 房价数据可视化

南京二手房数据可视化

2019-12-02 17:22:23 2243

原创 网站反爬方案分析

Evernote Export 工商企业数据反爬方案工商企业数据反爬方案一、爬虫识别方法二、常见反爬虫策略三、针对反爬策略攻击者可能会采取的措施四、方案选型一、爬虫识别方法1、http日志和流量分析 对IP访问频率统计,设置一个阈值,如果单位时间内某个IP访问频率和流量超过特定阈值就可以界定为爬虫。2、Headers参数检测 一般有User-Agent、...

2019-09-23 11:42:08 877

原创 Centos7在线安装CDH5

以下步骤亲测有效无误!!!!!一、 基础环境准备1)软件清单Centos7(64位)服务器3台,地址如下:192.168.56.1(此地址映射你自己的服务器地址)192.168.56.2(此地址映射你自己的服务器地址)192.168.56.3 (此地址映射你自己的服务器地址)jdk1.8Mysql5.7 (必须要5.7的版本!!)mysql-connector-java-5....

2019-07-03 13:00:49 772 4

原创 记一次SparkSql的union操作异常

在某次使用sparksql中的union合并两个DataFrame时,发现总是报类型不匹配的错误,但是检查后发现两个DataFrame中无论是列名和列的类型,都是完全相同的,下面复现一下这个错误object SqlTest { def main(args: Array[String]): Unit = { // 设置日志输出的级别 Logger.getLogger("or...

2019-05-27 10:16:12 4681

原创 Spark基础概念梳理

因为最近在学习与使用Spark,所以对一些基础概念与术语做一些梳理。用来加深映像同时方便后续复习spark是一个基于内存的分布式计算框架,可无缝集成于现有的Hadoop生态体系。主要包括四大组件:Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。其中Spark运行中涉及到的一些基础概念如下:mater:主要是控制、管理和监督整个sp...

2019-05-26 21:50:07 286

原创 基于selenium的动态网页Xpath测试工具

最近在搞一些Xpath网页规则的编写,发现网上的Xpath测试工具很多,但都是基于静态页面的。暂时还没有发现基于动态页面的Xpath测试工具,为了后续的测试方便,于是就自己动手写了一个from tkinter import *import tkinter as tkfrom lxml import etreefrom selenium import webdriverfrom se...

2019-03-15 20:23:06 592

原创 RabbitMq连接Java与Python

最近用Python写了一个爬虫项目,为了方便,用Java做了一个控制端,然后用RabbitMq将他们串起来首先Java端的代码,生产者与消费者都采用的单例模式,其中消费者在tomcat启动时自动进行消费。话不多说,上代码//消费者public class ScrapyRabbitCon{ //队列名 private final static String QUEUE_NAME ...

2019-02-07 18:05:20 1454

原创 Java实现Kafka生产者与消费者

消费者类import org.apache.kafka.clients.producer.*;import org.apache.log4j.Logger;import java.util.Properties;/** * @author liqifeng * 此类使用Holder单例模式实现了kafka生产者 */public class TestProducer { ...

2018-12-26 23:07:45 2152 1

原创 python实现KNN(最近邻)算法

KNN(近邻)算法KNN算法可能是标准数据挖掘算法中最为直观的一种。为了对新个体进行分类,它查找训练集,找到与新个体最相似的那些个体,看看这些个体大多属于哪个类别,就把新个体分到哪个类别 KNN算法几乎可以对任何数据集进行分类,但是,要计算数据集中每两个个体之间的距离,计算量很大数据集选取本次数据集选用电离数据,该数据集每行有35个值,前34个为天线采集的数据,最后一个值不是“g...

2018-09-10 19:28:53 2365

原创 离线数据清洗,Spark和Python Pandas对比

导语最近新学习了Spark中RDD的核心用法,为了巩固学习成果,于是使用Spark写了一个数据清洗的代码,正好之前使用过python中pandas对同样的数据做数据清洗,于是就把两种方式的代码都贴出来,做一个简单的对比数据展示豆瓣图书标签: 小说,[日] 东野圭吾 / 李盈春 / 南海出版公司 / 2014-5 / 39.50元,解忧杂货店,8.6,(297210人评价)豆瓣图书标签...

2018-08-27 10:40:08 2553 5

原创 高效代码之我见 => 李奇峰

还有一个月结束大二生活,以下仅为本人自大一从一个小白开始学习,至今不到两年的学习与工作当中总结的一些经验与见解。不足之处请在评论区留言,望多多指教项目构思与详细设计遇到需求后先梳理清楚大体的逻辑,接下来构思项目结构与流程。最好可以将构思结果落到概要设计与详细设计中,这样在写代码的时候才会更加流畅。 以前在写代码的时候往往脑子里有一个雏形就开始动手,到后来随之项目的不断推进和完善,就发...

2018-06-15 10:04:35 622 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除