李奇峰1998-CSDN博客

原创 Kafka副本知识总结

Kafka副本管理—— 为何去掉replica.lag.max.messages参数https://www.cnblogs.com/huxi2b/p/5903354.htmlkafka的副本数据的同步原理https://blog.csdn.net/madongyu1259892936/article/details/99596335Kafka水位(high watermark)与leader epoch的讨论https://www.cnblogs.com/huxi2b/p/7453543.html

2021-09-30 00:27:07 1102 4

原创 ElasticSearch核心知识讲解

ElasticSearch核心知识讲解倒排索引倒排索引建立流程倒排索引具体组成分词Analysis（文本分析）Analyzer（分词器）分词测试mappingdynamic查询倒排索引倒排索引作为ES的核心，底层基于Lucene进行实现。倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过文档ID找单词，类似于书的目录结构。反向索引则是通过单词找文档ID，类似于字典查词，首先必须知道单词的全拼，然后通过字典的索引页再去查找单词的详情。倒排索引建立

2021-09-15 17:10:13 551

原创【2022持续更新】大数据最全知识点整理-HBase篇

大数据最全知识点整理-HBase篇基础问题：1、Hbase是什么2、Hbase架构3、Hbase数据模型4、Hbase和hive的区别5、Hbase特点6、数据同样存在HDFS，为什么HBase支持在线查询，且效率比Hive快很多7、Hbase适用场景8、RowKey的设计原则9、HBase中scan和get的功能以及实现的异同？10、Scan的setCache和setBatchsetCachesetBatch11、HBase 写流程12、HBase 读流程13、HBase中Zookeeper的作用14、S

2021-02-08 15:36:34 2987 7

原创【2022持续更新】大数据最全知识点整理-HDFS篇

此专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点，方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理，并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接，方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题，读者可以在评论区补充，博主会在一天内进行更新！！！最后预祝大家新的一年升职加薪，工资涨涨涨！...

2021-01-26 23:24:15 1901 8

原创【源码解读】Flink-Kafka连接器自定义序列器和分区器

通过阅读源码得知，目前Flink官方不推荐通过分区器来进行数据的分区操作，可以通过序列化器实现。同时KeyedSerializationSchema分区器已经不推荐使用，推荐使用KafkaSerializationSchema

2021-01-19 23:15:30 2900 4

原创【教程】Hbase+ElasticSearch构建海量数据检索平台

【教程】Hbase+ElasticSearch构建海量数据检索平台导读架构设计导读当前文章构建在读者已经了解Hbase与ElasticSearch相关技术的前提下，如果读者对这两个数据库较为陌生，那么推荐以下两篇文章：《可能是最易懂的Hbase架构原理解析》《原来 Elasticsearch 还可以这么理解》看到这个标题，了解ElasticSearch的同学可能就要说为什么做数据检索要加上Hbase，ElasticSearch本身的存储性能不是就足以支撑海量数据吗？首先ElasticSear

2020-12-27 23:48:47 5847 7

原创开源-基于ElasticSearch的通用搜索引擎

想要做出一个好的搜索引擎，重中之重是要先做好数据治理。

2020-12-21 23:57:41 2630 19

原创 Centos7在线安装CDH6

以下步骤亲测有效无误！！！！！一、基础环境准备1）软件清单Centos7(64位)服务器3台，地址如下：jdk1.8Mysql5.7 （必须要5.7的版本！！）mysql-connector-java-5.1.42-bin.jarcloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm（https://archive.clouder...

2020-01-06 17:23:37 2265 4

原创 Kafka中数据通过SpringBoot-WebSocket进行实时数据可视化

此博客主要讲解了如何在SpringBoot中配置WebSocket和Kafka，并将两者进行结合，将Kafka数据通过WebSocket实时推送到前端进行展示

2019-11-22 15:31:58 3216

原创基于scrapy与xslt的通用爬虫框架

框架简述此框架基于scrapy框架与xslt技术构建，通过一个包含xslt样式和xpath语法的xml文件来对网页上的内容进行匹配，然后将匹配到的字段与内容做持久化存储。其中，在xml文件的编辑中可以定义网页深度和下一级链接，并且匹配到的网页内容可以在不同深度之间进行传递。其次，代码在入库的时候回根据网页中匹配到的字段和内容自动创建数据库，并且写入数据。...

2018-06-10 13:17:37 1060 1

原创对数据中台的梳理与思考

中台是将系统的通用化能力进行打包整合，通过接口的形式赋能到外部系统，从而达到快速支持业务发展的目的。比如业务中台，更多的是对业务的支持，比如客户信息，组织信息、产品信息等，这些都来自某一个系统，且分别支持多个系统的业务。提供给业务中台使用。从技术角度，中台是为了搭建一个灵活快速应对变化的架构，可以快速实现前端提的需求，避免重复建设，这也是符合敏捷开发理念。业界目前对数据中台没有统一的定义，本篇文章仅基于共识给出PowerData的理解。数据中台并不是一种技术，更多的是数据集成、管理、应用的体系。

2023-01-30 18:48:25 809 2

原创数据质量管理深入浅出

质量是生活中最常关注的话题，我们都期望享用高质量的商品与服务，且企业也不断加大质量管理的投入，为了更好的用户体验。在企业数字化转型浪潮下，传统手段已无法应对数字化转型中的数据质量管理需求，我们需要探索出一条数据独有的质量管理体系应对新的需求。本篇文章以数据质量管理为目标，探究数据质量背后的逻辑，并通过管理与技术手段进行落地。

2023-01-30 14:25:52 566

原创【实战】元数据管理落地实施

我是谁，我从哪里来，我要到哪里去，我会做什么，我能做什么？我时常反思这些问题，才不至于在快速发展的社会中迷失。作为数据从业者，我们也需要探查数据的本质，并对其进行追踪、登记、管理，才不至于在海量数据中迷失。今天这篇文章将会详细介绍描述数据的数据：元数据，并给出具体的落地实施方案。

2022-10-24 22:04:04 1213 3

原创【实战讲解】数据血缘落地实施

在复杂的社会分工协作体系中，我们需要明确个人定位，才能更好的发挥价值，数据也是一样，于是，数据血缘应运而生。今天这篇文章会全方位的讲解数据血缘，并且给出具体的落地实施方案。........................

2022-07-24 16:38:29 4218 5

原创【思考】数据资产管理痛点以及解决思路

文章中所有内容均为本人从事大数据行业以来，所遇到的数据开发-数据仓库-数据管理方向所暴露出来的通用性问题以及思考后总结的一些解决思路，无关具体行业与业务。希望自己的思考可以给各位同仁提供一些微不足道的参考。一、痛点总结1.1 元数据层面目前很多公司亦或是不重视或是不存在元数据层面的管理，殊不知作为大数据中老生常谈的内容，其存在的必要性以及其对数据管理的有效性。元数据作为记录数据的数据，随着公司数据资产的增加，需要对其进行有效的管理，从而能够快速获取到数据的相关信息并进行使用。包括数据在哪里.

2022-05-08 18:08:19 2377 2

原创【2022持续更新】大数据最全知识点整理-数据仓库篇

大数据最全知识点整理-数据仓库篇1、什么是数据仓库（数仓的定义）2、数据仓库特点面向主题集成性稳定性反映历史变化3、数据库和数据仓库的区别4、数仓构建流程1) 数据调研、划分主题域2) 明确统计指标3) 构建总线矩阵4) 构建明细模型5) 构建汇总模型6) ETL以及代码实现7) 数仓应用、结果验证8) 数仓管理5、数仓分层概述6、数仓为什么要分层把复杂问题简单化清晰数据结构：空间换时间、减少重复开发。数据之间解耦合：7、维度建模选择：星型、雪花、星座星型模型雪花模型星座模型比较8、缓慢变化维处理9、拉链表

2022-01-19 09:54:45 5736 40

原创【2022持续更新】大数据最全知识点整理-Spark篇

大数据最全面试题整理-Spark篇导语基础问题：导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点，方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理，并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接，方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题，读者可以在评论区补充，博主会在一天内进行更新！！！最后预祝大家新的一年升职加薪，工资涨涨涨！基础问题：

2021-11-18 16:26:06 1438

原创宏观解释Kafka数据发送流程

Kafka数据写入流程1、确定集群暴露地址1、确定集群暴露地址在进行Kafka数据写入的过程中，首先第一步需要先确定Kafka集群对外暴露的地址。也许你可能会有疑惑，Kafka的地址还需要确认？不是直接kafka_ip:9092就可以了吗？稍等稍等，你也许对Kafka的地址了解的没有那么多。在Kafka中有两个参数：listeners和advertised.listenerslisteners：用来定义Kafka Broker的本机监听地址，如果没有设置，默认使用本机的hostname:9092

2021-09-14 09:50:57 853

原创 Kafka中的Controller（控制器）节点

文章目录导语Controller（控制器）知识点什么是ControllerController选举过程元数据内容Controller主要作用：故障转移脑裂问题导语在kafka暴露公网的过程中，遇到了一些例如元数据无法获取、生产者无法正常发送数据等问题在不断查找资料的过程中，详细深入了解了kafka的网络、数据发送过程、controller、leader等概念，并合理应用以上知识点顺利将kafka进行公网暴露。Controller（控制器）知识点在前期的公网暴露测试过程中，只是随机将kafka

2021-09-08 22:49:48 1588

原创 Centos7搭建FTP服务器（vsftpd）

1、关闭防火墙systemctl stop firewalldsystemctl disable firewalld2、关闭SELINUXsetenforce 0vim /etc/sysconfig/selinuxSELINUX=disabled3、安装vsftpdyum -y install vsftpd4、修改vsftpd配置文件cd /etc/vsftpdvim vsftpd.conf#是否允许匿名，默认noanonymous_enable=NO#这个设定值必须要

2021-09-08 18:06:57 6214 2

原创 Kafka配置公网访问，直接暴露方式与nginx代理方式（绝对没问题）

1、无需在配置文件里添加listeners与advertised.listeners两个配置项2、修改集群中每个broker的advertised.host.name，将其修改为你想要映射的公网IP或域名3、修改集群中每个broker的advertised.port，将其修改为你想要映射到公网上的端口4、必须确保集群中的每个broker都暴露的公网，也就是都必须进行映射。5、如果多个broker中的advertised.host.name相同，也就是对外只有一个公网IP，那么多个broker间的ad

2021-08-25 15:21:49 4954 1

原创【2022持续更新】大数据最全知识点整理-Kafka篇

大数据最全知识点整理-Kafka篇导语1、 kafka 是什么？有什么作用？2、Kafka为什么这么快3、Kafka架构及名词解释4、Kafka中的AR、ISR、OSR代表什么？5、HW、LEO代表什么？6、ISR收缩性：7、kafka follower如何与leader同步数据8、Zookeeper 在 Kafka 中的作用（早期）9、Kafka如何快速读取指定offset的消息？10、生产者发送消息有哪些模式？11、发送消息的分区策略有哪些？12、Kafka可靠性保证（不丢消息）13、Kafka 是怎么

2021-07-15 09:29:55 1478 4

原创【教程】docker容器间跨宿主机通信-基于overlay

docker容器间跨宿主机通信-基于overlayoverlay网络解析环境介绍consul安装配置创建overlay网络网络测试overlay网络解析内置跨主机的网络通信一直是Docker备受期待的功能，在1.9版本之前，社区中就已经有许多第三方的工具或方法尝试解决这个问题，例如Macvlan、Pipework、Flannel、Weave等。虽然这些方案在实现细节上存在很多差异，但其思路无非分为两种：二层VLAN网络和Overlay网络简单来说，二层VLAN网络解决跨主机通信的思路是把原先的网络

2021-02-17 15:13:12 4571 1

原创【2022持续更新】大数据最全知识点整理-hive篇

本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点，方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理，并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接，方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题，读者可以在评论区补充，博主会在一天内进行更新！

2021-01-31 21:56:41 1771 2

原创【2022持续更新】大数据最全知识点整理-Java篇

大数据最全知识点整理-Java篇语言特性string,stringgbuffer,stringbuilder区别：== 和equals区别ArrayList和LinkedList的区别HashTable和HashMap区别并发与多线程JAVA多线程实现的四种方式Thread 类中的start() 和 run() 方法有什么区别？volatile 和synchronized ？什么是线程池？为什么要使用它？JVM内存模型简述GC内存回收类加载顺序new一个对象的具体过程双亲委派机制语言特性string,

2021-01-26 21:05:10 955 1

空空如也

空空如也