大数据的江湖-CSDN博客

原创大数据最难源码 hbase 源码（五）之 Flush,Split,Comact 核心流程源码

做好想做好为什么怎么做想做好好好努力为什么为了将来怎么做一点点努力

2022-02-28 18:01:18 262

原创大数据最难源码 hbase 源码（四）之HBase DML(插入数据)源码分析

HBase Rowkey 寻址机制1.1. MetaCache 缓存详解MetaCache 是存在于 HBase 客户端中，用来给客户端缓存从 ZooKeeper 或者 RegionServer 获取的 Table 的 region 位置信息的组件。它的存在可以极大的帮助HBase 减小负载。第一个网络来回：客户端发送请求给 ZK ，获取到 Meta 表的 Region 的位置第二个网络来回：客户端发送请求给 meta 表的 region 所在的 regionserver ，扫描该 regio

2022-01-13 21:52:23 1452

原创大数据最难源码 hbase 源码（三）之HBase 创建表流程源码分析

hbase ddl流程分析Connection 和 Admin，HTable 的理解Procedure 和 ProcedureExecutor 详解DDL 创建表服务端处理，CreateTableProcedureMeta 表初始化 InitMetaProcedureConnection 和 Admin，HTable 的理解一个标准的 HBase 客户端程序的写法，来看具体实现：// 第一步：获取配置HBaseConfuration conf = HBaseConfuration.create();

2021-12-27 21:56:53 2032 1

原创大数据最难源码 hbase源码（二）之通讯、启动等

启动流程HBase RPC的详细介绍HBase 集群启动脚本HBase Master启动流程HBase HRegionServer启动流程HBase RPC的详细介绍1,HBase 的 RPC 相关的实现类：RpcServer（NettyRpcServer） + RpcClient（NettyRpcClient）如果现在启动服务端（HMaster & HRegionServer）：最终肯定会有一个步骤，要启动 RPC 服务端如果现在启动客户端（Connection --> Admin

2021-11-19 23:27:22 1856

原创大数据最难源码 hbase 源码（一）之存储、模型等

源码之前先了解架构存储引擎表模型架构分析寻址机制存储引擎1，LSM treeHBase 核心介绍：HBase(PowerSet) 是 Google 的 BigTable 的开源实现，底层存储引擎是基于 LSM-Tree 数据结构设计的。写入数据时会先写 WAL 日志，再将数据写到写缓存 MemStore 中，MemStore 的内部实现是一个跳表数据结构，等写缓存达到一定规模后或满足其他触发条件才会 Flush 刷写到磁盘，为了提高从文件中查找数据的效率，将内存的数据先按照一定的规则排序，然后刷写到磁

2021-10-06 11:53:44 739

原创 shell脚本实现大量数据入MySQL

大量的插入sql，入库而且不中断的正确方式如题，有个5千万的MySQL插入语句，怎么在不中断的情况下，插入数据到MySQL？1，如图数据切割数据1，先把数据上传到数据库所在的服务器2，首先来切割sql1）新建个文件夹，防止混乱，防止数据丢失查询数据条数wc -l data.sql2）接下来切割 split -l 200000 -d --verbose data.sql spl如下图1是切割，2是每个文件得大小，3是要切得sql执行脚本3，让每个sql文件都可执行，编写。

2021-09-24 20:03:54 821

原创 otter 简单同步使用，上手就是这么随意

otter的同步使用，真是神了otter 的介绍部署安装使用总结otter 的介绍1，阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，同时为了提升用户体验，整个机房的架构为双A，两边均可写，由此诞生了otter这样一个产品。otter第一版本可追溯到04~05年，此次外部开源的版本为第4版，开发时间从2011年7月份一直持续到现在，目前阿里巴巴B2B内部的本地/异地机房的同步需求基本全上了otte4。目前同步规模：同步数据量6亿

2021-08-26 20:08:27 3086 1

原创同步工具datax,好用又方便，上手顶呱呱

datax的上手操作datax的介绍安装开始使用datax的介绍1，DataX 是阿里开源的一个异构数据源离线同步工具，为了解决包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。2，1）设计的目的：2）设计的框架：reader:数据采集writer:数据写入framework:连接3）原理：安装1，官方地址下载地址：http://datax-opensource.oss-cn-hangzh

2021-08-23 23:15:03 1438 4

原创话说最有价值的投资

你咋样回首发现，只有自己混得差劲，只是自己在转圈，虽然经历了很多同龄人不该经历的，但是还只是在原点。定位做好技术，不能再辜负,踏实做，努力做，相信努力还赶得上，有你一起走，一切都是美好的目标大数据，好好的技术，不断积累，从内打破，坚持自己架构，框架，思维，等等，创业的经历先存起来…08北京夏奥运会，10世博会，亚运会，大运会，青奥会，还有和你一起的北京22冬奥会，值得相信自己可行...

2021-07-08 22:20:04 159 2

原创流式同步工具Maxwell 全量增量导入最强示例

大家都混得不错你咋样定位目标你咋样回首发现，只有自己混得差劲定位做好技术，不能再辜负目标大数据，好好的技术，不断积累，从内打破，坚持自己相信自己可行

2021-06-30 21:37:14 1850 7

原创大数据同步工具sqoop的上手操作

sqoop的上手操作1.sqoop安装调试2.介绍3.使用1.sqoop安装调试1，下载并解压1）下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2）上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop12的/opt/soft路径中3）解压sqoop安装包到指定目录，如：[xian@hadoop12 software]$ tar -zxf sqoop-1.4.6.bin__hadoop

2021-05-31 22:54:28 274 4

原创 csv格式导入MySQL数据库中文乱码

Mysql数据库导入.csv格式的数据中文乱码1，MySQL数据库导入.csv格式的数据中文乱码1）利用工具，小海豚或者navicat，以下使用后者举例。2)接下来选择格式3）导入数据库成功，可是出现了中文乱码问题排查问题1,首先排查是不是数据库的库表设计的问题1）从图中很明显看出来不是这个问题2）不放心，继续排查这个问题也排除了2，记下来就是导入文件的问题1）格式也是正确的，没有乱码，这是什么问题呢，有点迷，继续排查2）尝试改编码，Ok,搞定了有你真好，每天都是

2021-03-31 20:30:44 2094

原创 Azkaban的简单语法

azkaban的使用说明简单介绍1 Azkaban介绍1）一个完整的数据分析系统通常都是由大量任务单元组成：Shell脚本程序，Java程序，MapReduce程序、Hive脚本等2）各任务依赖关系，为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；2 常见工作流调度系统1）简单的任务调度：直接使用Linux的Crontab来定义；2）复杂的任务调度：使用现成的开源调度系统，比如Ooize、Azkaban、 Airflow、DolphinScheduler等。3 Azk

2021-03-30 22:30:18 504

原创原来python还可以这样在vscode用

vscode终端没法调试python无法使用vscode调试python1,首次尝试使用vscode调试python的代码,可是出现这种情况,据说是不能兼容导致的,然后用的别的思路解决办法1,首先安装好vscode,过程省略,官网有很详细的说明2,装好python解释器,我这里使用的3.8.73,由于我这里还用数据库,所以还装了Anaconda34,接下来就是下图的git的bash命令的操作,你运行你想运行的.py程序,就可以了总能等到对的人...

2021-02-26 16:01:51 223

转载 parquet和orc 一次说清了

背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Pre...

2021-01-10 21:33:11 678

原创 DBeaver 导MySQL数据入Phoenix 就是这么轻松

DBeaver的巧妙使用安装使用操作总结安装1,去官网下载安装 https://dbeaver.io/2,按如图操作，你的服务器IP ，端口3,添加驱动使用操作3,这边连接目标数据表，也就是Phoenix的表!4,接下来就是点点了4.1，选择要导入的表4.2，选择源数据表，也就是要导出的表5,接下来就是操作了5.1数据量大就是按段选择，注意下5.2数据量小就是单个查询6,下一步，等着操作成功总结这些都是临时操作，有批量操作还是Spark SQL或者其他，有好的建议一起

2021-01-10 21:16:43 224

转载 Hive 中生成随机唯一标识ID的方法

HIVE中处理的数据往往比较多，在处理数据的时候希望给处理得到的数据一个ID标识，这时候可以用到UUID。 UUID的算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。从理论上讲，如果一台机器每秒产生10000000个UUID，则可以保证（概率意义上）3240年不重复。UUID 的目的，是让分布式系统中的所有元素，都能有唯一的标识，而不需要透过中央控制端来做标识。如此一来，每个人都可以建立...

2021-01-10 19:56:38 4595

原创 sparksql本地跑遇到的大坑

sparkSQL本地运行，加载json文件到线上hive表本地配置线上授权一个cmd运行，搞定本地配置这些都是环境变量的，配置的，注意下线上授权就是写入表文件授权一个cmd运行，搞定这个是外加的，可以自己去下载，和hadoop对应就行；在spark/bin运行一下图的就可以了...

2020-12-30 23:29:32 212

原创生产大数据集群架构图

大数据集群架构图说明可能出现的问题架构图根据自己的数据量1）20核物理CPU 40线程 * 7 = 280线程内存128g * 7台 = 896g （计算任务内存700g，其他安装框架需要内存）128m ----1g内存87g数据 ---- 700g内存2）根据数据规模搭建集群模拟的10台机器说明1）消耗内存的分开；2）kafka 、zk 、flume 传输数据比较紧密的放在一起；3）客户端尽量放在一到两台服务器上，方便外部访问；4）还有就是MySQL，sqoop，azka

2020-11-29 23:19:11 990

原创大数据之Flink的看了就可入门

Flink介绍介绍原理简单使用初步编程介绍1 什么是FlinkApache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink起源于Stratosphere项目, 2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会, 2014年12月，Flink一跃成为Apache软件基金会的顶级项目。2 Flink 对比 SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark掀开了内存计算的先河，但是在其火热

2020-09-30 22:45:48 507

原创 flume的操作指南简单上手

这就是flume介绍原理操作1 简单实现步骤：2 实际需求介绍1,Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,方便使用.2,最主要就是实时读取服务器本地磁盘的数据,将数据写入hdfs.3, AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、

2020-08-29 23:33:36 333

原创大数据spark core的介绍

sparkcore的操作指南Spark是什么原理运行模式基础编程Spark是什么1.Spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。并且 Spark 目前已经成为 Apache 最活跃的开源项目。2.Spark特点2.1 快速与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上.2.2 易用Spark 支持 Scala, Java, Python, R 和 SQ

2020-08-15 23:43:29 713

原创 HBase的介绍,使用

HBase的介绍简单介绍简单运用进阶简单介绍1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个 map。1.3 数据模型1）Name Space命名空间，类似于关系型数据库的DataBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是“hbase”和“def

2020-08-02 21:18:17 505

原创 Linux之centos搭建集群启动总是报 piix4_smbus

集群启动就报问题出现问题解决思路解决方法出现问题1,搭了三台服务的集群,可是在启动的时候总是报这样的错或者2,咋一看集群每台报的错还不一样解决思路1,后来分析了一下,是不是配置没有搞好,或者关虚拟机太直接…2,检查之后都没有问题,那这个是啥问题了?想不明白,纠结了好久,也查了好多资料解决方法1,总结起来就是下面几条:1)关虚拟机时注意不能直接断电,要用命令关机,poweroff2)修改配置文件的vim /etc/modprobe.d/blacklist.conf #新增一行 bla

2020-07-23 17:01:18 535

原创 Linux高级操作(网络,免密等)一系列指令(中)

Linux高级的操作1.crontab命令功能安装crontab2.网络管理主机名配置ip地址配置域名映射3.SSH免密登录和用户管理SSH工作机制添加用户4. 防火墙配置和 web的通讯原理5.NginxLinux安装Nginx1.crontab命令功能通过crontab 命令，我们可以在固定的间隔时间执行指定的系统指令。时间间隔的单位可以是分钟、小时、日、月、年及以上的任意组合。这个命令非常适合做周期性的工作，如：数据备份，程序自动运行。安装crontab语法：yum install pac

2020-07-12 23:28:53 397

原创大数据之数据仓库工具Hive

数据仓库工具Hive可是省事了介绍原理安装介绍1.hive简介Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。2.1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上3.优点:操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）,通用性强;缺点:Hive的HQL表达能力有限;Hive的效率比

2020-06-26 16:40:29 553

原创 hadoop集群启动遇到的问题之hadoop1启动,集群别的机器hadoop2,hadoop3没有启动

hadoop群起的问题hadoop1正常启动,但是hadoop2,3都是不正常分析问题解决方法hadoop1正常启动,但是hadoop2,3都是不正常– 自己搭的hadoop群起服务,第一台机器是正常启动,但是第二台就没有datanodes,第三台也么有分析问题– 分析了一下,感觉就是要不ssh免密没做好,– 要不就是群起配置有问题,– 最后就是初始化出现问题;解决方法1,先是进去.ssh文件看了下,没有问题,并且手动测试了ssh相互登录,可以;2,再去看看了关键的群起配置,这五大

2020-06-25 11:51:10 2501

原创 hadoop之本地跑的出现Exception in thread main org.apache.hadoop.mapred.FileAlreadyExistsException

报错解决出现报错解决问题出现报错一般本地跑出现的问题Exception in thread “main” org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/E:/bdexer/output5-1 already exi解决问题这就是输出的文件出错导致的,可以删掉即可...

2020-06-21 11:29:02 1674 2

原创大数据之hadoop的环境变量及客户端测试

HDFS的客户端安装HDFS客户端环境准备测试安装写个demoHDFS客户端环境准备–1.下载好hadoop3.0.0–2配置好环境变量测试安装–cmdwinutils有反应的话,就是可以的写个demo**1用idea创建一个maven项目,添加如下依赖: <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</

2020-06-14 23:04:03 300

原创 Linux之CentOS 7 操作命令超详细说明 (上)

Linux用法什么是LinuxLinux分类Linux安装Linu命令远程连接工具什么是Linux对于windows操作系统而言，大家应该不陌生，这里我列举一些windows的不足：个人用户正版windows需要收费系统长时间运行不稳定，变慢，容易死机windows常招到病毒攻击相反，上述windows的不足，恰好是另一款操作系统Linux的优势所在，这里我也列举一些Linux的优点：个人用户正版Linux不需要收费或安装特殊功能需要收费系统长时间运行稳定，不会变慢，不容易死机Li

2020-06-06 22:39:30 534

原创通讯协议tcp和udp区别,简单明了

到底是什么意思区别TCPUDP区别TCP协议：使用TCP协议前，须先建立TCP连接，形成传输数据通道传输前，采用“三次握手”方式，是可靠的TCP协议进行通信的两个应用进程：客户端、服务端在连接中可进行大数据量的传输传输完毕，需释放已建立的连接，效率低UDP协议：将数据、源、目的封装成数据包，不需要建立连接每个数据报的大小限制在64K内因无需连接，故是不可靠的发送数据结束时无需释放资源，速度快lTCP–利用套接字(Socket)开发网络应用程序早已被广泛的采用，以至于成为事实上的

2020-05-31 22:18:59 420

原创各种集合区别

集合的区别单列集合list集合ArrayList 是 List 接口的典型实现类Vector 是一个古老的集合Set接口是Collection的子接口Map与Collection并列存在HashMap是 Map 接口使用频率最高的实现类。单列集合Collection 接口是 List、Set 和 Queue 接口的父接口，该接口里定义的方法既可用于操作 Set 集合，也可用于操作 List 和 Queue 集合。list集合List集合类中元素有序、且可重复，集合中的每个元素都有其对应的顺序索引。

2020-05-24 23:04:55 1236

settings.zip

idea设置,就是方便使用

空空如也