自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 问答 (7)
  • 收藏
  • 关注

原创 24.04.15 软件管理、进程管理

地球另一端有你陪我。

2024-04-15 10:38:14 389

原创 磁盘挂载、配额、逻辑盘配置

地球另一端有你陪我。

2024-04-08 10:30:57 275

原创 kettle 导入资源库失败 There was an error while inporting repositry object from an XML file

kettle 导入资源库失败 There was an error while inporting repositry object from an XML file

2022-11-04 11:28:35 497 1

原创 安装 sqlserver 2008 提示:重新启动计算机失败

安装 sqlserver 2008 R2 时候,最初检测时此处提示未通过,提示重新启动计算机未通过

2022-11-03 15:37:03 2255

原创 day83 Flink Sink集群 运行流程 事件时间

文章目录一、Flink1、Sink1 直接在控制台打印2 连接写入至 mysql3 写至本地文件I know, i know地球另一端有你陪我一、Flink1、Sink可以使用自定义 Sink,需要实现 RichSinkFunction 接口,重写里面的 invoke1 直接在控制台打印package sinkimport org.apache.flink.configuration.Configurationimport org.apache.flink.streami

2022-01-19 22:29:27 1859

原创 day82 Flink 安装 Source 算子

文章目录一、Flink1、Flink 和 Spark 区别有的没的I know, i know地球另一端有你陪我一、FlinkApache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。可以对标 Spark,一个擅于流处理,一个擅于批处理1、Flink 和 Spark 区别应用上:Flink 多用于处理流数据;Spark 多用于处理批数据底层上:Flink 底层是持续流

2022-01-19 15:17:56 1472

原创 项目工具 AZKABAN KYLIN FineBI

文章目录一、AZKABAN1、安装2、使用方法I know, i know地球另一端有你陪我一、AZKABAN一个 JAVA 编写的、开源的,任务调度工具linux 中自带 crontab 的调度工具,但是只能够定时启动而较难处理多个任务调度之间的依赖关系1、安装1 上传解压文件unzip azkaban-solo-server.zip2 修改配置文件中的时区vim conf/azkaban.properties// 修改时区default.timezone.id

2022-01-17 19:35:08 390

原创 报错:$‘\r‘:未找到命令

报错:$'\r':未找到命令

2022-01-12 20:10:06 1008

原创 day75 saprk 调优

文章目录一、代码优化1、对多次使用的RDD进行缓冲2、使用高性能算子3、广播变量 broadcast4、Kryo优化序列化性能5、数据本地性二、参数调优三、数据倾斜优化1、双重聚合2、将 reduce join 转为 map join3、双重 joinI know, i know地球另一端有你陪我一、代码优化1、对多次使用的RDD进行缓冲使用 cache,注意持久化策略MEMORY_ONLY 和 MEMORY_AND_DISK_SER序列化能够对数据进行压缩,减少数据的占用

2022-01-11 16:55:33 271

原创 day74 Spark - streaming

文章目录一、Spark - streaming1、WordCount2、UpdateStateByKey3、foreachRDD4、模拟带状态算子5、滑动窗口6、稽查布控I know, i know地球另一端有你陪我一、Spark - streaming微批处理,一定时间内将该段时间产生的数据进行批处理,是一种近似的实时处理1、WordCountpackage streamingimport org.apache.spark.streaming.dstream.Receiv

2022-01-11 16:55:17 164

原创 day73 Spark - sql

文章目录一、Spark 执行方式1、spark-submit2、spark shell3、spark-sql二、散碎1、外部链接到 hive 库2、Spark 中的 Map Join(小表广播)3、PageRank零碎I know, i know地球另一端有你陪我一、Spark 执行方式1、spark-submitpackage testimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo6Subm

2022-01-07 20:49:56 1155

原创 day69、70 Spark 架构 常见算子 接着有的没的

文章目录一、一些架构1、Spark 简单架构2、yarn-client3、yarn-cluster二、一些架构I know, i know地球另一端有你陪我一、一些架构1、Spark 简单架构算子会在 Excutor 中的线程池中进行,而算子之外的命令都会在 Driver 中执行2、yarn-client3、yarn-cluster一个较大的区别是 Driver 端启动的位置不一样另一个是日志的打印位置,cluster 不会将日志全部打印在本地(Driver)可以

2022-01-02 20:59:01 1537

原创 day68 Spark core 安装 五大特性 有的没的

文章目录一、基本容器1、Tuple零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是,四个基本容器全是不可变的1、Tuple零碎本地(local)运行 Spark 项目需要在任意位置导入一个新建一个 hadoop / bin 路径bin 下面塞一个 winutils.exe,在环境变量中添加 hadoop 到 HDOOP_HOME可以回避一个报

2021-12-29 22:27:08 939

原创 day67 Scala 容器 隐式转换

文章目录一、基本容器1、Tuple2、List3、Set4、Map二、隐式转换1、隐式转换方法2、隐式转换变量3、隐式转换类各种小零散碎1、模式匹配(case)2、Null null Nil Nothing None Unit3、Trait零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是,四个基本容器全是不可变的1、TupleTuple 元组:不可变,有序,元素可以重复

2021-12-26 19:47:20 318

原创 day65、66 Scala 面向对象 面向函数

零碎// Any是任意类型的基类// AnyRef:任意引用类型的基类// AnyVal:任意值类型的基类Nothing 无参数B 任意类型返回值Unit 无返回值

2021-12-26 19:46:53 441

原创 day63、64 阿里云 datawork

文章目录一、数据开发 -- DataWorks1、创建表1 从其他数据源中同步2 手动创建表3、业务流程二、运维中心三、数据服务四、连接 MaxCompute 的另两种方法1、odpscmd 客户端2、MaxCompute Studio3、MaxCompute Java五、行列转换(部分)1 explode2 posexplode3 lateral view4 MaxCompute 自定义函数5 Function Stutio 自定义函数零碎I know, i know地球另一端有你陪我

2021-12-22 21:56:59 884

原创 day 60、61、62 Python Scrapy

文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、选择结构3、循环结构4、文件 IO5、连接 MySQL6、日期转换7、函数8、函数参数的类型二、面向对象1、类三、异常处理I know, i know地球另一端有你陪我一、Python1、数据容器scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

2021-12-20 21:43:20 273

原创 day 58、59 Python

文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、遍历I know, i know地球另一端有你陪我一、Python1、数据容器类似于 java 中的集合,Python 包含四大数据容器元组tuple、列表list、集合set、字典dict1、元祖 tuple特点:1、元素类型可以不唯一2、元素允许重复3、初始化后,其中元素不可修改4、输入输出有序定义:tuple1 = (1,1,1,2,2,3,4,

2021-12-15 21:14:48 749

原创 kettle 一些基础

文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeKettle是一款开源的ETL工具,纯java编写,可以在 Window、Linux、Unix 上运行,绿色无需安装是国外开源 ETL工具,支持数据库、FTP、文件、rest接口、hdfs、hive等平台的灵敏据进行抽取、转换、传输等操作,Java编写跨平台,

2021-12-12 10:12:45 1322

原创 day 56 flume

文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeflume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。特点是实时采集Eventfl

2021-12-12 09:18:39 291

原创 day 54 Sqoop

文章目录一、Sqoop1、SQOOP安装准备MySQL数据2、import2.1 MySQLToHDFS2.2 MySQLToHive2.3 MySQLToHBase3、export3.1 HDFSToMySQL4、查看sqoop help5、增量导入**建表**append总结I know, i know地球另一端有你陪我一、SqoopApache开源软件,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。数据吞吐量大:依赖ha

2021-12-07 21:52:17 1919

原创 day 53 HBase BulkLoading

HBase BulkLoading优点:如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载。限制:

2021-12-06 19:00:57 1118

原创 day 53 HBase 参数调优

文章目录HBase参数调优什么时候触发 MemStore Flush?什么操作会触发 MemStore 刷写检测?MemStore 刷写策略(FlushPolicy)I know, i know地球另一端有你陪我HBase参数调优hbase.regionserver.handler.count该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的G

2021-12-05 21:12:04 133

原创 day 53 HBase RowKey设计

文章目录1、rowkey长度原则2、rowkey散列原则3、rowkey唯一原则二、热点问题1、加盐2、哈希3、反转时间戳反转其他一些建议I know, i know地球另一端有你陪我HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有三种方式:通过get方式

2021-12-05 16:37:24 74

原创 day 52 HBase phoenix 安装 指令 二级索引

文章目录一、phoenix1、安装2、常用指令3、视图映射3.1、视图映射3.2、表映射二、二级索引1、开启索引支持2、全局索引3、本地索引4、覆盖索引三、Phoenix JDBC总结I know, i know地球另一端有你陪我一、phoenixHbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方

2021-12-05 09:22:17 1286

原创 day 51 MapReduce to HBase

I know, i know地球另一端有你陪我

2021-12-03 20:38:51 71

原创 day 51 hbase 过滤 器布隆过滤器

文章目录一、过滤器1、常见的比较运算符2、常见的比较器BinaryComparatorBinaryPrefixComparatorRegexStringComparatorSubstringComparator3、常见过滤器rowKey过滤器:RowFilter列簇过滤器:FamilyFilter列过滤器:QualifierFilter列值过滤器:ValueFilter4、专用过滤器单列值过滤器:SingleColumnValueFilter列值排除过滤器:SingleColumnValueExcludeF

2021-12-02 22:36:06 871

原创 day 50 hbase java连接

文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region( region 类似hadoop 中的 blo

2021-12-01 21:17:22 106

原创 day 49 hbase 基础

文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region( region 类似hadoop 中的 blo

2021-12-01 21:14:57 313

原创 day 49 hbase 安装 指令

I know, i know地球另一端有你陪我一、HBaseHBase – Hadoop Database是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用 Hadoop HDFS 作为其文件存储系统利用 Hadoop MapReduce 来处理 HBase 中的海量数据利用Zookeeper作为其分布式协同服务主

2021-11-30 19:52:26 579

原创 day 48 hive 一些习题

文章目录一、窗口函数1、列出至少有一个员工的所有部门2、列出薪金比“SMITH”多的所有员工3、列出所有员工的姓名及其直接上级的姓名4、列出受雇日期早于其直接上级的所有员工5、列出部门名称和这些部门的员工信息,同时列出那些没有员工的部门6、列出所有“CLERK”(办事员)的姓名及其部门名称7、 列出最低薪金大于1500的各种工作8、列出在部门“SALES”(销售部)工作的员工的姓名,假定不知道销售部的部门编号9、列出薪金高于公司平均薪金的所有员工10、列出与“SCOTT”从事相同工作的所有员工11、列出薪金

2021-11-27 22:05:32 1076

原创 day 47 hive 开窗函数(二) 自定义函数

文章目录一、窗口函数1、window as2、with as3、常用函数4、窗口帧二、常用函数1、UDF:一进一出2、UDTF:一进多出总结I know, i know地球另一端有你陪我一、窗口函数1、window asselect *,rank() over(partition by clazz order by score desc) as scorerankfrom students;这里的 over() 中的语句大多相似,可以独立拆下来,用变量名代替window o

2021-11-26 19:50:55 925

原创 day 46 hive 分区/桶 JDBC 数据类型 开窗函数(连续登陆问题,top N)

文章目录一、分区1、分区2、动态分区3、多级分区(多级子目录)二、分桶三、Hive JDBC四、一些数据类型1、基本数据类型2、时间类型3、复杂数据类型1 array2 map3 struct4、行、列转换1 行转列2 列转行五、开窗函数总结I know, i know地球另一端有你陪我一、分区1、分区实际上是在表的目录下在以分区命名,建子目录作用:能够避免全表扫描,减少MapReduce处理的数据量,提高效率需要在建表时加上分区字段,通常按日期、地域分区,一般不超过三级目录,

2021-11-26 19:50:41 816

原创 day 45 hive 安装 基础知识 指令

文章目录一、hive1、hive 安装2、hive 测试二、hive二、ZK 搭建1、使用 zk2、java 使用 zk三、搞 hadoop 集群四、完成!I know, i know地球另一端有你陪我一、hiveHadoop 中,查询大多依赖 MapReduce ,慢得要死针对这种不足,人们开发出了专门应对的工具 hiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在

2021-11-24 22:07:00 966

原创 day 44 搞 hadoop 集群

文章目录一、Zookeeper二、ZK 搭建1、使用 zk2、java 使用 zk二、搞 hadoop 集群I know, i know地球另一端有你陪我一、Zookeeper一个高效的分布式协调服务,特点是可以设置观察者(ZKFC)按时返回节点的当前状态及时做出判断(动物园管理员,名字狂的要死)(想到孙悦)JN负责 Name Node 中,文件路径映射在主节点和备用主节点之间同步ZK可以理解为陪审团,负责根据接收 ZKFC 的信息,决定需不需要替换当前节点一般会设置

2021-11-23 10:05:01 558

原创 day 43、44 Hadoop mapreduce yarn

文章目录一、关于 Hadoop 的 hdfs1、hdfs 中的节点2、分布式存储4、java 连接 hdfs5、hdfs 读取流程6、hdfs 写入流程总结I know, i know地球另一端有你陪我 cd /usr/local/soft/hadoop-2.7.6/share/mapreduce hadoop jar hadoop-mapreduce-examples-2.7.6.jar wordcount /words.txt 输入路径 输出路径

2021-11-21 23:07:12 728

原创 day 42 Hadoop hdfs

文章目录一、关于 Hadoop 的 hdfs1、hdfs 中的节点2、分布式存储4、java 连接 hdfs5、hdfs 读取流程6、hdfs 写入流程总结I know, i know地球另一端有你陪我一、关于 Hadoop 的 hdfs1、hdfs 中的节点从节点(data node)负责存储数据:数据节点具有储存数据、读写数据的功能,其中存储的数据块(block)比较类似于硬盘中的"扇区"概念,是 HDFS 存储的基本单位主节点(name node)负责指挥其它节点:

2021-11-19 22:59:40 618

原创 day41 Hadoop 安装 指令

文章目录Hadoop1、安装2、基本操作3、关于 Hadoop 的 hdfs1、集群中不同的节点承担不同的职责2、分布式存储3、hdfs 中的节点4、hdfs 访问顺序总结I know, i know地球另一端有你陪我HadoopHadoop是一个适合海量数据的分布式存储和分布式计算的平台三大组件hdfs:是一个分布式存储框架,适合海量数据存储mapreduce:是一个分布式计算框架,适合海量数据计算yarn:是一个资源调度平台,负责给计算框架分配计算资源1、安装1

2021-11-18 22:47:56 939

原创 day40 redis 主从复制 集群

文章目录一、主从复制 Replication二、主从复制创建 slaveof1、开启服务时建立主从关系2、服务运行时指向3、配置文件中指向4、主从复制特点三、Redis 集群1、Redis 集群节点2、Redis 集群故障转移3、Redis 集群分片4、Redis 集群 转向 Redirect5、Redis 集群 搭建总结I know, i know地球另一端有你陪我一、主从复制 Replication现实环境中,服务器更多的被用来执行读命令为了缓解读压力,一个 Redis 服务可以

2021-11-17 20:24:22 769

原创 day40 redis 持久化 RDB & AOF

文章目录一、持久化1、RDB(Redis DB)1 save2 bgsave2、RDB 特点3、AOF(Append Only File)1 AOF 自优化 重新书写机制2 重写过程3 AOF 重写触发4、 AOF 特点I know, i know地球另一端有你陪我一、持久化将数据从掉电易失的内存存放到能够永久存储的设备上Redis持久化方式RDB(Redis DB)AOF(Append Only File)1、RDB(Redis DB)默认持久化方式,Redis 将数据库

2021-11-17 10:55:01 58

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除