程研板-CSDN博客

原创 Spark中的Join操作及问题解决

目录一.数据准备二.Spark Core中的Join三.Spark SQL中的Join一.数据准备grade.txt:（id, grade）1,751,861,642,76address.txt:（id, address）1,shanghai1,beijing二.Spark Core中的Join需要把每行转换成键值对的形式。val grade = sc.textFile("D:\\study\\ideaProject\\first_maven\\input\\grade.txt"

2022-04-04 14:20:53 3311

原创一文讲透Spark中的分区和分桶的不同

目录一.数据准备二.Spark Core中的分区三.Spark SQL中的分区和分桶（用HQL）一.数据准备partition.txt:b,2c,1b,1d,3a,2b,1二.Spark Core中的分区val rdd = sc.textFile("D:\\study\\workspace\\spark-sql-train\\input\\partition.txt") .map(_.split(",")).map(x => (x(0), x(1)))rdd.saveAs

2022-04-03 18:48:07 3103

原创 Spark中的checkpoint机制

目录一.Spark Core中的checkpoint二.Spark Streaming中的checkpoint三.Spark Structured Streaming中的checkpoint一.Spark Core中的checkpoint二.Spark Streaming中的checkpoint三.Spark Structured Streaming中的checkpoint

2022-03-14 19:00:26 2746

原创 Spark用户行为日志分析——离线项目整理

目录一.读取数据源二.Spark SQL进行ETL三.数据落地到HBase一.读取数据源用户行为日志：110.85.18.234 - - [30/Jan/2019:00:00:21 +0800] "GET /course/list?c=cb HTTP/1.1" 200 12800 "www.imooc.com" "https://www.imooc.com/course/list?c=data" - "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/5

2022-03-13 13:32:06 5039

原创 Spark用户行为日志分析——实时项目整理

目录一.数据源二.数据收集Flume三.消息队列Kafka四.Spark Streaming数据分析五.Structured Streaming数据分析六.Echarts数据可视化一.数据源二.数据收集Flume三.消息队列Kafka四.Spark Streaming数据分析五.Structured Streaming数据分析六.Echarts数据可视化...

2022-03-13 13:31:00 951

原创 Kafka容错性测试

目录一.创建3个配置文件二.启动zk和kafka三.创建topic、消费者、生产者四.三个broker五.kill掉一个，依然能工作六.kill掉两个，依然能工作一.创建3个配置文件server.properties：broker.id=0listeners=PLAINTEXT://hadoop000:9092log.dirs=/home/hadoop/app/tmp/kafka-logserver-1.properties：broker.id=1listeners=PLAINTEXT:/

2022-03-12 18:46:44 1928

原创 Spark Streaming官网重点整理

目录一.Spark Streaming1.Input DStreams and Receivers2.Receiver Reliability3.Transform Operation4.UpdateStateByKey Operation5.Output Operations on DStreams6.DataFrame and SQL Operations7.Fault-tolerance Semantics二.Spark Structured Streaming一.Spark Streaming1

2022-03-09 21:31:15 424

原创 Spark SQL Guide——Data Sources

文章目录Parquet FilesPartition Discovery（解析分区信息）Schema Merging（模式归并）Hive metastore Parquet table conversion（Hive metastore Parquet表转换）Columnar Encryption（列式加密）Hive TablesSpecifying storage format for Hive tables（指定Hive表的存储格式）Interacting with Different Versions

2022-01-27 01:39:40 1470

原创 Hive的Metastore与Hiveserver2

文章目录Metastore原生Hive（内嵌模式）采用外部数据库（本地模式）单独起metastore服务（远程模式）Hiveserver2Metastore原生Hive（内嵌模式）Derby的内嵌模式：Derby数据库与应用程序共享同一个JVM，通常由应用程序负责启动和停止，对除启动它的应用程序外的其它应用程序不可见，即其它应用程序不可访问它；不同路径下启动hive，不同路径下都会生成metastore_db文件，每一个路径下的hive拥有一套自己的元数据，无法共享。spark和Hive一样，都

2022-01-25 20:42:43 4311

原创对Spark中Driver的小研究

目录Standalone模式Yarn模式driver是进程吗？先说结论：1.Standalone模式中，client是spark-submit进程中开启一个线程，然后通过反射执行driver代码的main方法。cluster是开启DriverWrapper进程来运行driver。2.Yarn模式，client是spark-submit进程中开启一个线程，然后通过反射执行driver代码的main方法。cluster是ApplicationMaster进程中通过反射执行driver代码的main方法

2022-01-13 00:00:18 1605 1

原创 SQL案例分析及易错点整理

目录创建user表过滤行聚合函数分组子查询case when窗口函数创建user表create table user(username varchar(10),class int,performance int)insert into user values("zhang",1,6);insert into user values("zhu",1,8);insert into user values("liu",1,4);insert into user values("guo",2,6

2022-01-11 19:50:29 421

原创《大数据技术体系详解》问题积累（持续更新）

文章目录一.数据收集1.关系型数据收集2.非关系型数据收集3.消息队列Kafka二.数据存储三.协调与资源管理四.计算引擎五.数据分析1.Hive2.Spark SQL一.数据收集1.关系型数据收集sqoop：全量收集。sqoop2和sqoop1的比较，就是将以前的CLI变为Server，然后再实现一个轻量级的CLI，可通过命令行或者HTTP来访问Server。就是把以前的CLI部署到了云端，现在的CLI只需要发送命令就行了。sqoop提交的就是一个只有map的MR程序。从mysql导入到h

2021-10-31 16:16:52 1010

原创微信小程序入门知识点汇总

整理自慕课网实战课《微信小程序入门》1.JSON对象和JS对象的区别2.px和rpx的区别3.flex布局4.属性中字符串和JS表达式的区别5.数据绑定Paga.data和SetData函数6.DOM优先和数据优先7.生命周期函数和特殊回调函数8.条件渲染和列表渲染9.路由函数NavigateTo和RedirectTo的区别10.Catch与Bind事件的区别...

2021-09-02 17:11:28 472 1

原创玩转算法(十四)——链表(排序和重排)

目录重排86. 分隔链表328. 奇偶链表143. 重排链表排序148. 排序链表147. 对链表进行插入排序重排86. 分隔链表86. 分隔链表328. 奇偶链表328. 奇偶链表143. 重排链表143. 重排链表排序148. 排序链表148. 排序链表147. 对链表进行插入排序147. 对链表进行插入排序...

2021-07-29 13:06:58 164

原创玩转算法(十三)——链表(双链表)

目录双链表2. 两数相加445. 两数相加 II21. 合并两个有序链表双链表2. 两数相加2. 两数相加445. 两数相加 II445. 两数相加 II21. 合并两个有序链表21. 合并两个有序链表

2021-07-26 12:44:05 101

原创玩转算法(十二)——链表(删除链表)

目录删除链表83. 删除排序链表中的重复元素203. 移除链表元素82. 删除排序链表中的重复元素 II237. 删除链表中的节点19. 删除链表的倒数第 N 个结点删除链表83. 删除排序链表中的重复元素83. 删除排序链表中的重复元素203. 移除链表元素203. 移除链表元素82. 删除排序链表中的重复元素 II82. 删除排序链表中的重复元素 II237. 删除链表中的节点237. 删除链表中的节点19. 删除链表的倒数第 N 个结点19. 删除链表的倒数第 N 个结点..

2021-07-25 21:26:54 138

原创玩转算法(十一)——链表(反转链表)

目录反转链表206. 反转链表92. 反转链表 II24. 两两交换链表中的节点25. K 个一组翻转链表61. 旋转链表反转链表206. 反转链表206. 反转链表92. 反转链表 II92. 反转链表 II24. 两两交换链表中的节点24. 两两交换链表中的节点25. K 个一组翻转链表25. K 个一组翻转链表61. 旋转链表61. 旋转链表...

2021-07-24 12:06:11 137 1

原创提倡移动计算，但是移动数据也存在

2021-06-02 13:54:11 109

原创关于Hive和Spark on yarn的调度总结

目录参考文章参考文章Hive Driver 原理yarn-cluster和yarn-client提交模式的区别Spark Thrift Server 架构和原理介绍理解Spark SQL(一）—— CLI和ThriftServer

2021-05-22 21:10:20 724

原创 Spark设计原理(三)——错误容忍机制

2021-05-17 11:30:37 250 3

原创 Spark设计原理(二)——数据缓存机制

2021-05-12 15:42:29 445 3

原创 Spark设计原理(一)——Shuffle机制

2021-05-03 17:23:06 917 3

原创 Spark core算子的一点小总结

scala> val inputRDD1 = sc.parallelize(Array[(Int, Char)]( | (1, 'a'), (2, 'b'), (3, 'c'), (4, 'd'), (5, 'e'), (3, 'f'), (2, 'g'), (1, 'h'), (2, 'i') | ), 3)inputRDD1: org.apache.spark.rdd.RDD[(Int, Char)] = ParallelCollectionRDD[13]

2021-04-29 16:29:50 102 1

原创 Hive性能调优(四)——如何解决数据倾斜问题

2021-04-24 12:52:01 196 2

原创 Hive性能调优(三)——通过Yarn WebUI来定位性能瓶颈

2021-04-22 15:35:20 718 3

原创大数据中各种压缩格式性能对比

2021-04-20 18:07:57 527 3

原创 Hive性能调优(二)——一文搞懂HiveSQL执行计划

测试的数据请看上一篇博客，数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explain select s_age,s_scorefrom student_tb_seqwhere s_age=20;+----------------------------------------------------+--+| .

2021-04-18 16:34:03 825

原创 Hive性能调优(一)——不同数据格式对Hive性能的影响

目录一.数据生成二.数据准备三.性能测试四.原因分析一.数据生成# coding: utf-8import randomimport datetimeimport importlibimport sysimportlib.reload(sys)# lastname和first都是为了来随机构造名称lastname = u"赵李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗"firstname = u"红尘冷暖岁月清浅仓促间遗落一地如诗

2021-04-17 11:38:51 533

原创日志方面的常见问题及log4j的使用

目录一.MapReduce和Spark的日志MapReduceSpark二.自定义的日志三.参考文章一.MapReduce和Spark的日志MapReduceMapReduce在IDEA上并没有运行日志，只能去UI上查看log。则需要借助 log4j 来查看日志。log4j.properties:log4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.s

2021-04-13 11:33:58 203

原创关于MapReduce的一些面试题

目录一.MapReduce的执行过程二.其实并不简单的WordCount一.MapReduce的执行过程官方描述：map端merge是多路归并reduce端merge是两路归并自己描述：二.其实并不简单的WordCount@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 把value对应

2021-04-13 10:10:37 702

原创整理下Maven和运行jar包的常用操作

目录一.Maven的package流程一.Maven的package流程有三种内置的build lifecycles：default、clean和site。默认生命周期处理项目部署，clean生命周期处理项目清理，而site生命周期处理项目站点文档的创建。A Build Lifecycle is Made Up of Phases.输入命令时：You should select the phase that matches your outcome. （package是default life

2021-04-04 13:19:55 442

原创 Scala 编程语言的难点总结

目录一.问题思考1.函数与方法的区别2.伴生对象和apply()到底有什么用3.Option[T]的意义是啥二.参考文章一.问题思考1.函数与方法的区别首先了解下函数与方法的区别：Scala 方法是类的一部分，而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。Scala 中的函数则是一个完整的对象。class Test{ def m(x: Int) = x + 3 //方法 val f = (x: Int) => x + 3

2021-03-30 19:19:49 237

原创 linux常用的命令及讲解

目录一.目录结构二.目录管理三.文件管理四.权限管理五.压缩与解压六.软件安装与卸载七.其他八.参考文章一.目录结构ls 当前目录下的所有目录ls -l 目录详细格式（等同于命令 ll）二.目录管理mkdir -p folder1/folder2没有folder1目录则依次创建folder1和folder2rmdir folder1/folder2删除名字为folder2的目录。rmdir -p folder1/folder2删除名字为folder1里面的fold

2021-03-21 22:03:55 156 1

原创字节流，缓冲流（copy文件测试）及装饰者模式

以下案例包含4个测试函数：单字节的字节流数组的字节流单字节的缓冲流数组的缓冲流文件数据为15MB左右。import java.io.*;public class IO_test { // 单字节的字节流 public static void copy(File in, File out) throws IOException { InputStream is = new FileInputStream(in); OutputStream o

2021-03-13 18:24:54 233

原创学习JVM的预备知识

目录一.CPU工作原理二.指令入门（MIPS-32架构）指令案例寻址模式浮点数三.中断和中断向量一.CPU工作原理程序指针指向指令空间为100的指令，（指令移到指令寄存器，解析指令，转成机器码，运行指令），数据空间为1000的数据存到寄存器A。运行第二条指令，和上面一样，数据空间为1008的数据存到寄存器B。运行第三条指令，寄存器A和寄存器B内的数据相乘，结果存到寄存器C。运行第四条指令，寄存器C中的数据转存到内存的数据空间1016。二.指令入门（MIPS-32架构）opcode表示要执

2021-03-11 15:31:14 377 3

原创 hive执行任务的map个数

执行一个600多MB的数据（就一个文件，里面有500万行数据），在hdfs中有5个block，只用了3个mapper，有点不理解。hive> select count(1) from sogou_ext_20111230;MapReduce Jobs Launched: Stage-Stage-1: Map: 3 Reduce: 1 Cumulative CPU: 10.03 sec HDFS Read: 643703440 HDFS Write: 8 SUCCESSTotal Ma

2021-02-13 23:33:05 681

原创 Hive内外表和分区分桶

目录关于external和location分区Beeline关于external和location不管是外部表还是内部表，location为默认值的话，创建表的时候都会在数据库文件夹下产生和表同名的文件夹。内部表删除，文件夹和文件夹下的数据都会删除。外部表不会。mysql> select * from DBS;+-------+-----------------------+---------------------------------------------------------+--

2021-02-08 19:26:01 331

原创 flume日志写入到hdfs按时间分割

exec-hdfs-agent.conf:exec-hdfs-agent.sources = exec-sourceexec-hdfs-agent.sinks = hdfs-sinkexec-hdfs-agent.channels = memory-channel# Describe/configure the sourceexec-hdfs-agent.sources.exec-source.type = execexec-hdfs-agent.sources.exec-source.com

2021-02-08 14:49:43 391

原创 HBase工作流程及存储结构

所用的版本：hbase-1.2.0-cdh5.15.1目录一.meta表二.HBase工作流程1.读的流程2.写的流程三.物理存储结构四.参考文章一.meta表zookeeper记录了保存meta表的机器是hadoop000：[zk: localhost:2181(CONNECTED) 4] get /hbase/meta-region-server�regionserver:60020��!��*�PBUF hadoop000��. cZxid = 0x15000007a.

2021-02-05 21:10:07 577

原创 Kafka的消息格式和存储机制

存储机制kafka的数据存储：每个topic的分区对应一个文件夹，用来保存一个分区的数据。这个文件夹下分为多个segment，将分区数据分为多个片段。每个segment有index和log两个文件。[hadoop@hadoop000 topic_test-0]$ ls00000000000000000099.index 00000000000000000099.logindex文件内容：[hadoop@hadoop000 kafka_2.11-2.2.1]$ bin/kafka-run-c

2021-01-27 17:59:56 880

空空如也

空空如也