hy1568786-CSDN博客

原创图说hadoop原理

hadoop=hdfs+mapreducemap:五步走reduce：三步走shuffle：这是文本人学习hadoop提出的问题加网络学习图1.分块是在哪里完成的【或者：有多少个map】？2.分布式系统都强调一致性，datanode的是什么一致性？3.WAL有什么作用？4.Hbase支持事务吗？请点击有道云笔记链接：文档：hadoop学习系统.not...

2020-05-06 10:03:54 170 1

原创 distinct为什么比group by慢

2.spark sql中的group by 在优化时=reducebykey。1.spark core中,网络传输的数据少。distinct 大概率是groupby。

2023-10-24 16:13:41 105

原创 linux安装lightbgm异常

【代码】linux安装lightbgm异常。

2023-10-13 16:35:20 179

原创 spark api submit

参考：：Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志 - cctext - 博客园

2022-04-06 17:13:44 50

转载 flinksql time

FlinkSql指定时间语义 - 从不吃鱼的猫 - 博客园

2022-03-07 10:20:11 146

转载画像用户扩展

参考：Lookalike 技术调研 - 简书

2022-02-10 10:43:19 108

转载 spark的透视表：pivot

参考：spark中的透视函数pivot - 尤灯塔 - 博客园

2022-01-27 11:03:42 342

private val currentClass = Class.forName("com.compute.biz.clue.streaming.SyncClueStreamingFunctions$")private val currentObj = currentClass.getField("MODULE$").get(null)// 所有方法的map,(methodName->method)private val methodMap = currentClass.getDeclared.

2022-01-25 09:29:16 289

转载 spark ML

参考：https://www.cnblogs.com/nxf-rabbit75/category/1572700.html?page=1

2021-09-09 14:42:42 63

转载 flink的waterMark

combinebykey && aggregatebykey

2021-07-01 09:29:05 74

原创一个流和百亿级的表的join

以spark为例：分治 val kafkaManager = new KafkaManager(kafkaParams) val kafkaDirectStream = kafkaManager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaParams,topicSet) val res = kafkaDirectStream .filter(l => l._2.c...

2021-06-09 22:22:34 298 2

原创 task调优

task输入倾斜调优：https://www.jianshu.com/p/06a4b2f50940

2021-06-02 14:28:20 91

转载 spark数据倾斜

https://blog.csdn.net/kaede1209/article/details/81145560

2021-05-31 09:47:34 58

转载 hive对复杂数据结构的处理map，array，struct

参考blog：https://zhuanlan.zhihu.com/p/150361645

2021-04-30 16:01:23 144 1

原创 posexplode

hive的高级函数的使用参考blog：https://www.cnblogs.com/-courage/p/14122106.html

2021-04-30 09:27:01 169

转载 spark的算子中定义一些需要的函数

参考：https://www.jianshu.com/p/780ae7c95bde

2021-03-04 14:20:30 115 1

原创目标检索偶感

目标检索：定义：目标生成的特征是唯一的，在各个层次中都会携带这一特征。卷积：就是把这一特征，以新的方式展示出来，方便计算，存储，传输，增强等最后：经过反卷积，解出特征，在与目标进行比对，选择。...

2021-02-13 21:38:48 190

原创 spark的获取文件名称

spark的获取文件名称：rdd中获取http://cn.voidcc.com/question/p-yhavvflg-bhx.htmldf中获取还有一个是通过使用functions.input_file_name

2021-02-08 16:32:16 493

原创特殊的hadoop

特殊的hadoop 1.没有reducer的demo： job.setNumReduceTasks(0);https://blog.csdn.net/boonya/article/details/54630808?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161242952716780264021789%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%25...

2021-02-04 17:30:26 92

原创 sparksql连接kafka

参考：https://www.cnblogs.com/yin-fei/p/10748505.html

2021-01-11 22:52:28 879

转载 DAG调度器

参考：https://houbb.github.io/2020/01/23/data-struct-learn-03-dag-schedule#%E8%B0%83%E5%BA%A6%E5%99%A8https://blog.csdn.net/dbqb007/article/details/89042984https://blog.csdn.net/silentwolfyh/article/details/53996845个人理解：调度器的目的：让各个节点按照顺序执行...

2020-11-03 10:43:41 207

原创 ES的操作，以及ES搭建二级索引

参考2篇blog注：CSDN上关于这这个二级索引，例子单一，使用起来不是太合适ES6.5的操作：https://www.cnblogs.com/LUA123/p/9967638.htmlES简历二级索引：https://github.com/hyydouble/es-hbase/blob/master/src/main/java/com/daqsoft/AppMain2.java...

2020-10-19 15:28:49 889

原创 centos7安装单机版k8s

参考：https://lihaoquan.me/2017/2/25/create-kubernetes-single-node-mode.html

2020-10-14 19:52:24 583

转载 spark的累加器

在学习这个点的时候，问自己几个问题：1.累加器有什么用2.典型的应用场景3.怎么用4.是否可以自定义https://www.cnblogs.com/itboys/p/11056758.html

2020-09-28 16:48:20 95

转载 Hive指定查询输出分隔符

参考：https://blog.csdn.net/yeweiouyang/article/details/52560130

2020-09-26 18:05:48 391

转载一篇文章看懂大数据的5大关键技术

大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。1.大数据采集技术数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化（或称之为弱结构化）及非结构化的海量数据，是大数据知识服务模型的

2020-09-11 11:34:43 7392

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

K-means.zip

numpy中文手册

Beginning C# 7 Programming with Visual Studio 2017(conv)

Python源码解析

FCM算法，matlab实现

空空如也