自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hyy_blog

大数据,python,java,技术分享,学习心得

  • 博客(121)
  • 资源 (5)
  • 收藏
  • 关注

原创 图说hadoop原理

hadoop=hdfs+mapreducemap:五步走reduce:三步走shuffle:这是文本人学习hadoop提出的问题加网络学习图1.分块是在哪里完成的【或者:有多少个map】?2.分布式系统都强调一致性,datanode的是什么一致性?3.WAL有什么作用?4.Hbase支持事务吗?请点击有道云笔记链接:文档:hadoop学习系统.not...

2020-05-06 10:03:54 170 1

原创 distinct为什么比group by慢

2.spark sql中的group by 在优化时=reducebykey。1.spark core中,网络传输的数据少。distinct 大概率是groupby。

2023-10-24 16:13:41 105

原创 AB实验--科学增长

AB实验

2023-10-14 12:25:03 136

原创 linux安装lightbgm异常

【代码】linux安装lightbgm异常。

2023-10-13 16:35:20 179

原创 spark api submit

参考::Spark2.3(四十):如何使用java通过yarn api调度spark app,并根据appId监控任务,关闭任务,获取任务日志 - cctext - 博客园

2022-04-06 17:13:44 50

转载 flinksql time

FlinkSql指定时间语义 - 从不吃鱼的猫 - 博客园

2022-03-07 10:20:11 146

转载 画像用户扩展

参考:Lookalike 技术调研 - 简书

2022-02-10 10:43:19 108

转载 spark的透视表:pivot

参考:spark中的透视函数pivot - 尤灯塔 - 博客园

2022-01-27 11:03:42 342

原创 scala伴生对象的反射

private val currentClass = Class.forName("com.compute.biz.clue.streaming.SyncClueStreamingFunctions$")private val currentObj = currentClass.getField("MODULE$").get(null)// 所有方法的map,(methodName->method)private val methodMap = currentClass.getDeclared.

2022-01-25 09:29:16 289

转载 spark ML

参考:https://www.cnblogs.com/nxf-rabbit75/category/1572700.html?page=1

2021-09-09 14:42:42 63

转载 flink的waterMark

combinebykey && aggregatebykey

2021-07-01 09:29:05 74

原创 一个流和百亿级的表的join

以spark为例:分治 val kafkaManager = new KafkaManager(kafkaParams) val kafkaDirectStream = kafkaManager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaParams,topicSet) val res = kafkaDirectStream .filter(l => l._2.c...

2021-06-09 22:22:34 298 2

原创 task调优

task输入倾斜调优:https://www.jianshu.com/p/06a4b2f50940

2021-06-02 14:28:20 91

转载 spark数据倾斜

https://blog.csdn.net/kaede1209/article/details/81145560

2021-05-31 09:47:34 58

转载 hive对复杂数据结构的处理map,array,struct

参考blog:https://zhuanlan.zhihu.com/p/150361645

2021-04-30 16:01:23 144 1

原创 posexplode

hive的高级函数的使用 参考blog:https://www.cnblogs.com/-courage/p/14122106.html

2021-04-30 09:27:01 169

转载 spark的算子中定义一些需要的函数

参考:https://www.jianshu.com/p/780ae7c95bde

2021-03-04 14:20:30 115 1

原创 目标检索偶感

目标检索:定义:目标生成的特征是唯一的,在各个层次中都会携带这一特征。卷积:就是把这一特征,以新的方式展示出来,方便计算,存储,传输,增强等最后:经过反卷积,解出特征,在与目标进行比对,选择。...

2021-02-13 21:38:48 190

原创 spark的获取文件名称

spark的获取文件名称:rdd中获取http://cn.voidcc.com/question/p-yhavvflg-bhx.htmldf中获取还有一个是通过使用functions.input_file_name

2021-02-08 16:32:16 493

原创 特殊的hadoop   

特殊的hadoop 1.没有reducer的demo: job.setNumReduceTasks(0);https://blog.csdn.net/boonya/article/details/54630808?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161242952716780264021789%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%25...

2021-02-04 17:30:26 92

原创 sparksql连接kafka

参考:https://www.cnblogs.com/yin-fei/p/10748505.html

2021-01-11 22:52:28 879

转载 DAG调度器

参考:https://houbb.github.io/2020/01/23/data-struct-learn-03-dag-schedule#%E8%B0%83%E5%BA%A6%E5%99%A8https://blog.csdn.net/dbqb007/article/details/89042984https://blog.csdn.net/silentwolfyh/article/details/53996845个人理解:调度器的目的:让各个节点按照顺序执行...

2020-11-03 10:43:41 207

原创 ES的操作,以及ES搭建二级索引

参考2篇blog注:CSDN上关于这这个二级索引,例子单一,使用起来不是太合适ES6.5的操作:https://www.cnblogs.com/LUA123/p/9967638.htmlES简历二级索引:https://github.com/hyydouble/es-hbase/blob/master/src/main/java/com/daqsoft/AppMain2.java...

2020-10-19 15:28:49 889

原创 centos7安装单机版k8s

参考:https://lihaoquan.me/2017/2/25/create-kubernetes-single-node-mode.html

2020-10-14 19:52:24 583

转载 spark的累加器

在学习这个点的时候,问自己几个问题:1.累加器有什么用2.典型的应用场景3.怎么用4.是否可以自定义https://www.cnblogs.com/itboys/p/11056758.html

2020-09-28 16:48:20 95

转载 Hive指定查询输出分隔符

参考:https://blog.csdn.net/yeweiouyang/article/details/52560130

2020-09-26 18:05:48 391

转载 一篇文章看懂大数据的5大关键技术

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。1.大数据采集技术数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的

2020-09-11 11:34:43 7392

转载 k8s从入门到精通,普通讲解

转载自:https://blog.csdn.net/laughing_g/category_9128851.html?biz_id=102&utm_term=k8s%E4%BB%8E%E5%85%A5%E9%97%A8%E5%B8%A6%E7%B2%BE%E9%80%9A&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-category_9128851.html&sp

2020-09-10 16:23:49 350

原创 k8s的yml文件详解

1 apiVersion: v1 #指定api版本,此值必须在kubectl apiversion中 2 kind: Pod #指定创建资源的角色/类型 3 metadata: #资源的元数据/属性 4 name: django-pod #资源的名字,在同一个namespace中必须唯一 5 labels: #设定资源的标签,使这个标.

2020-09-10 16:22:26 1392

原创 springboot项目部署:jar包,docker,k8s,nginx

2篇blog结合起来看,一个完整的过程。如有问题请评论。1.sprignboot项目打包https://www.jianshu.com/p/3ef30964110c2.docker运行springboot项目https://blog.csdn.net/qq_39354563/article/details/1049626303.jar部署在nginx上【还未验证】https://blog.csdn.net/u014174854/article/details/80464391.

2020-09-02 23:30:54 225

转载 flume的事务

参考:https://www.cnblogs.com/zhqin/p/12231632.html

2020-07-30 10:54:14 96

转载 spark源码分析--driver,worker,app,excutor启动流程等

参考blog:https://blog.csdn.net/fengshaungme/category_8442249.html

2020-07-29 16:39:56 137

原创 CDH5.7.6搭建

说明:操作系统centos7注解:centos6.8也是如图步骤0准备:0.0总体规划IP地址 主机名 CPU 内存 备注 192.168.1.5 node1 2颗 x 2核 4GB 主节点 192.168.1.6 node2 2颗 x 1核 2GB 192.168.1.7 node3 2颗 x 1核 2GB 192.168.1..8 node4 2颗 x 1核..

2020-07-26 23:57:18 433

原创 spark读取的源+mysql+hive+jison+parquet+csv+hbase

连接这些数据源,请参考mysql+hive+jison+parquethttps://blog.csdn.net/qq_18603599/article/details/799518102.csvhttps://blog.csdn.net/fei_tian123/article/details/80624937?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~baidu_landing_v2~default-

2020-07-19 21:32:26 116

原创 linux安装mysql和遇到的问题

1.mysql安装https://www.jianshu.com/p/276d59cbc529问题1.Starting MySQL...[ERROR] The server quit without updating PID file (/usr/local/mysql/data/mysqld.pid).解决:1.可能是/usr/local/MySQL/data/mysqld.pid文件没有写的权限解决方法 :给予权限,执行“chown -R mysql:mysql /usr/l.

2020-07-19 20:54:26 124

转载 hbase api

自己在学习时候使用参考:https://blog.csdn.net/aA518189/article/details/85298889

2020-07-12 14:33:56 91

转载 大数据多维分析平台的实践

大数据多维分析平台的实践一、 大数据多维分析平台搭建的初心随着公司业务量的增长,基于传统关系型数据库搭建的各种报表查询分析系统,性能下降明显。同时由于大数据平台的的日趋完善,实时的核心业务数据逐步进入大数据平台。数据进入了大数据平台,相伴而来的是各种业务需求,这里主要聚焦在如何高效稳定的基于大数据平台的数据进行查询。通过分析,我们面临的挑战如下:亿级别表下任意维度和时间跨度的高效的统计查询 业务分析的维度越来越多,是否可以提供一个灵活的多维度组合查询的工具,而不是针对不同的维度组合开发不同的.

2020-07-10 12:53:15 1134

原创 大数据资源总结汇总

大数据架构采集存储分析计算应用服务https://www.cnblogs.com/dunitian/p/5461280.html

2020-07-09 09:44:40 172

转载 yarn集群启动之脚本追踪

在学习源码的过程中,一般都是先看原理,在各个部件熟悉的时候,使用脚本把怎个系统贯穿起来。转载自:https://blog.csdn.net/oTengYue/article/details/105161007

2020-07-01 16:11:50 232

原创 linux三剑客汇总

1.grep 偏向过滤参考:https://blog.csdn.net/Aaroun/article/details/78216837?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159288023819725247625927%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=1592880238197252476259..

2020-06-23 10:44:25 409

K-means.zip

使用k-means做图像分割,其中包含了代码.doc版本的kmeans数据聚类,和几个文件关于kmeans图像聚类分割

2019-05-21

numpy中文手册

Python的numpy库的中文指导手册

2019-03-16

Beginning C# 7 Programming with Visual Studio 2017(conv)

一本新的书籍 值得一看 我很喜欢。

2019-03-16

Python源码解析

Python2.7的源码解析,当你对Python学习进入很难提高的时候,看一下源码来提升一下自己吧

2019-03-16

FCM算法,matlab实现

FCM聚类算法,详细介绍了FCM如何实现,以及实现方法,matlab

2018-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除