自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(806)
  • 资源 (3)
  • 收藏
  • 关注

原创 《跟李沐读论文》之对比学习

涉及到的一些方法,具体关系如下:本文主要讲对比学习在18年至今的一个发展历程,主要分为四个阶段:参考资料李沐 - paper-reading对比学习论文综述(论文精读) 原文链接:对比学习 (Contrastive Learning) 发展历程 - 综述_对比学习损失发展脉络-CSDN博客

2024-02-07 11:40:17 783

原创 ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(五)

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(5)

2023-02-28 22:51:45 302 1

原创 基于频谱的GCN的数学原理

基于频谱的GCN的数学原理

2022-12-06 22:57:12 448

原创 李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记-part2

李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记-part2

2022-12-06 21:36:31 416

原创 李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记-part1

李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记

2022-12-06 21:21:56 957

原创 图神经网络简介

图神经网络简介

2022-12-01 22:08:21 1293

原创 论文笔记 A Comprehensive Survey on Graph Neural Networks(GNN综述)

论文笔记 A Comprehensive Survey on Graph Neural Networks(GNN综述)

2022-12-01 21:44:33 1018 1

原创 Graph Neural Networks (GNN)(五):Graph Embedding (DeepWalk, Line, Node2Vec)

Graph Neural Networks (GNN)(五):Graph Embedding (DeepWalk, Line, Node2Vec)

2022-11-29 21:13:47 502

原创 hive如何取出数据array的前几个元素

hive如何取出数据的前几个元素

2022-11-29 19:25:54 1811

原创 Graph Neural Networks (GNN)(四):Spectral-GNN 与 Spatial-GNN 对比

Graph Neural Networks (GNN)(四):Spectral-GNN 与 Spatial-GNN 对比

2022-11-28 20:05:46 212

原创 Graph Neural Networks (GNN)(三):Spectral-GNN 之 GCN

Graph Neural Networks (GNN)(三):Spectral-GNN 之 GCN

2022-11-28 19:58:07 431

原创 Graph Neural Networks (GNN)(二):Spectral-GNN 引言和导入

Graph Neural Networks (GNN)(二):Spectral-GNN 引言和导入

2022-11-28 12:24:47 141

原创 Graph Neural Networks (GNN)(一):Spatial-GNN

Graph Neural Networks (GNN)(一):Spatial-GNN

2022-11-28 11:24:05 763

原创 大规模分布式图学习框架Euler——安装和使用

大规模分布式图学习框架Euler——安装和使用

2022-11-23 19:25:38 731

原创 相似度检索Faiss模型

Faiss使用指南

2022-11-23 09:51:33 1486

原创 pandas处理较大数据量级的方法 - chunk,hdf,pkl

pandas处理较大数据量级的方法 - chunk,hdf,pkl

2022-10-24 10:29:06 1232

原创 Pandas入门

Pandas入门

2022-10-23 23:17:49 238

原创 NumPy入门

NumPy入门

2022-10-23 23:15:48 227

原创 matplotlib数据可视化入门

matplotlib数据可视化入门

2022-10-23 23:14:11 399

原创 Python数据分析实战(来源CSDN课程)笔记

Python数据分析实战(来源CSDN课程)笔记

2022-10-23 23:05:17 207

原创 HIVE性能优化

hive性能优化

2022-10-23 15:39:18 476

原创 hive优化

hive优化

2022-10-23 15:26:26 94

原创 在Hive中通过Java和Python实现UDF进行对比

在Hive中通过Java和Python实现UDF进行对比

2022-10-23 15:19:06 309

原创 python实现hive-udf

python实现hive-udf

2022-10-23 14:31:13 355

原创 hive-UDF/UDTF/UDAF

hive udf udtf udaf

2022-10-23 13:13:39 987 1

原创 Spark (一):Executor内存

Spark Executor内存 介绍

2022-10-07 18:28:01 556

原创 spark实战问题(一):is running beyond physical memory limits. Current usage: xx GB of xx GB physical memory

spark实战OOM

2022-10-07 18:24:12 434

原创 Spark复杂数据结构

Scala一般使用两种类型的数据,val(常量)和var(变量),并且Scala提倡使用常量而不是变量;所以当定义一个对象或变量时,我们所定义的这个对象是不变的;即我们所使用的Array,List都是不可变对象。Scala同时支持可变集合、不可变集合,两个主要的包:不可变集合:scala.collection.immutable可变集合:scala.collection.mutableScala优先采用不可变集合,对于几乎所有的集合类,Scala都同时提供了 可变、不可变的版本。数组 Ar

2021-07-12 22:51:14 189 1

原创 Spark常用特殊符号详解

=>(匿名函数)在Spark中函数也是一个对象可以赋值给一个变量。Spark的匿名函数定义格式:(形参列表) => {函数体}所以,=>的作用就是创建一个匿名函数实例。比如:(x:Int) => x +1 ,就等同于下面的Java方法:public int function(int x) { return x+1;}示例:class Symbol { var add = (x: Int) => x + 1}object t...

2021-07-12 22:23:50 2821 2

原创 Scala基础语法

Scala 与 Java 的最大区别是:Scala 语句末尾的分号 ; 是可选的。我们可以认为 Scala 程序是对象的集合,通过调用彼此的方法来实现消息传递。接下来我们来理解下,类,对象,方法,实例变量的概念: 对象 -对象有属性和行为。例如:一只狗的状属性有:颜色,名字,行为有:叫、跑、吃等。对象是一个类的实例。 类 -类是对象的抽象,而对象是类的具体实例。 方法 -方法描述的基本的行为,一个类可以包含多个方法。 字段 -每个对象都有它唯一的实例变量集合,...

2021-07-12 08:44:02 111

转载 Spark编程指南

备注:根据官网http://spark.apache.org/docs/latest/rdd-programming-guide.html进行对比更新Spark编程指南(写在前面,本文是翻译自2015年7月29日的http://spark.apache.org/docs/latest/programming-guide.html,由于水平所限,肯定存在很多翻译不到位地方。本文的翻译是为了加深自己作为初学者对Spark的理解,欢迎大家指出各种理解上的错误。)一,概述每个Spark应用都有一个.

2021-07-04 17:37:55 404

原创 HIVE-null值不计数量,空字符串计数量

SELECTcount(id) as id,count(distinct id) as ids_id,count(id1) as id1,count(distinct id1) as ids_id1 ,count(name) as name1,count(distinct name) as ids_name1from(SELECT '2' as idunion allSELECT '3' as idunion allSELECT '1' as id)p1left join(.

2021-07-04 17:25:14 153 1

原创 Spark-submit参数优化配置

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个

2021-07-04 17:22:01 807

原创 Spark-saveAsTextFile 分区设置

scala> val rd1 =sc.parallelize(Array(1 to 10000))rd1: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelCollectionRDD[24] at parallelize at <console>:24scala> rd1.partitions.sizeres32: Int = 24scala> rd1.s

2021-07-04 17:06:34 754

原创 spark中saveAsTextFile如何最终生成一个文件

  一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了?答案自然是有办法。  在RDD上调用coalesce(1,true).saveAsTextFile(),意味着做完计算之后将数据汇集到一个分区,然后再执行保存的动作,显然,一个分区,Spark自然只起一个task来执行保存的动作,也就只有一个文件产生了。又或

2021-07-03 18:28:56 742 1

原创 HIVE-查看表大小

因为hive底层数据存储用的还是hadoop,所以查看表大小可以直接用hadoop提供的查看文件目录命令:hadoop fs -count -q -h hive表所在目录-h是将字节显示转为GB的方式显示。

2021-07-03 16:54:38 1286

原创 org.apache.spark.SparkException:job aborted due to stage failure spark driver maxResultSize (1024)

org.apache.spark.SparkException:job aborted due to stage failure spark driver maxResultSize (1024)本地local模式运行报spark.driver.maxResultSize超出1024M,接下来分解决方法、参数含义及默认值等维度说明。一、解决方法:增大spark.driver.maxResultSize,设置方式是sparkConf.set("spark.driver.maxResultSi

2021-07-03 16:50:43 1095

原创 Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法

ERROR:在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误解决:可以先用row.isNullAt(index)去判断该字段的值是否为空具体案例如下:首先上错误修改为先初始化变量,判断row.isNullAt(6) 如果不为空就将值赋值给变量...

2021-07-03 16:31:56 843

原创 python - lightgbm相关实践

相关文章:R+python︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读python︱sklearn一些小技巧的记录(训练集划分/pipelline/交叉验证等)GBDT一个藤上,进化的xgb以及lgb。比较好的几则练习代码:QLMX/data_mining_models Anfany/Machine-Learning-for-Beginner-by-Python3文章目录0 相关理论 0.1 内存更小 0.2 速度更快 .

2020-10-13 14:37:27 1028

原创 【算法比赛】主流机器学习/深度学习模型代码模板

摘要最近又开始混乱且忙碌的科研学习,双十一过后,钱包空了,就再不想买买买了,打比赛的议程又提上来了,首先给大家分享两个非常非常非常好的repo,昨天晚上才发现的,又请教了一个博士点经验,踏踏实实准备,浮躁的心就能沉淀下来~更新最新最全的算法比赛信息:https://github.com/iphysresearch/DataSciComp各种比赛的top解决方案:https://github.com/Smilexuhc/Data-Competition-TopSolution一定要多交流多交

2020-10-12 16:28:44 513

Distributed Computing.pdf

分布式计算英文版教程分布式计算英文版教程

2020-03-05

YaleB人脸数据库

人脸识别中常用的一个数据库,Extended YaleB,文件中是已经裁好的图片,网上资源并不多,所给网址也打不开,所以方便大家,资源共享。

2017-09-12

connection。jar

connection.jar包下载,很多项目中都需要导入其中才能运用

2015-12-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除