自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (3)
  • 收藏
  • 关注

原创 torch_scatter.scatter_add、Tensor.scatter_add_ 、Tensor.scatter_、Tensor.scatter_add 、Tensor.scatter

torch_scatter.scatter_add官方文档:torch_scatter.scatter_add(src,index,dim=-1,out=None,dim_size=None,fill_value=0)Sums all values from thesrctensor intooutat the indices specified in theinde...

2019-12-03 15:40:51 3436

原创 深度可分卷积(MobileNet中的depthwise separable convolutions)

MobileNet 做图像算法最经常用的模型是restNet系列,但是训练好的模型太大。拿restNet50来说,训练好的模型有280M,参数7千万,运行起来非常慢。 MobileNet是一个基于depthwise separable convolutions的网络结构,优点是模型非常小,训练完模型11M,参数200多万,准确率比restNet下降的幅度很小,更适合于移动...

2019-11-07 17:06:03 491

原创 Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory used

执行spark时遇到这种问题,最开始--executor-memory 设为10G,到后来20G,30G,还是报同样的错误。1.一种解决方法网上大部分都说要增加spark.yarn.executor.memoryOverhead,先是2048,然后4096,后来干脆增加到15G(并将executor-memory调小到20G),不再报错。但一直很郁闷,到底是为什么呢?首先可以肯定的...

2018-12-05 17:04:29 4897

原创 linux挂载卸载磁盘

查看磁盘 sudo fdisk -l | grep /dev创建一个新文件夹:mkdir /data挂载:sudo mount /dev/vdb /data查看:df -h

2020-06-04 11:37:06 564

原创 python3.6 安装pip3

安装pip3sudo apt-get install python3-distutils wget --no-check-certificate https://pypi.python.org/packages/source/s/setuptools/setuptools-19.6.tar.gz#md5=c607dd118eae682c44ed146367a17e26 tar -zxvfsetuptools-19.6.tar.gz cdsetuptools-19.6 python...

2020-06-04 10:21:05 334

原创 torch中reshape()和view()

二者功能类似,都是为了改变tensor的shape。不同点在于view()只是改变shape,数据还是原来的数据;并且view()只能处理连续的内存,因此前面经常跟一个contiguous();而reshape()则没那么可控,他的执行结果可能是源数据的一个copy,也可能不是。是不是很蛋疼。文档中这么说:Returns a tensor with the same data an...

2020-01-16 11:32:48 4998

原创 Pytorch中GNN的基类torch_geometric.nn.conv.MessagePassing

MessagePassing是torch_geometric中GNN模型的基类,实现了下面的消息传递公式要继承这个类,需要复写三个函数:propagate(edge_index, size=None)message()消息传递分两种方式,默认的是source_to_targetupdate()其中propagate在执行的过程中会调用message和update...

2019-12-11 16:15:01 4630 1

原创 pytorch1.3 Quantization

pytorch提供了三种量化的方法1.训练后动态量化。这种模式使用的场景是:模型的执行时间是由内存加载参数的时间决定(不是矩阵运算时间决定),这种模式适合的模型是LSTM和Transformer之类的小批量的模型。调用方法torch.quantization.quantize_dynamic()。2.训练后静态量化。这种模式使用场景:内存带宽和运算时间都重要的模型,如CNN。 训练...

2019-11-04 11:10:00 7101 1

原创 ArcFace(InsightFace)pytorch代码实现

ArcFace是比较新的人脸分类的Loss函数,详细论文可以看论文:ArcFace: Additive Angular Margin Loss for Deep Face Recognition论文:https://arxiv.org/abs/1801.07698官方代码:https://github.com/deepinsight/insightface本文主要对代码进行讲解和注释...

2019-05-10 17:21:37 9413 23

原创 SciPy中的optimize.minimize实现受限优化问题

问题描述:有一批样本x,每个样本都有几个固定的标签,如(男,24岁,上海),需要从中抽取一批样本,使样本总的标签比例满足分布P(x),如(男:女=49%:51%、20岁:30岁=9%:11%、..........)采用KL-散度作为优化目标函数。KL-散度又叫相对熵KL-散度在机器学习中,P用来表示样本的真实分布,比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布,比...

2019-04-15 18:21:53 10171 1

原创 python通过hbase的client读取数据

使用的python版本为3.5.2,使用过程中发现了好几个坑首先安装thrift和hbase-thriftpip install thriftpip install hbase-thrift安装完成之后第一次运行,报错误: in <module> from hbase import Hbase File "C:\Users\tianxiao\AppData...

2019-01-07 18:22:22 4270 6

原创 hue中生成oozie任务传参(shell任务)

在hue中,oozie任务分为4层:1.action(可以是hive任务,spark任务,shell脚本等),下图所示就是一个shell任务: 2.workflow,顾名思义,一个workflow就是多个action组成的DAG流: 3.schedule是对workflow的重复调用,你可以一小时执行一次,也可以一天执行一次。下图的例子就是每天4:25执行一次 4,...

2018-12-20 18:24:03 4672 2

转载 卷积神经网络(CNN)中的卷积核 概念 原理

作者:Tim Dettmers(Understanding Convolution in Deep Learning)原文地址: http://www.yangqiu.cn/aicapital/2382000.html 有太多的公开课、教程在反复传颂卷积神经网络的好,却都没有讲什么是“卷积”,似乎默认所有读者都有相关基础。这篇外文既友好又深入,所以翻译了过来。文章高级部分通过流体力...

2018-12-11 09:23:06 64398 10

转载 spark ml 源码分析

git上找到的一个大神写的spark ml源码分析,非常详尽地址:https://github.com/endymecy/spark-ml-source-analysis         spark机器学习算法研究和源码分析  本项目对spark ml包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。本系列文...

2018-12-04 12:04:15 739

转载 hive 时间戳 时间 相互转换

从1970-01-01 00:00:00 UTC到指定时间的秒数。总结:时间戳到日期时间,日期时间到时间戳,日期时间到日期。获取时间戳:select distinct unix_timestamp() from test_date;时间戳>>>>日期:select distinct  from_unixtime(1441565203,'yyyy/MM/dd H...

2018-12-04 10:55:08 17796

原创 windows10 tensorflow 安装报错 ImportError: No module named '_pywrap_tensorflow_internal'

widows10上安装tensorflow版本1.1.0,先安装python3.5.X,然后安装命令pip install tensorflow==1.1.0即可。安装完成,import tensorflow的时候报错如下:查找的很多方法,很多人是因为安装的是GPU版本才报的错,而我安装的是CUP版本。最后发现是VC++版本问题,本机版本是:Microsoft Visual C++...

2018-12-01 11:57:55 1687

原创 pyspark 任务提交 依赖打包

如果是一个简单的应用,没用多余的依赖,则可以直接提交就行了:spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.executor.memoryOverhead=4096 --executor-memory 2G --num-executors 4 --executor-cores 2 --driv...

2018-11-28 18:02:11 6436 3

原创 pyspark 读写 hbase (指定列)

spark使用newAPIHadoopRDD和saveAsNewAPIHadoopDataset来存取hbase的数据,直接上代码:1. spark读取hbase:readkeyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"readvalueConv ...

2018-11-27 17:16:19 3291 4

原创 git You are not allowed to push code to protected branches on this project

向master上push代码的时候报错 查其原因是因为master是受保护分支 权限不够的人是无法push代码到该分支的。解决方法有两个:1.对于很小的一两个人的项目,则开放master分支的权限(把所有人的权限都改为主程序员),这样所有人都可以提交master分支2.对于大的项目不建议直接提交到master分支,可以建其他分支,管理者负责合并到master分子 ...

2018-11-27 10:47:18 21866 1

原创 org.apache.spark.SparkException: Could not find CoarseGrainedScheduler pyspark

     前几天跑pyspark时遇到的错误,搜索org.apache.spark.SparkException: Could not find CoarseGrainedScheduler这个错误的时候发现问题描述五花八门,解决方案也是五花八门。    后来往上翻详细的日志发现,真正出错的是在executor的task上,是插入hbase的时候类型错误。    因此,遇到类似的错误一定要...

2018-11-20 10:53:53 6868

原创 flume+kafka配置问题

kafka版本0.9以后采用了新的consumer,改变了很多特性:新的Comsumer API不再有high-level、low-level之分了,而是自己维护offset。这样做的好处是避免应用出现异常时,数据未消费成功,但Position已经提交,导致消息未消费的情况发生。通过查看API,新的Comsumer API有以下功能:Kafka可以自行维护Offset、消费者的Positi...

2018-11-08 12:02:34 1852

原创 spark ml VectorIndexer 报错 java.util.NoSuchElementException: key not found: 0.0

采用用spark的DecisionTree来训练样本,在使用pipeline中使用了VectorIndexer 转换特征向量。生成模型后,用模型来训练大规模样本(上千万样本,生成模型的训练集只有几千个)的时候报如下错误。查阅资料,也没有得到正解。后来自己通过实验发现了原因。VectorIndexer(类似的还有StringIndexer)是一种Estimator,用来对特征值进行映射转换。例如,做...

2018-07-06 11:13:13 3217 3

转载 Linux系统中的Swap分区详解【转】

  Linux系统的Swap分区,即交换区,Swap空间的作用可简单描述为:当系统的物理内存不够用的时候,就需要将物理内存中的一部分空间释放出来,以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序,这些被释放的空间被临时保存到Swap空间中,等到那些程序要运行时,再从Swap中恢复保存的数据到内存中。这样,系统总是在物理内存不够时,才进行Swap交换。其实,Swap的调...

2018-06-27 14:46:54 2118

转载 spark内存管理(转载)

2018-06-26 15:36:57 83

原创 linux sed 命令简介

sed功能非常强大,用两行命令可以实现java几十行程序都搞不定的文本处理功能。 选项与参数:-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。-e :直接在命令列模式上进行 sed 的动作编辑;-f :直接将 sed 的动作写...

2018-06-12 10:21:42 233

转载 linux awk命令详解【转】

linux awk命令详解原文链接 : http://blog.chinaunix.net/uid-23302288-id-3785105.html awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息awk处理过程: 依次对每一行进行处理,然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{}...

2018-06-12 10:19:05 130

原创 updateStateByKey函数详解及worldcount例子

updateStateByKey操作允许您在使用新的信息持续更新时保持任意状态。1、定义状态 - 状态可以是任意数据类型。 2、定义状态更新功能 - 使用函数指定如何使用上一个状态更新状态,并从输入流中指定新值。 如何使用该函数,spark文档写的很模糊,网上资料也不够详尽,自己翻阅源码总结一下,并给一个完整的例子updateStateBykey函数有6种重载函数:1、只传入一个更新函数,最简单的...

2018-06-01 15:06:47 7032 1

原创 sparkstreaming kafka Failed to get records for after polling for 512

这个错误上次说的解决方案是设置heartbeat.interval.ms 和 session.timeout.ms这两个参数,但发下效果不理想,错误还是会出现。从错误日志里翻阅源码,发现了问题所在,报错的代码是: at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaConsumer.scala:74)查...

2018-05-31 12:33:51 3653

原创 sparkstreaming中kafka的offset提交

就kafka而言,offset提交方式有两种,自动和手动。将enable.auto.commit设置为true,即可自动提交props.put("enable.auto.commit", "true");props.put("auto.commit.interval.ms", "1000");或者采用commitAsync来自动提交。sparkstreaming消费kafka数据,提交方式也是分为...

2018-05-31 12:10:01 4257

原创 kafka消费者offset相关设置

1.自动提交offset&手动提交offset自动提交,只需设置"enable.auto.commit",为"true"即可,"auto.commit.interval.ms",为默认自动提交的时间,一般设为"1000",单位ms;手动提交,设置"enable.auto.commit",为"false"。手动提交有两种形式,一种是提交所有订阅的topic,直接在每次消费完成

2018-04-11 09:28:14 11692 1

原创 Spark Streaming, Kafka receiver, "Failed to get records for ... after polling for 512"

javajava.lang.AssertionError: assertion failed: Failed to get records for (...) after polling for 512使用spark streaming处理kafka中的数据,调试过程中,由于程序停了很长时间,导致kafka中挤压了很多数据,再次启动时,遇到了这个报错。网上查了很多资料,尝试了很多参数设置,发现然并...

2018-03-23 14:49:29 4294

tomcat6.0安装程序

Tomcat 是一个轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选

2012-07-13

Windows编程大作业

内含一个VC++编写的射击小游戏,有exe文件,可直接运行。并含有所有工程文件及源代码,可用VC++打开。

2012-07-13

POJ题目源代码

包含近1000道POJ题目源代码,文件名就是POJ中的题目号

2012-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除