lmb633-CSDN博客

原创 torch_scatter.scatter_add、Tensor.scatter_add_ 、Tensor.scatter_、Tensor.scatter_add 、Tensor.scatter

torch_scatter.scatter_add官方文档：torch_scatter.scatter_add(src,index,dim=-1,out=None,dim_size=None,fill_value=0)Sums all values from thesrctensor intooutat the indices specified in theinde...

2019-12-03 15:40:51 3436

原创深度可分卷积（MobileNet中的depthwise separable convolutions）

MobileNet 做图像算法最经常用的模型是restNet系列，但是训练好的模型太大。拿restNet50来说，训练好的模型有280M，参数7千万，运行起来非常慢。 MobileNet是一个基于depthwise separable convolutions的网络结构，优点是模型非常小，训练完模型11M，参数200多万，准确率比restNet下降的幅度很小，更适合于移动...

2019-11-07 17:06:03 491

原创 Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory used

执行spark时遇到这种问题，最开始--executor-memory 设为10G，到后来20G，30G，还是报同样的错误。1.一种解决方法网上大部分都说要增加spark.yarn.executor.memoryOverhead，先是2048，然后4096，后来干脆增加到15G（并将executor-memory调小到20G），不再报错。但一直很郁闷，到底是为什么呢？首先可以肯定的...

2018-12-05 17:04:29 4897

原创 linux挂载卸载磁盘

查看磁盘 sudo fdisk -l | grep /dev创建一个新文件夹：mkdir /data挂载：sudo mount /dev/vdb /data查看：df -h

2020-06-04 11:37:06 564

安装pip3sudo apt-get install python3-distutils wget --no-check-certificate https://pypi.python.org/packages/source/s/setuptools/setuptools-19.6.tar.gz#md5=c607dd118eae682c44ed146367a17e26 tar -zxvfsetuptools-19.6.tar.gz cdsetuptools-19.6 python...

2020-06-04 10:21:05 334

原创 torch中reshape()和view()

二者功能类似，都是为了改变tensor的shape。不同点在于view()只是改变shape，数据还是原来的数据；并且view()只能处理连续的内存，因此前面经常跟一个contiguous()；而reshape()则没那么可控，他的执行结果可能是源数据的一个copy，也可能不是。是不是很蛋疼。文档中这么说：Returns a tensor with the same data an...

2020-01-16 11:32:48 4998

原创 Pytorch中GNN的基类torch_geometric.nn.conv.MessagePassing

MessagePassing是torch_geometric中GNN模型的基类，实现了下面的消息传递公式要继承这个类，需要复写三个函数：propagate(edge_index, size=None)message()消息传递分两种方式，默认的是source_to_targetupdate()其中propagate在执行的过程中会调用message和update...

2019-12-11 16:15:01 4630 1

原创 pytorch1.3 Quantization

pytorch提供了三种量化的方法1.训练后动态量化。这种模式使用的场景是：模型的执行时间是由内存加载参数的时间决定（不是矩阵运算时间决定），这种模式适合的模型是LSTM和Transformer之类的小批量的模型。调用方法torch.quantization.quantize_dynamic()。2.训练后静态量化。这种模式使用场景：内存带宽和运算时间都重要的模型，如CNN。训练...

2019-11-04 11:10:00 7101 1

原创 ArcFace（InsightFace）pytorch代码实现

ArcFace是比较新的人脸分类的Loss函数，详细论文可以看论文：ArcFace: Additive Angular Margin Loss for Deep Face Recognition论文:https://arxiv.org/abs/1801.07698官方代码:https://github.com/deepinsight/insightface本文主要对代码进行讲解和注释...

2019-05-10 17:21:37 9413 23

原创 SciPy中的optimize.minimize实现受限优化问题

问题描述：有一批样本x，每个样本都有几个固定的标签，如（男，24岁，上海），需要从中抽取一批样本，使样本总的标签比例满足分布P(x)，如（男:女=49%:51%、20岁:30岁=9%:11%、..........）采用KL-散度作为优化目标函数。KL-散度又叫相对熵KL-散度在机器学习中，P用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布，比...

2019-04-15 18:21:53 10171 1

原创 python通过hbase的client读取数据

使用的python版本为3.5.2，使用过程中发现了好几个坑首先安装thrift和hbase-thriftpip install thriftpip install hbase-thrift安装完成之后第一次运行，报错误： in <module> from hbase import Hbase File "C:\Users\tianxiao\AppData...

2019-01-07 18:22:22 4270 6

原创 hue中生成oozie任务传参（shell任务）

在hue中，oozie任务分为4层：1.action（可以是hive任务，spark任务，shell脚本等），下图所示就是一个shell任务： 2.workflow，顾名思义，一个workflow就是多个action组成的DAG流： 3.schedule是对workflow的重复调用，你可以一小时执行一次，也可以一天执行一次。下图的例子就是每天4:25执行一次 4,...

2018-12-20 18:24:03 4672 2

转载卷积神经网络（CNN）中的卷积核概念原理

作者：Tim Dettmers（Understanding Convolution in Deep Learning）原文地址： http://www.yangqiu.cn/aicapital/2382000.html 有太多的公开课、教程在反复传颂卷积神经网络的好，却都没有讲什么是“卷积”，似乎默认所有读者都有相关基础。这篇外文既友好又深入，所以翻译了过来。文章高级部分通过流体力...

2018-12-11 09:23:06 64398 10

转载 spark ml 源码分析

git上找到的一个大神写的spark ml源码分析，非常详尽地址：https://github.com/endymecy/spark-ml-source-analysis spark机器学习算法研究和源码分析本项目对spark ml包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析，旨在加深自己对机器学习算法的理解，熟悉这些算法的分布式实现方式。本系列文...

2018-12-04 12:04:15 739

转载 hive 时间戳时间相互转换

从1970-01-01 00:00:00 UTC到指定时间的秒数。总结：时间戳到日期时间，日期时间到时间戳，日期时间到日期。获取时间戳：select distinct unix_timestamp() from test_date;时间戳>>>>日期：select distinct from_unixtime(1441565203,'yyyy/MM/dd H...

2018-12-04 10:55:08 17796

原创 windows10 tensorflow 安装报错 ImportError: No module named '_pywrap_tensorflow_internal'

widows10上安装tensorflow版本1.1.0，先安装python3.5.X，然后安装命令pip install tensorflow==1.1.0即可。安装完成，import tensorflow的时候报错如下：查找的很多方法，很多人是因为安装的是GPU版本才报的错，而我安装的是CUP版本。最后发现是VC++版本问题，本机版本是：Microsoft Visual C++...

2018-12-01 11:57:55 1687

原创 pyspark 任务提交依赖打包

如果是一个简单的应用，没用多余的依赖，则可以直接提交就行了：spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.executor.memoryOverhead=4096 --executor-memory 2G --num-executors 4 --executor-cores 2 --driv...

2018-11-28 18:02:11 6436 3

原创 pyspark 读写 hbase （指定列）

spark使用newAPIHadoopRDD和saveAsNewAPIHadoopDataset来存取hbase的数据，直接上代码：1. spark读取hbase:readkeyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"readvalueConv ...

2018-11-27 17:16:19 3291 4

原创 git You are not allowed to push code to protected branches on this project

向master上push代码的时候报错查其原因是因为master是受保护分支权限不够的人是无法push代码到该分支的。解决方法有两个：1.对于很小的一两个人的项目，则开放master分支的权限（把所有人的权限都改为主程序员），这样所有人都可以提交master分支2.对于大的项目不建议直接提交到master分支，可以建其他分支，管理者负责合并到master分子 ...

2018-11-27 10:47:18 21866 1

原创 org.apache.spark.SparkException: Could not find CoarseGrainedScheduler pyspark

前几天跑pyspark时遇到的错误，搜索org.apache.spark.SparkException: Could not find CoarseGrainedScheduler这个错误的时候发现问题描述五花八门，解决方案也是五花八门。后来往上翻详细的日志发现，真正出错的是在executor的task上，是插入hbase的时候类型错误。因此，遇到类似的错误一定要...

2018-11-20 10:53:53 6868

原创 flume+kafka配置问题

kafka版本0.9以后采用了新的consumer，改变了很多特性：新的Comsumer API不再有high-level、low-level之分了，而是自己维护offset。这样做的好处是避免应用出现异常时，数据未消费成功，但Position已经提交，导致消息未消费的情况发生。通过查看API，新的Comsumer API有以下功能：Kafka可以自行维护Offset、消费者的Positi...

2018-11-08 12:02:34 1852

原创 spark ml VectorIndexer 报错 java.util.NoSuchElementException: key not found: 0.0

采用用spark的DecisionTree来训练样本，在使用pipeline中使用了VectorIndexer 转换特征向量。生成模型后，用模型来训练大规模样本（上千万样本，生成模型的训练集只有几千个）的时候报如下错误。查阅资料，也没有得到正解。后来自己通过实验发现了原因。VectorIndexer（类似的还有StringIndexer）是一种Estimator，用来对特征值进行映射转换。例如，做...

2018-07-06 11:13:13 3217 3

转载 Linux系统中的Swap分区详解【转】

Linux系统的Swap分区，即交换区，Swap空间的作用可简单描述为：当系统的物理内存不够用的时候，就需要将物理内存中的一部分空间释放出来，以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序，这些被释放的空间被临时保存到Swap空间中，等到那些程序要运行时，再从Swap中恢复保存的数据到内存中。这样，系统总是在物理内存不够时，才进行Swap交换。其实，Swap的调...

2018-06-27 14:46:54 2118

转载 spark内存管理（转载）

2018-06-26 15:36:57 83

原创 linux sed 命令简介

sed功能非常强大，用两行命令可以实现java几十行程序都搞不定的文本处理功能。选项与参数：-n ：使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后，则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。-e ：直接在命令列模式上进行 sed 的动作编辑；-f ：直接将 sed 的动作写...

2018-06-12 10:21:42 233

转载 linux awk命令详解【转】

linux awk命令详解原文链接 : http://blog.chinaunix.net/uid-23302288-id-3785105.html awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息awk处理过程: 依次对每一行进行处理，然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{}...

2018-06-12 10:19:05 130

原创 updateStateByKey函数详解及worldcount例子

updateStateByKey操作允许您在使用新的信息持续更新时保持任意状态。1、定义状态 - 状态可以是任意数据类型。 2、定义状态更新功能 - 使用函数指定如何使用上一个状态更新状态，并从输入流中指定新值。如何使用该函数，spark文档写的很模糊，网上资料也不够详尽，自己翻阅源码总结一下，并给一个完整的例子updateStateBykey函数有6种重载函数：1、只传入一个更新函数，最简单的...

2018-06-01 15:06:47 7032 1

原创 sparkstreaming kafka Failed to get records for after polling for 512

这个错误上次说的解决方案是设置heartbeat.interval.ms 和 session.timeout.ms这两个参数，但发下效果不理想，错误还是会出现。从错误日志里翻阅源码，发现了问题所在，报错的代码是： at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaConsumer.scala:74)查...

2018-05-31 12:33:51 3653

原创 sparkstreaming中kafka的offset提交

就kafka而言，offset提交方式有两种，自动和手动。将enable.auto.commit设置为true，即可自动提交props.put("enable.auto.commit", "true");props.put("auto.commit.interval.ms", "1000");或者采用commitAsync来自动提交。sparkstreaming消费kafka数据，提交方式也是分为...

2018-05-31 12:10:01 4257

原创 kafka消费者offset相关设置

1.自动提交offset&手动提交offset自动提交，只需设置"enable.auto.commit"，为"true"即可，"auto.commit.interval.ms",为默认自动提交的时间，一般设为"1000"，单位ms;手动提交，设置"enable.auto.commit"，为"false"。手动提交有两种形式，一种是提交所有订阅的topic，直接在每次消费完成

2018-04-11 09:28:14 11692 1

原创 Spark Streaming, Kafka receiver, "Failed to get records for ... after polling for 512"

javajava.lang.AssertionError: assertion failed: Failed to get records for (...) after polling for 512使用spark streaming处理kafka中的数据，调试过程中，由于程序停了很长时间，导致kafka中挤压了很多数据，再次启动时，遇到了这个报错。网上查了很多资料，尝试了很多参数设置，发现然并...

2018-03-23 14:49:29 4294

lmb09122508的博客