自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Never-Giveup的博客

python,爬虫,web,机器学习,深度学习

  • 博客(138)
  • 收藏
  • 关注

原创 剑指offer: 最小k个元素

思路:大顶堆 – 最小k个元求前k个最小用最大堆,求前k个最大用最小堆。步骤如下:1: 取数组前k个元素初始化堆,从最后一个非叶子节点开始到根节点来构建大顶堆2: 当某个元素大于堆顶元素时,直接抛弃3: 当某个元素小于堆顶元素时,替换堆顶元素,再从堆顶重新构建大顶堆代码(python3)class Solution: @staticmethod def swap(heap, i, j): heap[i], heap[j] = heap[j], hea

2020-09-20 20:35:32 353

原创 10亿个数字,内存限制100M,进行排序

解题思路分治法:拆分小文件,先对每个小文件进行排序,然后使用小顶堆或大顶堆合并文件代码(python3)import threadingfrom queue import Queueimport timeimport randomdef make_test_data(data_file, number): with open(data_file, 'w') as f: for i in range(number): # 生成number个随机数

2020-09-20 18:15:41 2178

原创 git 取消文件跟踪

git取消文件跟踪在使用git的时候,有些文件是不需要上传的,所以就可以修改 .gitignore例如:如果是对所有文件都取消跟踪的话,就是git rm -r --cached .   //不删除本地文件git rm -r --f .   //删除本地文件对某个文件取消跟踪git rm --cached readme1.txt 删除readme1.txt的跟踪,并保留在本地...

2020-01-06 19:22:49 1331

原创 新入职员工Git配置方法

现在公司使用gitLab的越来越多了,刚进公司一般都会进行各种配置,这东西平时不怎么用,记录下预防下次浪费时间,这个不需要记,没有用途。。。(切记)Git的常用配置:1、公司管理人员开通GitLab账号,并加入你相应的组中2、下载Git,我用的是 Git-2.16.2-64-bit.exe,直接下一步下一步即可3、安装完成后,添加用户名和邮箱$ git config --global u...

2020-01-06 16:10:21 2268

原创 什么是Batch Normalization?

深度学习的一个本质问题Internal Covariate Shift什么是BN深度学习的一个本质问题深度神经网络一直以来就有一个特点:随着网络加深,模型会越来越难以训练。所以深度学习有一个非常本质性的问题:为什么随着网络加深,训练会越来越困难?为了解决这个问题,学界业界也一直在尝试各种方法。sigmoid作为激活函数一个最大的问题会引起梯度消失现象,这使得神经网络难以更...

2019-09-30 16:19:55 263

原创 pip更换国内安装源

pip国内的一些镜像  阿里云 http://mirrors.aliyun.com/pypi/simple/  中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/  豆瓣(douban) http://pypi.douban.com/simple/  清华大学 https://pypi.tuna.tsinghua.edu.cn/simpl...

2019-09-29 19:12:07 353

原创 Linux命令之解压缩:tar、zip、rar 命令

一、简介解压缩是一个常用的操作,在 Linux 中通常比较常用的是 tar 命令,zip 和 rar 命令则是 Windows 中比较常用。二、快速使用1. tar 命令语法: tar [主选项 + 辅选项] 文件或目录示例:# 压缩文件 file1 和目录 dir2 到 test.tar.gztar -zcvf test.tar.gz file1 dir2# 解压 test.ta...

2019-09-04 15:43:38 549

原创 Linux 软件安装时--prefix选项的作用

prefixlinux下源码安装软件的一个选项  linux安装软件采用源码安装灵活自由,适用于不同的平台,维护也十分方便。  源码的安装一般由3个步骤组成:  配置(configure)  编译(make)  安装(make install)  具体的安装方法一般作者都会给出文档,这里说明配置(configure)的prefix选项  以安装supersparrow-0.0.0为...

2019-06-19 16:02:41 875

原创 Linux过滤掉文本中的乱码

有一个文本中有乱码1 CCTV-13 CCTV-53 CCTV-56 ¸£½¨μ¼˓HD4 CCTV-124 ¸£½¨μ¼˓HD20 ¸£½¨3-1«1220 ¸£½¨5-μ苓¾刴 ¸£½¨μ¼˓HD20 °2»֎JӸࠇ有 ʮܚπ˓2 oӱ±π˓8 ½?¨ͨ 4 o Ӹࠇ名 ɽ¶«π˓¸ࠇ名 ʮܚπ˓¸ࠇ劳 泉州3套8 泉州3套8 CCTV-21 浙江卫视现在需要...

2019-05-17 19:40:02 4722 1

原创 记住,永远不要在MySQL中使用“utf8”

最近我遇到了一个 bug,我试着通过 Rails 在以“utf8”编码的 MariaDB 中保存一个 UTF-8 字符串,然后出现了一个离奇的错误:Incorrect string value: ‘\xF0\x9F\x98\x83 <…’ for column ‘summary’ at row 1我用的是 UTF-8 编码的客户端,服务器也是 UTF-8 编码的,数据库也是,就连要保存...

2019-05-09 19:31:20 178

原创 关于 pytorch inplace operation需要注意的问题(data和detach方法的区别)

(本文章适用于 pytorch0.4.0 版本, 既然 Variable 和 Tensor merge 到一块了, 那就叫 Tensor吧)在编写 pytorch 代码的时候, 如果模型很复杂, 代码写的很随意, 那么很有可能就会碰到由 inplace operation 导致的问题. 所以本文将对 pytorch 的 inplace operation 做一个简单的总结。在 pytorch ...

2019-05-09 11:52:37 2200

原创 新安装的系统 出现应用程序无法启动因为并行配置不正确

参考http://www.zhuangjiba.com/bios/9208.html

2019-05-07 10:08:12 1240

原创 LeetCode-329:矩阵中的最长递增路径(动态规划)

原题给定一个整数矩阵,找出最长递增路径的长度。对于每个单元格,你可以往上,下,左,右四个方向移动。 你不能在对角线方向上移动或移动到边界外(即不允许环绕)。示例 1:**输入: ** nums =[[9,9,4],[6,6,8],[2,1,1]]输出: 4**解释: ** 最长递增路径为 [1, 2, 6, 9]。示例 2:输入: nums =[[3,4,5],...

2019-04-26 17:00:35 1250

原创 pytorch的cuda环境搭建(GPU版本安装)

参考https://blog.csdn.net/MarsLee_U/article/details/80489618https://blog.csdn.net/u011622208/article/details/80275344注意:一定要安装cudnn,不然无法进行卷积操作

2019-04-24 22:39:29 88921 8

周志华老师的《机器学习》中假设空间和版本空间的理解

https://blog.csdn.net/anqijiayou/article/details/79697900

2019-04-22 18:05:31 956

原创 一个“牛逼”的 Python 命令行解析库-fire

在 Python 中,命令行解析库有非常多的选择方案,系统自带的 模块有 argparse,有 Flask 作者写的 click,但是 argparse 使用起来啰嗦, 要经历解析器初始化、参数定义、解析一套流程。例如:# -*- coding: utf-8 -*-# arg_test.pyimport argparsedef counter(file_type=None): ...

2019-04-22 17:40:47 570

原创 Python3中configparser 模块详解(解析和灵活使用配置文件)

configparser 简介configparser是Pyhton标准库中用来解析配置文件的模块,并且内置方法和字典非常接近。Python2.x 中名为 ConfigParser,3.x 已更名小写,并加入了一些新功能。配置文件的格式如下:[DEFAULT]ServerAliveInterval = 45Compression = yesCompressionLevel = 9Fo...

2019-04-22 17:03:12 1334 1

机器学习(周志华西瓜书) 参考答

https://blog.csdn.net/icefire_tyh/article/details/52064910

2019-04-14 21:46:37 1706

原创 深度学习框架:动态图 vs 静态图

动态图框架对应的是 命令式编程静态图框架对应的是 符号式编程命令式编程 vs 符号式编程参考https://blog.csdn.net/z0n1l2/article/details/80873608https://mxnet.incubator.apache.org/versions/master/architecture/program_model.html#symbolic-vs-...

2019-04-04 11:01:31 15739 3

原创 使用torch.Tensor() 创建张量,加上requires_grad参数报错(Pytorch 1.0)

x = torch.Tensor([[.5, .3, 2.1]])print(x)&gt; tensor([[0.5000, 0.3000, 2.1000]])加上参数 requires_grad=True 或者 requires_grad=False :x = torch.Tensor([[.5, .3, 2.1]], requires_grad=False)print(x)Tra...

2019-03-12 10:45:46 10237 1

原创 安装好2013版的office,右键新建是Microsoft Office 2007的解决办法

原因都是万恶的WPS惹的祸,卸载wps没有卸载干净。解决办法一、按下组合键Win+R调出系统运行对话框,并在对话框中输入:regedit二、针对word:删除HKEY_CLASSES_ROOT以下几个文件夹:① Word.Document② Word.Document.12③ Word.Document.6④ Word.Document.8三、针对Excel:删除HKEY_CLA...

2019-02-28 21:47:40 2758

原创 CIFAR-10和CIFAR-100数据集说明

翻译自: http://www.cs.toronto.edu/~kriz/cifar.htmlCIFAR-10和CIFAR-100是带有标签的数据集,它们是8000万个微小图像数据集的子集,他们由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集。CIFAR-10数据集CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000...

2019-02-21 17:17:48 13907

原创 scikit-learn的基本用法——模型保存与加载

import picklefrom sklearn.svm import SVCfrom sklearn import datasets# 定义分类器svm = SVC()# 加载iris数据集iris = datasets.load_iris()# 读取特征X = iris.data# 读取分类标签y = iris.target# 训练模型svm.fit(X, y)...

2019-02-13 10:44:54 844

原创 Linux如何查看进程、杀死进程

1.查进程ps命令查找与进程相关的PID号:ps a 显示现行终端机下的所有程序,包括其他用户的程序。ps -A 显示所有程序。ps c 列出程序时,显示每个程序真正的指令名称,而不包含路径,参数或常驻服务的标示。ps -e 此参数的效果和指定”A”参数相同。ps e 列出程序时,显示每个程序所使用的环境变量。ps f 用ASCII字符显示树状结构,表达程序间的相互关系。ps -H...

2019-01-31 18:56:48 1397

原创 Spark作业提交的方式

在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度4)Mesos不管使用什么模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通...

2019-01-30 16:11:16 837

原创 深度学习中parameters个数和FLOPS计算(以CNN中经典的AlexNet网络结构为例)

面试时遇到过计算神经网路的参数个数以及FLOPS计算,当时对FLOPS计算比较蒙圈,这两天又看到了美团发布的技术博客对深度学习计算量的解决方案中又出现了FLOPS相关概念,所以通过查阅好多大佬的博客把FLOPS的计算问题理解清楚。前言深度学习的计算量上表列举了,ImageNet图像识别中常见算法的模型大小以及单张图片一次训练(One Pass)所需要的计算量。自2012年,Hinton的...

2019-01-30 11:53:58 22478 6

原创 详解scikit-learn计算ROC/AUC曲线

ROC和AUC定义ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。ROC曲线的面积就是AUC(Area Under the Curve)。AUC用于衡量“二分类问题”机器学习算法性能(泛化能力)。Python中sklearn直接提供了用于计算ROC的函数,下面就把函数背后的计算过程详细讲一下。计算ROC需要知道的关键概念首先,解释几个二...

2019-01-29 17:53:53 6688 3

原创 PySpark计算均值、方差、偏度和峰度

参考https://blog.csdn.net/u013555719/article/details/78530879https://blog.csdn.net/suzyu12345/article/details/79673473

2019-01-24 15:04:55 9998

原创 特征处理之使数据分布逼近正态分布

前言在机器学习和深度学习中,我们经常要对输入的数据做归一化或者在隐藏层使用Batch-Normlization(BN)操作,将数据范围缩放到[0,1]或者[-1, 1]之间,主要作用:可以加快神经网络训练速度,防止过拟合。然而无论做归一化还是BN处理,虽然将数据的均值变为0,方差变为1,但是数据的整体分布并不一定服从标准的正态分布(实际数据大部分时候都不会是),做归一化和BN时,我们求出来的均值...

2019-01-23 22:27:21 21296 4

原创 Python中sys.stdin和fileinput读取标准输入

源自《Python Linux系统管理与自动化运维》第3章打造命令行工具。1. 使用sys.stdin和fileinput读取标准输入众所周知,Shell脚本具有一个其他脚本语言都没有的优点,那就是管道。管道可以衔接不同的Linux命令,通过管道,我们可以使用多个简单的命令来实现一个复杂的功能。管道如此强大,因此,我们希望在Python语言中使用管道来结合Python语言和Shell脚本的优势...

2019-01-22 17:53:43 4219

原创 TensorFlow模型载入方法汇总

一、TensorFlow常规模型加载方法保存模型加载模型不加载图结构,只加载参数加载图结构和参数简化版本二、TensorFlow二进制模型加载方法三、二进制模型制作四、从图上读取张量从二进制模型加载张量从当前图中获取对应张量从图中获取节点信息一、TensorFlow常规模型加载方法保存模型tf.train.Saver()类的save(sess, ckpt文...

2019-01-17 17:58:30 2278 1

原创 查看TensorFlow的pb模型文件的ops和tensor并使用TensorBoard可视化

加载pb模型文件,并输出定义model = 'model.pb'with tf.Session() as sess: with open(model, 'rb') as model_file: graph_def = tf.GraphDef() graph_def.ParseFromString(f.read()) print(graph...

2019-01-17 16:25:27 5940

原创 Linux用ls和grep统计文件个数

Linux ls命令Linux ls命令用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。语法ls [-alrtAFR] [name...]参数 :-a 显示所有文件及目录 (ls内定将文件名或目录名称开头为"."的视为隐藏档,不会列出)-l 除文件名称外,亦将文件型态、权限、拥有者、文件大小等资讯详细列出-r 将文件以相反次序显示(原定依英文字母次序)-t ...

2019-01-14 17:00:29 11233

原创 Spark任务中如何确定park分区数、task数目、core数、worker节点个数、excutor数量

先来几个参考的博文,改天再总结,今天有点晚了参考https://blog.csdn.net/u012965373/article/details/80847543https://blog.csdn.net/mys_35088/article/details/80864092https://blog.csdn.net/zhangzeyuan56/article/details/809350...

2019-01-07 22:24:10 1461

原创 Hadoop streaming运行python程序如何设置map和reduce的个数(python)

Hadoop Streaming给许多语言(java,scala,python,C等)提供了使用Hadoop和编写Mapreduce的接口。在实际工作中,我选择python来做大数据处理,在编写mapreduce作业时,经常遇到map和reduce的个数怎么设置,因为它们的个数决定着程序运行的效率和一些其它方面的因素(例如对于一个大的数据集,如果使用一个map来处理,很容易造成该节点的内存等不足)...

2019-01-07 22:22:18 2459

原创 python中re模块正则语法小结

# 正则表达式规则: 单字符: . : 除换行以外所有字符 [] : 匹配集合中任意一个字符 \d : 数字 \D : 非数字 \w : 数字、字母、下划线、中文 \W : 非数字、字母、下划线、中文 \s : 空格 ...

2019-01-01 21:49:27 206

原创 pyspark学习笔记: 一些环境配置问题

使用pyspark一些环境配置问题基本配置安装spark后,还需要修改Spark的配置文件spark-env.shcd /usr/local/sparkcp ./conf/spark-env.sh.template ./conf/spark-env.sh编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:export SPAR...

2019-01-01 21:23:40 11495 4

原创 VScode配置C/C++环境(包含cmake的配置)

参考https://www.cnblogs.com/ggg-327931457/p/9694401.htmlhttps://blog.csdn.net/Realoyou/article/details/82051002https://blog.csdn.net/isscollege/article/details/78038921

2019-01-01 14:00:32 2261

原创 Linux系统中安装python3和pip及相关配置

linux中安装python3https://www.cnblogs.com/kimyeee/p/7250560.htmlhttps://blog.csdn.net/weixin_42142630/article/details/81089371安装好python3后,建立软链ln -s /usr/local/python3/bin/python3 /usr/bin/python3然后将...

2019-01-01 13:56:04 1657

原创 Linux系统中grep等命令详解

查看文件的行数在 linux 系统中没有在 windows 系统中那么方便的点点鼠标就可以操作文件了,对文件的各种操作都必须使用各种命令来完成。比如有时候我们需要在不查看文件内容的情况下需要知道该文件有多少行。这个时候可以通过 linux 的 wc 命令完成我们的想法。下面具体介绍一下 wc 命令的作用以及用法。wc 命令的作用:统计指定文件中的字节数、字数、行数,并将结果显示输出。命令语法...

2019-01-01 13:55:00 10386

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除