岱宗雪-CSDN博客

原创 git学习

目录1 创建版本库2 添加文件到版本库小结3 版本管理3.1 版本回退小结3.2 工作区和暂存区3.2.1 工作区（Working Directory）3.2.2 版本库（Repository）3.3 管理修改3.4 撤销修改3.4.1 丢弃工作区的修改3.4.2 丢弃暂存区的修改小结3.5 删除文件小结4 远程仓库4.1 添加远程库SSH警告小结4.2 从远程库克隆小结5 分支管理1 创建版本...

2019-04-29 15:15:45 372

翻译 Spatial Pyramid Pooling net 论文阅读理解笔记

1 动机常见的用于识别、分类的cnn都要求输入的图像size是固定的，如224*224。因为CNN由卷积层和全连接层两部分组成。卷积层就是一个大小固定的滑动窗在图像上滑动计算窗口覆盖区域的特征，这其实对图像的size是没有要求的，无论输入的size是什么，都可以根据滑动步长和窗口大小生成对应size的输出/feature map。全连接层需要固定长度的输入，如图，绿色的那一层是前面黄色那一层...

2019-01-02 11:07:08 292

转载面向对象高级编程

本文摘录自廖雪峰python教程，作为学习笔记之用，如有侵权，请联系删除。1 使用__slots__正常情况下，当我们定义了一个class，创建了一个class的实例后，我们可以给该实例绑定任何属性和方法，这就是动态语言的灵活性。先定义class：class Student(object): pass然后，尝试给实例绑定一个属性：&amp;gt;&amp;gt;&amp;gt; s = Studen...

2018-12-21 14:01:42 244

转载 Python面向对象编程

本文摘录自廖雪峰python教程，作为学习笔记之用，如有侵权，请联系删除。1 访问限制如果要让类的内部属性不被外部访问，可以把属性的名称前加上两个下划线__，在Python中，实例的变量名如果以__开头，就变成了一个私有变量（private），只有内部可以访问，外部不能访问。class Student(object): def __init__(self, name, score...

2018-12-19 20:37:43 156

转载高阶函数

本文摘录自廖雪峰python教程，作为学习笔记之用。如有侵权，请联系删除。变量可以指向函数，函数的参数能接收变量，那么一个函数就可以接收另一个函数作为参数，这种函数就称之为高阶函数。def add(x, y abs): return abs(x) + abs(y)map/reducemap()函数接收两个参数，一个是函数，一个是Iterable，map将传入的函数依次作用到序列的...

2018-12-14 15:45:17 150

转载生成器generator与迭代器iterator

本文摘录自廖雪峰python教程，作为学习笔记之用。如有侵权，请联系删除。生成器通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的...

2018-12-14 11:52:48 279

转载 ASCII编码和Unicode编码的区别

本文摘录自廖雪峰的python教程如有侵权，请联系删除。ASCII编码是1个字节，而Unicode编码通常是2个字节。字母A用ASCII编码是十进制的65，二进制的01000001；字符0用ASCII编码是十进制的48，二进制的00110000，注意字符’0’和整数0是不同的；汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 001...

2018-12-13 15:43:03 5510

转载 tf.name_scope与tf.variable_scope用法区别

本文由网络上一些回答和博文汇总而成。要将这个问题解释清楚，得结合tensorflow中创建变量的两种方式tf.get_variable()和tf.Variable()一起说明。在tf.name_scope下：tf.get_variable()创建的变量名不受tf.name_scope的影响，即创建的变量的name没有name_scope定义的前缀。而且，在未指定共享变量时，如果重名会报...

2018-11-20 10:41:19 6036 2

原创 Course 5-Recurrent Neural Networks--Week 2

本周的内容主要包括词表示，word embedding，word2vec，GloVe，情感分类，词嵌入除偏等。2.1 word representation词表示上周我们学习了RNN，GRU, LSTM。本周将看到怎么将它们应用到NLP领域的。NLP是AI的领域之一，因为深度学习带给了NLP一次革命。而其中的关键思想就是word embeddings，它是一种表示词的方法，可以使算法自...

2018-03-08 13:37:00 505

原创 Course 5-Recurrent Neural Networks--Week 1

吴恩达老师的RNN课程已经学了一遍了，但总觉得自己学得不够明白，怎么办？再来一遍啊。书读百遍其义自见嘛！第一周的课程主要介绍序列模型的应用场景；深度学习中的RNN基础结构、GRU、LSTM、BRNN；语言模型和序列采样的知识。1.1 为什么需要序列模型？本课程中，我们将学习序列模型，深度学习令人兴奋的领域之一。RNN这类模型已经改变了语音识别、自然语言处理等其他领域。在本门课中，你将学习如何自己

2018-03-05 22:28:32 351

转载 bagging与dropout的异同

今天又翻看random forest算法，看到bagging原理的时候，突然觉得怎么bagging和dropout有点相似？bagging是每次构建树的时候，都有一些样本对单棵树不可见，而dropout是每次训练的时候，都有一些神经元对样本不可见。这里的样本、单棵树、神经元都有什么关联？随手百度了下，发现已有人给出了不错的解释，现做一个搬运工，将文章贴于此处，以供日后查阅。以下内容转自博客

2018-01-21 21:24:34 7088

转载 XGBoost 与 Boosted Tree

转自 http://blog.csdn.net/starzhou/article/details/51195211 看到这篇文章后，内容写的很棒，很多细节很值得揣摩，结合 GBDT算法原理，让我搞懂了梯度提升、xgboost相关原理，给自己留一份，方便后面翻看。作者：陈天奇，毕业于上海交通大学ACM班，现就读于华盛顿大学，从事大规模机器学习研究。注解：truth4sex 编者按：

2018-01-10 11:13:15 711

原创 HQL学习小记

1 创建表CREATE DATABASE IF NOT EXISTS bookcrossing;USE bookcrossing;CREATE TABLE IF NOT EXISTS users (user_id INT, location STRING, age INT) COMMENT 'Book Crossing users cleaned' ROW FORMAT DEL

2018-01-05 16:46:03 209

原创 tf.add_to_collection、tf.get_collection、tf.add_n用法浅析

tf.add_to_collection(‘list_name’, element)：将元素element添加到列表list_name中tf.get_collection(‘list_name’)：返回名称为list_name的列表tf.add_n(list)：将列表元素相加并返回例子：import tensorflow as tftf.add_to_collection('losses',

2017-11-27 22:05:36 5889 3

原创使用jieba维护自定义词、停用词表

对于文本处理来说，好的分词结果，是一切开始的基础。下面结合我的使用，简要说说使用jieba分词，如何添加、删除自定义词，以及使用停用词表，方便自己以后查阅。1 维护自定义词1.1 添加自定义词方法一：import jiebajieba.add_word("自定义词1")jieba.add_word("自定义词2")方法二：方法一需要我们手动一个个添加，当自定义词较多时，我们可以用下面的方法：im

2017-11-23 10:09:12 22529 3

原创 Course 1-Neural Network & Deep Learning

本节课包括深度学习的一些基础知识，如什么是神经网络，激活函数，梯度下降法，向量化操作，前向传播和后向传播等等。1.2 What is a neural network?“深度学习”一词指的是训练神经网络，有时候是非常大的神经网络。那么，神经网络到底是什么呢？以房价预测为例，假设我们有6组关于房屋面积-房价的数据，如下图所示，用线性函数拟合这组数据，又因为我们知道房价永远不可能为负，因此，当函数小

2017-11-22 11:17:37 413 1

原创 Course 4-Convolutional Neural Networks--Week 4

本周的内容主要围绕人脸识别展开，主要包括face verification、face recognition、neural style transfer。4.1 What is face recognition?首先来看看人脸识别领域的一些术语。如下图所示，分别说明了人脸确认和人脸识别的概念。人脸确认是个1对1的问题，而人脸识别比人脸确认更难，是个1对K的问题。如果人脸确认系统的正确率是99%，当我

2017-11-10 17:06:59 617

原创 Course 4-Convolutional Neural Networks--Week 3

本周的内容主要是关于目标检测。这是计算机视觉的领域之一，近几年发展迅猛。在学习目标检测之前，我们首先要学习目标定位。3.1 Object localization目标定位图像分类：算法遍历图像，然后告诉我们图像中是否有car；classification with localization：不光要告诉我们是否有car，还要将car框出来；detection：当图片中有多个目标时，就要将图像中所

2017-11-08 18:51:54 500

原创 Course 4-Convolutional Neural Networks--Week 2

本周将会展示几个有效的ConvNet案例，如LeNet-5、Alex Net、VGG16、ResNet、Inception，以及这些网络所涉及的一些技巧，如short cut（skip connection）、1*1卷积。最后介绍了如何使用这些网络，比如，直接在github上找不同框架下实现的网络，还可以在别人pre-training的基础上fine tune网络，fine tune的参数多少取决于

2017-11-04 19:39:41 366

原创 Course 4-Convolutional Neural Networks--Week 1

终于~吴老大出了深度学习的第四课-卷积神经网络，赶紧一睹为快~ 本周的课程包括卷积神经网路的一些基础知识：边缘检测、图像边的填充padding、滑动步长stride、3D卷积操作、单层卷积网络、池化层、卷积神经网络例子以及为什么需要卷积。1.1 Computer Vision计算机视觉计算机视觉领域的问题：图像分类（有时也称为图像识别）目标检测（找到目标在图像中的位置，目标数量不定）neur

2017-11-03 23:10:22 370

原创 Course 3-Structuring Machine Learning Projects--Week 2

本周的内容主要包括误差分析、训练集与dev/test set的不匹配（主要指数据分布不同）、迁移学习和端到端学习。error analysis如果我们希望学习算法能够胜任人类能做的任务，但在学习算法还没有达到人类水平之前，我们要不断地分析算法的错误或问题出现在哪里，这个过程就称为误差分析。2.1 carry out error analysis假设我们在调试一个识别猫的模型

2017-10-18 09:27:00 400

原创 Course 3-Structuring Machine Learning Projects--Week 1

机器学习策略1.1 why ML strategy？为什么需要机器学习策略？比如我们在训练一个猫的分类器，经过一段时间训练后，准确率达到了90%，但这对我们来说还不够好。然后，我们就会想很多方法来提升分类器的准确率，如下图所示：如上图所示，当尝试优化一个深度学习系统时，我们可以做很多尝试。但是，如果我们选错方向，就会浪费我们大量的时间和精力。因此，机器学习策略的目的就是给大家列

2017-10-16 18:04:22 268

原创 Course 2-Improving Deep Neural Networks--Week 3

超参数调试、batch normalization 、deep learning framework3.1 tuning process在调参时，有些参数会比其他参数重要的多，以下列出一些调参的guidelines:1、最重要的参数：学习率α\alpha 2、次重要的参数：momentum中的β\beta（0.9就不错）、#hidden units、mini-batch si

2017-10-12 10:47:44 353

原创 Course 2-Improving Deep Neural Networks--Week 2

优化算法在大数据上训练模型会很慢，若使用优化算法，就会大大提高训练效率。本周的内容就是介绍常见的优化算法，如mini-batch、momentum、RMSprop、Adam，最后再介绍下局部最优与鞍点的概念。2.1 mini-batch gradient descentbatch VS mini-batch gradient descent 向量化操作使得我们可以同时处理m个样本，但是当m很大时，

2017-10-10 12:23:49 302

原创 Course 2-Improving Deep Neural Networks--Week 1

本周涉及数据集划分、偏差-方差、正则化、dropout、归一化输入、梯度消失与爆炸、权重初始化、梯度检验等内容。1.1 train / dev / test 训练集、验证集、测试集训练集 training set：是用来训练模型的验证集 development set \ dev set：是用来选出哪个模型在dev set上表现最好测试集 test set：用来对验证选出的模型

2017-09-30 17:15:26 427

原创 Logistic Regression with a Neural Network mindset

本文是吴恩达深度学习相关课程第一课第二周的作业，用神经网络的思维方式实现逻辑回归，完成图片中猫的识别。为了自己完整实现这个过程，我没有在Coursera上做练习，而是在本地的环境下做的。下面说明下具体过程，以及在这个过程中遇到的问题和解决方法。首先，完成相关包的导入。其中需要说明的是，我在python3上直接用“pip install PIL”安装出问题了，提示说这个包在python2上才有。

2017-09-26 17:20:00 1653

转载 python开源库——h5py快速指南

最近在Coursera上学习吴恩达的深度学习相关课程，接触到了h5py这个库。网上搜到了一篇文章觉得写得很适合入门，转载过来便于日后翻看。原博文地址：http://blog.csdn.net/yudf2010/article/details/503532921. 核心概念一个HDF5文件是一种存放两类对象的容器：dataset和group. Dataset是类似于数组的数据

2017-09-26 09:39:33 1174

原创利用python往oracle写数据

最近需要整理一些Oracle数据表，由于python用习惯了，直接就python转换，然后存入。在处理的过程中遇到了一些问题，好在最后都解决了，现将代码贴一下，作为自己的一个阶段性小总结把。主要处理步骤如下：# coding=utf-8#设置语言环境import osos.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'#设置数

2017-09-20 11:34:07 13948 3

原创 python数据挖掘入门与实战——学习笔记（第5、6章）

chapter 5 用转换器抽取特征（感觉有点特征工程的意思）本章所讨论的是如何从数据集中抽取数值和类别型特征，并选出最佳特征。特征抽取对于各个实物，我们只有先把现实用特征表示出来，才能借助数据挖掘的力量找到问题的答案。特征选择的另一个优点在于降低真实世界的复杂度。dataframe中的unique函数有点类似于SQL中的distinct，能把一列中互不相同的元素筛选出来。数据

2017-09-06 16:46:18 918

原创 python数据挖掘入门与实战——学习笔记（第3、4章）

chapter 3 决策树预测获胜球队pandas加载数据集import pandas as pddataset = pd.read_csv('filepath+filename')数据清洗，可在读入时清洗dataset = pd.read_csv('filename', parse_date=['Date'], skiprows = [0, ])创建默认字典（val

2017-09-06 10:58:37 1509 1

原创 python数据挖掘入门与实战——学习笔记（第1、2章）

使用numpy读取数据集：import numpy as npdataset_filename = 'affinity_dataset.txt'X = np.loadtxt(dataset_filename ) sklearn库的相关概念：estimator：估计器，用于分类、聚类和回归分析。transformer：转换器，用于数据预处理和数据转换。pipeline：流

2017-09-05 12:23:24 636

原创 FP-Growth算法理解

第一次接触FP-Growth是在《数据挖掘概念与技术》，当时对它的理解只停留在概念层面。后来又在《机器学习实战》中接触到了它，结合着书中的讲解和代码，跑了点结果，理解加深了一点。最近，工作中需要使用到它，又重新捡起，开始精读和思考，发现收获很大。FP-Growth（Frequent Pattern Growth，频繁模式增长），它比Apriori算法效率更高，在整个算法执行过程中，只需要遍历

2017-08-23 11:45:02 16386 1