自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Rookiekk

主要对在学习和实现机器学习,深度学习中的一些算法时的一些问题进行记录。

  • 博客(57)
  • 收藏
  • 关注

原创 python:else与循环语句联合用法

我们都知道if else语句,今天看到了一种else的新用法,在此做记录和大家分享。Python中,如果一个循环没有被break语句提前中止,那么它的可选分支else就会被执行。else和循环语句的联合使用,如while和for循环中,配合break进行使用,else主要用来判断循环语句是否是被break结束的。直接看例子:ele = 3alist = [1,2,3]for i ...

2019-09-06 09:52:45 982

原创 数据结构:二分查找python实现

二分查找是分而治之策略很好的例子,这里给出了两种实现,其中一种是使用递归方式实现。#二分法#递归查找def Binary_search(alist, item, first, last): found = False while first <= last and not found: mid = (first + last) // 2 ...

2019-08-30 10:10:11 284

原创 算法设计:动态规划问题

适合采用动态规划(dynamic programming)方法的最优化问题中的两个要素:最优子结构和重叠子问题。最优子结构:用动态规划求解最优化问题的第一步就是刻画最优解的结构,如果一个问题的解结构包含其子问题的最优解,就称此问题具有最优子结构性质。因此,某个问题是否适合应用动态规划算法,它是否具有最优子结构性质是一个很好的线索。使用动态规划算法时,用子问题的最优解来构造原问题的最优解。因...

2019-08-29 19:49:02 498

原创 tensorflow学习笔记:tf.control_dependencies,tf.GraphKeys.UPDATE_OPS,tf.get_collection

tf.control_dependencies(control_inputs):control_dependencies(control_inputs)ARGS:control_inputs:在运行上下文中定义的操作之前必须执行或计算的 Operation 列表或 Tensor 对象.也可以是不清除控件依赖项.返回:指定上下文中构建的所有操作的控制依赖关系的上下文管理器....

2019-07-04 09:32:59 4914

原创 tensorflow学习笔记:tf.data.Dataset,from_tensor_slices(),shuffle(),batch()的用法

tf.data.Dataset.from_tensor_slices:它的作用是切分传入Tensor的第一个维度,生成相应的dataset。例1:dataset = tf.data.Dataset.from_tensor_slices(np.random.uniform(size=(5, 2)))传入的数值是一个矩阵,它的形状为(5, 2),tf.data.Dataset.from...

2019-07-03 19:34:32 13264

原创 机器学习:正则化原理总结

面试中经常被问到正则化,进行了一个总结,懒得打字了,直接上笔记

2019-04-23 19:23:06 401

原创 Pearson相关系数

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数(PPMCC或PCCs)。在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商: ...

2019-04-09 15:58:49 6730

原创 数据结构:堆python实现与堆排序

一、堆的定义堆是一种完全二叉树,有最大堆和最小堆两种。最大堆: 对于每个非叶子节点 V,V 的值都比它的两个孩子大,称为 最大堆特性(heap order property) 最大堆里的根总是存储最大值,最小的值存储在叶节点。 最小堆:和最大堆相反,每个非叶子节点 V,V 的两个孩子的值都比它大。二、python实现在我们的堆实现中,我们通过创建一个完整二叉树来保持树平...

2019-03-29 16:03:05 338

原创 机器学习:正负样本数据量不平衡处理方法

无偏采样:意味着真实样本总体的类别比例在训练集中得以保持。在训练集中正反例数目不同时,令表示正例数目,表示反例数目,观测几率为,,我们假设训练集是真是样本总体的无偏采样,因此观测几率就代表了真实几率。只要分类器的预测几率高于观测几率就应判定为正例,即 若,则预测为正例。再缩放(再平衡): ...

2019-03-26 11:18:39 4470

原创 机器学习:生成式模型与判别式模型

监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数: 或者条件概率分布: 。监督学习方法又分为生成方法和判别方法,对应生成式模型(Generative Model)与判别式模型(Discriminative...

2019-03-25 21:58:26 2535

原创 python错误处理

高级语言通常都内置了一套try...except...finally...的错误处理机制,Python也不例外。try: print('try...') r = 10 / 0 print('result:', r)except ZeroDivisionError as e: print('except:', e)finally: print('fi...

2019-03-18 20:46:32 143

原创 数据结构:静态查找动态查找

概念1、静态查找首先无论是静态查找还是动态查找,都要有查找的对象,也就是包含很多同类型数据的“表”,这个“表”可以理解为一个由同类型数据元素组成的一个“集合”,该集合可以用各种容器来存储,例如数组、链表、树等,我们统称这些存储数据的数据结构为——查找表。可见,查找表有时是我们传统意义的表,有时候是很复杂的一种结构。静态查找就是我们平时概念中的查找,是“真正的查找”。之所以说静态查找是真...

2019-03-15 15:32:10 12867

原创 数据结构:哈希表函数构造和冲突解决方法

哈希表哈希函数:记录的存储位置和它的关键字之间建立一个确定的对应关系。冲突:对不同的关键字可能得到同一哈希地址,这种现象称为冲突。哈希函数构造方法1.直接定址法取关键字或关键字的某个线性函数值为哈希地址,即:或2.数字分析法3.平方取中法取关键字平方后的中间几位为哈希地址。这是一种较常用的构造哈希函数的方法。一个数平方后的中间几位数和数的每一位都相关。4.折...

2019-03-15 15:29:38 778

原创 机器学习:防止模型过拟合的方法

机器学习中造成过拟合的原因可能有以下几点:(1)数据有噪声(2)训练数据不足,有限的训练数据(3)训练模型过度导致模型非常复杂防止过拟合的方法:1.提前停止:对模型进行训练的过程即是对模型的参数进行学习更新的过程,这个参数学习的过程往往会用到一些迭代方法,如梯度下降(Gradient descent)学习算法。Early stopping便是一种迭代次数截断的方法来防止过拟...

2019-03-14 21:56:45 1347

转载 算法中P,NP和NPC问题

一、概念P问题:在多项式时间内可解的问题。NP(Nondeterministic polynominal非确定性多项式)问题:在多项式时间内验证得出一个正确解的问题。P类问题是NP问题的子集,因为存在多项式时间解法的问题,总能在多项式时间内验证他。NPC问题:一个问题约化为另一个问题,时间复杂度增加了,问题的应用范围也增大了。通过对某些问题的不断约化,我们能够不断寻找复杂度更高,但...

2019-03-11 16:03:33 1235

原创 数据结构:线性数据结构(4)-列表(栈,队列,deques, 列表)

一、列表1.1列表的抽象数据类型列表是项的集合,其中每个项保持相对于其他项的相对位置。无序列表的结构是项的集合,其中每个项保持相对于其他项的相对位置。下面给出了一些可能的无序列表操作。List() 创建一个新的空列表。它不需要参数,并返回一个空列表。 add(item) 向列表中添加一个新项。它需要 item 作为参数,并不返回任何内容。假定该 item 不在列表中。 remove...

2019-03-05 10:58:43 208

原创 数据结构:线性数据结构(3)-deques(栈,队列,deques, 列表)

deque(也称为双端队列)是与队列类似的项的有序集合。即使 deque 可以拥有栈和队列的许多特性,它不需要由那些数据结构强制的 LIFO 和 FIFO 排序。这取决于你如何持续添加和删除操作。1.Deque抽象数据类型deque 抽象数据类型由以下结构和操作定义。如上所述,deque 被构造为项的有序集合,其中项从首部或尾部的任一端添加和移除。下面给出了 deque 操作。Dequ...

2019-03-04 21:00:37 349

原创 数据结构:线性数据结构(2)-队列(栈,队列,deques, 列表)

队列:FIFO1.队列的抽象数据类型队列抽象数据类型由以下结构和操作定义。如上所述,队列被构造为在队尾添加项的有序集合,并且从队首移除。队列保持 FIFO 排序属性。队列操作如下:Queue() 创建一个空的新队列。 它不需要参数,并返回一个空队列。 enqueue(item) 将新项添加到队尾。 它需要 item 作为参数,并不返回任何内容。 dequeue() 从队首移除项。它...

2019-03-04 20:33:40 222

原创 数据结构:线性数据结构(1)-栈(栈,队列,deques, 列表)

栈,队列,deques, 列表是一类容器,他们数据项之间的顺序由添加或删除的顺序决定,一旦一个数据项被添加,它相对于前后元素一直保持该位置不变。注入此类的数据结构称为线性数据结构。栈栈(栈,队列,deques, 列表)是一个项的有序集合:栈的底部很重要,因为在栈中靠近底部的项是存储时间最长的。最近添加的项是最先会被移除的。这种排序原则有时被称为 LIFO,后进先出。1.栈的抽象数据类型...

2019-03-04 17:35:34 318

原创 数据结构与算法:树与二叉树python实现

最近复习一遍数据结构与算法,做一些笔记,大家可以一起复习。一、树的一些容易混淆的定义:结点层:根结点的层定义为1;根的孩子为第二层结点,依此类推;树的深度(或高度):树中最大的结点层;满二叉树:这个定义国内和国外有较大的区别:国内教程定义:一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为K,且结点总数是(2^k) -1 ,...

2019-02-28 17:50:55 494

原创 数据结构与算法:排序算法的稳定性以及各性能比较python实现

招聘笔试中经常会考到排序算法,在此做一个总结。一、算法概念1.排序算法的稳定性假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的;否则称为不稳定的。1.简单选择排序一趟简单排序的操作为:通过n-i次...

2019-02-28 17:37:56 257

原创 python:copy()和deepcopy()区别

1.对象的赋值都是进行对象引用(内存地址)传递,即‘’ b is a‘’ ,a 变 b 也变2.copy.copy(x):浅拷贝会创建一个新的对象,即 “bis not a” ,但是,对于对象中的元素,浅拷贝就只会使用原始元素的引用(内存地址),也就是说”b[i] is a[i]”当我们使用下面的操作的时候,会产生浅拷贝的效果:使用切片[:]操作 使用工厂函数(如list...

2019-02-27 10:21:17 707

原创 pandas:get_dummies()与pd.factorize()用法与区别

1.get_dummies()pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables&gt;&g...

2019-01-23 21:59:01 1861

原创 pandas:apply(),applymap(),map()

自己总结一下:1.apply()Series.apply:For applying more complex functions on a Series。对Series的值调用函数。可以是ufunc(一个适用于整个系列的NumPy函数)还是一个只对单个值有效的Python函数。&gt;&gt;&gt; series = pd.Series([20, 21, 12], index=...

2019-01-21 21:18:33 266

原创 机器学习变量转换(定性变量、定量变量)

为了更好地讨论问题,将模型的自变量分类。在模型里使用的变量可以分为两类:数值型变量和类别型变量。如图1所示。一、定义数值型变量,在学术上被称为定量变量(quantitative variable),如长度、收入、重量等。它们的数值表示具体的测量或计数。事实上,定量变量按是否连续可进一步细分为连续型变量和离散型变量。在一定区间内可以任意取值的变量叫连续型变量,比如人的身高、体重等;反之则...

2019-01-15 17:06:15 16991 1

原创 pandas:数据类型的转换

今天做机器学习实验,我们查看数据类型把类别换成我们需要的合适的类别,为后边的处理做准备。把类别category类型转换成dummy/indicator变量。首先介绍get_dummies():pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, dro...

2018-12-15 14:46:09 3566

原创 数据结构与算法:已知二叉树两种遍历序列,求第三种遍历序列

在笔试题目中经常碰到此类题目,已知先序遍历序列和中序遍历序列,求后序序列或者已知中序序列和后序序列,求先序遍历序列。其中若已知先序序列和后序序列,无法唯一确定一棵树,所以就无法得知中序序列。1.已知先序遍历序列和中序遍历序列,求后序序列递归的去求解,每次找到子树的根节点与子树序列来求解。2.已知中序序列和后序序列,求出先序遍历序列方法跟前边类似,要根据后后序遍历序列判断根节点...

2018-12-11 20:29:46 1410

原创 机器学习性能度量(2):错误接受率 (FAR), 错误拒绝率(FRR),EER计算方法,python实现

上一篇博文中讨论了两种常用的性能度量查准率(precision)查全率(recall,也叫召回率)对应的P-R图与真正例率(TPR),假正例率(FPR)对应的ROC图。详情请看https://blog.csdn.net/qq_18888869/article/details/84848689。今天介绍另一种常用的人的度量方法FAR,FRR,此方法在识别身份,人脸识别等方面运用较多。1.概念...

2018-12-10 20:56:44 19499 4

原创 python matplotlib:figure,add_subplot,subplot,subplots讲解实现

最近又用到了matplotlib 中画图的函数。总结几个常用的函数的作用于区别。from matplotlib import pyplot as plt1.figure()函数定义matplotlib.pyplot.figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True...

2018-12-07 15:46:23 5012

原创 机器学习性能度量(1):P-R曲线与ROC曲线,python sklearn实现

最近做实验要用到性能度量的东西,之前学习过现在重新学习并且实现一下。衡量模型泛化能力的评价标准,这就是性能度量。性能度量反应了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求。一、性能度量方法1.1错误率与精度错误率是分类错误的样本数占样本总数的比例,精度是分类正确的样本数占样本总数的比例。...

2018-12-06 15:46:34 6990 1

原创 dataframe进行groupby后画图坐标轴刻度问题

首先看我们要用到的画图函数:DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None,sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None,legend=True, style=None,...

2018-11-21 15:41:18 7944 1

原创 pandas: DataFrame在数据处理时一些常用的操作汇总

对自己在数据处理中经常使用却经常忘记的一些操作汇总。我用的多,大家应该用的也很多,有需要的可以转载follow。1.dataframe数据筛选:loc,iloc,ix,at,iatloc:需要用行列的标签进行索引。iloc:需要用行列索引进行索引。ix:功能更强大一些,结合了以上两种方法,既可以用标签,又可以用索引。at:根据指定行index及列label,快速定位DataFr...

2018-11-13 16:58:33 7251 1

原创 数据分析:度量数据散布的四分位数

假设属性X的数据以数值递增序排列。分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。4-分位数是3个数据点,他们把数据划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称它们为四分位数。四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作,是第25个百分位数。第3个四分位数记作,是第75个百分位数。第1个和第3个四分位数之间的距离是散布的一种...

2018-11-12 22:08:36 3649

原创 pandas:数据规范化方法与python实现

这里就不说为什么要做数据规范化了,直接讲几种规范化的方法。有许多规范化的方法,我们将学习种:最大-最小规范化、分数规范化、小数定标规范化。这里令是数值属性,具有个观测值。一、原理1.最大-最小规范化假设和分别为属性的最大值和最小值。最小-最大规范化通过计算           把A的值映射到区间,中的。最小-最大规范化保持原始数据值之间的联系。如果今后的输入实例落在的原...

2018-11-09 16:09:47 6032

原创 keras:Sequential API 和 Function API

在使用keras构建深度学习的模型时,遇到了一些关于Sequential API和Function API的疑问。在Keras 0.x中,模型其实有两种,一种叫Sequential,称为序贯模型,也就是单输入单输出,一条路通到底,层与层之间只有相邻关系,跨层连接统统没有。这种模型编译速度快,操作上也比较简单。第二种模型称为Graph,即图模型,这个模型支持多输入多输出,层与层之间想怎么连怎么连...

2018-10-21 15:43:23 1174

原创 python 面向对象编程:类和实例

深度学习在构建网络模型时,看到用类来构建一个模型实例,清晰明了,所以这篇博文主要学习一下python类类和实例:类可以起到模板的作用,因此,可以在创建实例的时候,把一些我们认为必须绑定的属性强制填写进去。通过定义一个特殊的__init__(注意:特殊方法“__init__”前后分别有两个下划线!!!),方法,在创建实例的时候,就把name,score等属性绑上去:class Stud...

2018-10-18 20:40:19 1430

原创 python生成器generator:深度学习读取batch图片

在深度学习中训练模型的过程中读取图片数据,如果将图片数据全部读入内存是不现实的,所以有必要使用生成器来读取数据。通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可...

2018-10-17 16:44:38 4839 1

原创 深度学习:用于multinoulli输出分布的softmax单元

首先说明Bernoulli分布对应sigmoid单元,Multinoulli分布对应softmax单元。了解multinoulli分布请看:机器学习:Multinoulli分布与多项式分布。softmax函数可以看作sigmoid函数的扩展,其中sigmoid函数用来表示二值型变量的分布。为了推广得到具有n个值的离散型变量的情况,现在需要创造一个向量,它的每个元素是。我们不仅要求每个元素介于0...

2018-10-13 20:02:00 1378

原创 机器学习:Multinoulli分布与多项式分布

学习深度学习时遇见multinoulli分布,在此总结一下机器学习中常用的multinoulli分布与多项式分布之间的区别于关系,以便更好的理解其在机器学习和深度学习中的使用。首先介绍一下其他相关知识。Bernoulli分布 (两点分布)Bernoulli分布是单个二值随机变量的分布。它由单个参数控制,给出了随机变量等于1的概率。                        ...

2018-10-13 13:45:38 22284 5

原创 CNN:对于卷积的理解

学习深度学习看到卷积这个operation,为了理解它查了一些资料,有幸看到一个大佬的总结,再加上一些自己的想法,做一个总结。一、卷积的定义内涵:在泛函分析中,卷积、旋积或摺积(英语:Convolution)是通过两个函数f 和g 生成第三个函数的一种数学算子,表征函数f 与g经过翻转和平移的重叠部分的面积。设:f(x),g(x)是R1上的两个可积函数,作积分:        ...

2018-10-11 21:08:11 1795

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除