自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

写IT博客的我,读math博客的你

一个在电脑上写着我学习经验的我,这里可能是你知识的补充站

  • 博客(16)
  • 收藏
  • 关注

翻译 线程和进程的比较

下面从调度性、并发性、系统开销和拥有资源等方面对进程和线程进行比较。(1)调度    在传统的操作系统中,作为拥有资源的基本单位和独立调度、分派的基本单位都是进程。在引入线程的操作系统中,则把线程作为调度和分配的基本单位,而进程作为拥有资源的基本单位,使线程基本上不拥有资源。(2)并发性    在引入线程的操作系统中,不仅进程之间可以并发执行,而且在一个进程中的多个线程之间也可以并...

2018-11-11 16:09:02 977

原创 梯度下降算法

一、梯度下降    梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面关于这两种方法进行讲解。是对于机器学习算法的模型参数,即无约束优化问题时,梯度下降时最常用的方法之一,另外一种常用的方法时最小二乘法。1、梯度下降的符号解释M  训练样本的数量x    输入变量,又称特征y    输出变量,又称目标(x, y)训练...

2018-09-11 19:00:03 443

原创 python 排序代码的实现

快速排序:#!-*-coding:utf-8 -*-#!@time :2018/9/11 16:06#!@Author : shasha#!@File : .pydef quick_sort(qlist): if qlist == []: return [] else: qfirst = qlist[0] qless...

2018-09-11 18:58:35 785

原创 在Ubuntu16.04终端创建Scrapy框架

1、在~/PycharmProjects/working/book2/scrapyProject目录下打开终端并输入:scrapy startproject todayMovie2、tree todayMovie: 以树的结构写入:

2018-05-21 20:51:27 1473

原创 python爬虫多进程的使用:multiprocessing

本文通过爬取智联招聘网站上的职位信息等,multiprocessing中引用的即为多进程爬虫。主要是通过引用from multiprocessing import Poolmultiprocessing 是Python自带的一个多进程模块,在此我们使用其中的Pool方法。pool = Pool(processes=2) # 括号内如果为空,程序会自...

2018-05-21 09:36:16 1378

原创 python爬虫使用Cookie的两种方法

场景:当我们以未登录身份使用浏览器访问一个看书的相关网址时,只显示了亚马逊的购买链接。隐藏了书籍的下载链接。但是当我们登录以后,下载链接会显示出来,这样在爬虫的时候,可以把下载链接解析出来使用。登录前后网页Headers-Request Headers显示的Cookie不同。下图为浏览器和Web服务器之间的交互,也显示了Cookie的信息。Cookie的引文原意是“点心”,它是在客户端访问Web服...

2018-05-19 18:42:00 72725 10

原创 python2.X和python3.X中的urllib、urllib2,以及Request

1、urllib和urllib2库在python2中的使用Urllib和Urllib2是python2中提供的一个用于操作url的模块,但是提供了不同的功能。在python2中,有urllib库和urllib2库。在python3中,urllib2被合并到urllib库中,在我们爬取网页的时候,经常用到这个库。1.1 urllib2可以接受一个Request类的实例来设置URL请求的headers...

2018-05-18 13:36:39 4716

原创 Pandas DataFrame (Merge、join)

Merge通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merge</Strong>,可以根据一个或多个键将不同的DataFrame中的行连接起来语法为:Merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False,...

2018-05-16 15:38:25 1686

原创 数据规范化(归一化)、及Z-score标准化

数据规范化数据规范化(归一化)处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。如将工资收入属性值映射到[-1, 1]或者[0, 1]内。数据规范化对于基于距离的挖掘算法尤为重要。(1)最小-最大规...

2018-05-15 22:11:58 155224 10

转载 ROC曲线理解

ROC(receiver operator characteristic curve, ROC)曲线:即受试者工作特征曲线,是反映敏感度和特异度连续变量的综合指标,用作图法展示两度之间的关系。作图方法:在相关临床研究报告中,若有一个ROC曲线图,将会给人深刻印象,具体做法是:实验结果为计量资料即连续变量,至少计算5个临界点的指标,以敏感度(真阳性率)为Y轴,1-特异度(假阳性率)为X轴,将各点连成...

2018-05-15 21:20:41 18613 1

原创 K-Means算法

K-means算法思想:1)选择k个点作为初始质心2)repeat  将每个点指派到最近的质心,形成k个簇  重新计算每个簇的质心3)utill 簇不发生变化或达到最大迭代次数重新计算每个簇的质心,如何计算是根据误差评分和(Sum of the Squared Error, SSE)作为聚类的目标函数,两次运行K均值产生的两个不同的簇集,我们选择SSE最小的。公式1  SSE的计算公式k表示k个聚...

2018-05-14 21:50:41 1210

原创 欠拟合、过拟合以及正则化

无论在深度学习还是奇迹学习建模当中都可能会遇到两种常见结果,一种是过拟合(over-fitting),另外一种是欠拟合(under-fitting).过拟合与欠拟合的理解:图1 欠拟合、正确拟合、过拟合线性回归的例子图2 欠拟合、正确拟合、过拟合逻辑回归的例子打个模型拟合的例子,假如需要建立一个识别狗狗的例子,需要对模型进行训练。过拟合:恰好训练样本中的所有训练图片都是二哈,那么经过多次迭代训练之...

2018-05-14 20:54:21 1189

原创 随机森林

决策树随机森林算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法,它不仅可以用来做分类,也可用来做回归即预测,随机森林机由多个决策树构成,相比于单个决策树算法,它分类、预测效果更好,不容易出现过度拟合的情况。决策树的含义:决策树是数据挖掘与机器学习领域中一种非常重要的分类器,算法通过训练数据来构建一棵用于分类的树,从而对未知数剧进行高校分类。决策树的构建步骤:将所有记录看作是一个节点遍历每个...

2018-05-14 10:12:36 433

原创 总体方差和样本方差大小值的比较

总体方差和样本方差的区别用样本方差去估计总体方差。因为总体数据量太大,总体方差很难计算得到。当样本的容量和总体的容量相等时,样本的方差和总体的方差也是相等的。对于总体方差,除以n;而对于样本方差,除以的是n-1,作为对总体方差的无偏估计。如果分母用n,对于样本估计的方差则会小于真实的方差。关于用n-1的推导公式:点击打开链接...

2018-05-13 15:33:33 15172

原创 数据中缺失值的处理

删除记录数据插补插补方法:常用的插补方法:均值/中位数/众数插补、使用固定值、最近临插补、回归方法、插值法拉格朗日插值法:对于平面上已知的n个点(无两点在一条直线上)可以找到一个n-1次多项式,使次多项式曲线过这n个点。将缺失的函数值对应的点x带入插值多项式得到缺失值的近似值。缺点:拉格朗日插值公式结构紧凑,在理论分析中很方便,但是当插值节点增减时,插值多项式就会随之变化,这在实际计算中很不方便,...

2018-05-13 14:12:36 1492

原创 标准差、方差、协方差三者的表示意义

三者都是统计学中,对于样本的集合描述。定义公式标准差:方差:协方差:协方差相关系数:数学实际含义方差(Variance):用来度量随机变量和其数学期望(即均值)之间的偏离程度。标准差:方差开根号。协方差:衡量两个变量之间的变化方向关系。方差、标准差、和协方差之间的联系与区别:方差和标准差都是对一组(一维)数据进行统计的,反映的是一维数组的离散程度;而协方差是对2维数据进行的,反映的是2组数据之间的...

2018-05-12 14:35:20 41161 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除