Shaing_Saying-CSDN博客

翻译线程和进程的比较

下面从调度性、并发性、系统开销和拥有资源等方面对进程和线程进行比较。（1）调度在传统的操作系统中，作为拥有资源的基本单位和独立调度、分派的基本单位都是进程。在引入线程的操作系统中，则把线程作为调度和分配的基本单位，而进程作为拥有资源的基本单位，使线程基本上不拥有资源。（2）并发性在引入线程的操作系统中，不仅进程之间可以并发执行，而且在一个进程中的多个线程之间也可以并...

2018-11-11 16:09:02 977

原创梯度下降算法

一、梯度下降梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路，下面关于这两种方法进行讲解。是对于机器学习算法的模型参数，即无约束优化问题时，梯度下降时最常用的方法之一，另外一种常用的方法时最小二乘法。1、梯度下降的符号解释M 训练样本的数量x 输入变量，又称特征y 输出变量，又称目标（x, y）训练...

2018-09-11 19:00:03 443

原创 python 排序代码的实现

快速排序：#!-*-coding:utf-8 -*-#!@time :2018/9/11 16:06#!@Author : shasha#!@File : .pydef quick_sort(qlist): if qlist == []: return [] else: qfirst = qlist[0] qless...

2018-09-11 18:58:35 785

原创在Ubuntu16.04终端创建Scrapy框架

1、在~/PycharmProjects/working/book2/scrapyProject目录下打开终端并输入：scrapy startproject todayMovie2、tree todayMovie: 以树的结构写入：

2018-05-21 20:51:27 1473

原创 python爬虫多进程的使用：multiprocessing

本文通过爬取智联招聘网站上的职位信息等，multiprocessing中引用的即为多进程爬虫。主要是通过引用from multiprocessing import Poolmultiprocessing 是Python自带的一个多进程模块，在此我们使用其中的Pool方法。pool = Pool(processes=2) # 括号内如果为空，程序会自...

2018-05-21 09:36:16 1378

场景：当我们以未登录身份使用浏览器访问一个看书的相关网址时，只显示了亚马逊的购买链接。隐藏了书籍的下载链接。但是当我们登录以后，下载链接会显示出来，这样在爬虫的时候，可以把下载链接解析出来使用。登录前后网页Headers-Request Headers显示的Cookie不同。下图为浏览器和Web服务器之间的交互，也显示了Cookie的信息。Cookie的引文原意是“点心”，它是在客户端访问Web服...

2018-05-19 18:42:00 72725 10

原创 python2.X和python3.X中的urllib、urllib2，以及Request

1、urllib和urllib2库在python2中的使用Urllib和Urllib2是python2中提供的一个用于操作url的模块，但是提供了不同的功能。在python2中，有urllib库和urllib2库。在python3中，urllib2被合并到urllib库中，在我们爬取网页的时候，经常用到这个库。1.1 urllib2可以接受一个Request类的实例来设置URL请求的headers...

2018-05-18 13:36:39 4716

原创 Pandas DataFrame (Merge、join)

Merge通过键拼接列pandas提供了一个类似于关系数据库的连接（join）操作的方法<Strong>merge</Strong>，可以根据一个或多个键将不同的DataFrame中的行连接起来语法为：Merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False,...

2018-05-16 15:38:25 1686

原创数据规范化（归一化）、及Z-score标准化

数据规范化数据规范化（归一化）处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲，数值见的差别可能很大，不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响，需要进行标准化处理，将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析。如将工资收入属性值映射到[-1, 1]或者[0, 1]内。数据规范化对于基于距离的挖掘算法尤为重要。（1）最小-最大规...

2018-05-15 22:11:58 155224 10

转载 ROC曲线理解

ROC（receiver operator characteristic curve, ROC）曲线：即受试者工作特征曲线，是反映敏感度和特异度连续变量的综合指标，用作图法展示两度之间的关系。作图方法：在相关临床研究报告中，若有一个ROC曲线图，将会给人深刻印象，具体做法是：实验结果为计量资料即连续变量，至少计算5个临界点的指标，以敏感度（真阳性率）为Y轴，1-特异度（假阳性率）为X轴，将各点连成...

2018-05-15 21:20:41 18613 1

原创 K-Means算法

K-means算法思想：1）选择k个点作为初始质心2）repeat 将每个点指派到最近的质心，形成k个簇重新计算每个簇的质心3）utill 簇不发生变化或达到最大迭代次数重新计算每个簇的质心，如何计算是根据误差评分和（Sum of the Squared Error, SSE）作为聚类的目标函数，两次运行K均值产生的两个不同的簇集，我们选择SSE最小的。公式1 SSE的计算公式k表示k个聚...

2018-05-14 21:50:41 1210

原创欠拟合、过拟合以及正则化

无论在深度学习还是奇迹学习建模当中都可能会遇到两种常见结果，一种是过拟合（over-fitting）,另外一种是欠拟合（under-fitting）.过拟合与欠拟合的理解：图1 欠拟合、正确拟合、过拟合线性回归的例子图2 欠拟合、正确拟合、过拟合逻辑回归的例子打个模型拟合的例子，假如需要建立一个识别狗狗的例子，需要对模型进行训练。过拟合：恰好训练样本中的所有训练图片都是二哈，那么经过多次迭代训练之...

2018-05-14 20:54:21 1189

原创随机森林

决策树随机森林算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法，它不仅可以用来做分类，也可用来做回归即预测，随机森林机由多个决策树构成，相比于单个决策树算法，它分类、预测效果更好，不容易出现过度拟合的情况。决策树的含义：决策树是数据挖掘与机器学习领域中一种非常重要的分类器，算法通过训练数据来构建一棵用于分类的树，从而对未知数剧进行高校分类。决策树的构建步骤：将所有记录看作是一个节点遍历每个...

2018-05-14 10:12:36 433

原创总体方差和样本方差大小值的比较

总体方差和样本方差的区别用样本方差去估计总体方差。因为总体数据量太大，总体方差很难计算得到。当样本的容量和总体的容量相等时，样本的方差和总体的方差也是相等的。对于总体方差，除以n；而对于样本方差，除以的是n-1，作为对总体方差的无偏估计。如果分母用n，对于样本估计的方差则会小于真实的方差。关于用n-1的推导公式：点击打开链接...

2018-05-13 15:33:33 15172

原创数据中缺失值的处理

删除记录数据插补插补方法：常用的插补方法：均值/中位数/众数插补、使用固定值、最近临插补、回归方法、插值法拉格朗日插值法：对于平面上已知的n个点（无两点在一条直线上）可以找到一个n-1次多项式，使次多项式曲线过这n个点。将缺失的函数值对应的点x带入插值多项式得到缺失值的近似值。缺点：拉格朗日插值公式结构紧凑，在理论分析中很方便，但是当插值节点增减时，插值多项式就会随之变化，这在实际计算中很不方便，...

2018-05-13 14:12:36 1492

原创标准差、方差、协方差三者的表示意义

三者都是统计学中，对于样本的集合描述。定义公式标准差：方差：协方差：协方差相关系数：数学实际含义方差（Variance）：用来度量随机变量和其数学期望（即均值）之间的偏离程度。标准差：方差开根号。协方差：衡量两个变量之间的变化方向关系。方差、标准差、和协方差之间的联系与区别：方差和标准差都是对一组（一维）数据进行统计的，反映的是一维数组的离散程度；而协方差是对2维数据进行的，反映的是2组数据之间的...

2018-05-12 14:35:20 41161 1

写IT博客的我，读math博客的你