自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 macos安装pycurl,避免踩坑

sudo pip install --no-cache-dir --global-option=build_ext --global-option="-L/usr/local/opt/openssl/lib" --global-option="-I/usr/local/opt/openssl/include" pycurl --user

2019-12-30 16:19:25 276

原创 安装pycurl会报错的解决

命令:sudo apt-get install build-essential libssl-dev libffi-dev python-devps:这是linux,其他系统相应改之

2019-12-30 11:08:25 297

原创 mac python2.7安装mysql-python的经验

被这问题搞的想骂人,啥也没干专心与它大战一天,可终于安上了。国外搜了一遍,试了所有的方法,还是不可以。关键注意mysql不要最新,不要最新,不要最新!mysql-python太旧了,匹配不上最新的mysql。brew 安装加版本号!!!!其他就照着网上走一通吧,因为不知道不同人的电脑会蹦出什么问题,我反正是稀奇古怪的都出来了:(,祝顺利!!...

2019-12-26 09:26:34 272

原创 【刷题】从非负整数序列 0, 1, 2, ..., n中给出包含其中n个数的子序列,请找出未出现在该子序列中的那个数。

题目描述从非负整数序列 0, 1, 2, …, n中给出包含其中n个数的子序列,请找出未出现在该子序列中的那个数。输入描述:输入为n+1个非负整数,用空格分开。其中:首个数字为非负整数序列的最大值n,后面n个数字为子序列中包含的数字。输出描述:输出为1个数字,即未出现在子序列中的那个数。示例1输入3 3 0 1输出2import sysa = list(map(int, ...

2019-04-13 14:50:31 833

原创 【剑指offer】python实现反转链表

python实现反转链表思路AC代码思路三个指针,直接看代码更好理解。注意最后返回的是prevN,而不是pHead,因为最终的pHead是为None的AC代码# -*- coding:utf-8 -*-# class ListNode:# def __init__(self, x):# self.val = x# self.next = No...

2019-03-30 21:23:52 287

原创 【python】字符串判等之引号引发的问题

在写代码时,从文件读入一些字符串类型的数据,要与一个字符串判断是否相同,明明两个字符串内容相等,但是我们用if判断时,两者却不等,这个原因或许就是从文件读入的那些字符串是带双引号的,处理方法,就是在if前先去掉这些带引号的字符串的引号假设读入的数据为dreaddread_new=dread.replace(""","")再判等if dread_new == ‘xxxx’:………...

2019-03-30 16:28:45 812

原创 【剑指offer】二进制中1的个数

二进制中1的个数题目描述思路AC代码题目描述输入一个整数,输出该数二进制表示中1的个数。其中负数用补码表示。思路需要注意的是题目说明了是整数,那么就既有正整数,又有负整数,而且负数是要用补码表示的,int型位数一般为32为,那么对于一个负数,比如-1它的补码应为1111 1111 1111 1111,怎么得到的首先考虑1的原码为0000 0000 0000 0001,然后将右边第一个1前的...

2019-03-25 11:34:52 140

原创 【剑指offer】python实现矩形覆盖

python实现矩形覆盖题目描述思路AC代码题目描述我们可以用2 * 1 的小矩形横着或者竖着去覆盖更大的矩形。请问用n个2 * 1的小矩形无重叠地覆盖一个2*n的大矩形,总共有多少种方法?思路这是一道递归题,首先我们可以列举n=1,2,3,4时的情形观察一下规律(显然n=0时,为0)可以明显看到f(n)=f(n-1)+f(n-2)AC代码class Solution: ...

2019-03-25 10:31:18 282

原创 【剑指offer】python实现顺时针打印矩阵

python实现顺时针打印矩阵思路AC代码思路| 1 | 2 | 3 | 4 ||12|13|14| 5 ||11|16|15| 6 ||10| 9 | 8 | 7 |假如矩阵如上,那么打印的输出应为1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16怎么实现,我们要知道一个矩阵必有一个最外围包含内围的嵌套,如下:那么,此时就会有四个边界,即当前矩阵框的最...

2019-03-25 09:19:18 988 1

原创 【python】关于存入long型数据到MySQL报错1264, "Out of range value for column‘xxx'的解决

可以在创建数据库表时把这个字段设置为varchar型,而不是设置为decimal或者bigint(因为这样也会报错),然后如果就把long型的数据存成了字符串型,当需要从数据库中取出这个字段的数据室,我们再用内置转置函数long将数据变为long型(即通过long(数据))...

2019-03-24 15:20:40 1543

原创 【python】按位逻辑运算符

按位逻辑运算符的第一步是把数转换为对应的二进制串,然后按位进行如下的运算&:代表按位与比如a=3,b=4,那么a&b=0这是因为什么呢,其实python会将a,b分别先化为二进制串得到a=011,b=100,接着再按照按位与的原则得到a&b=000,最终即为十进制下的0|:代表按位或还是上面的例子,a|b=011|100=111,即最终结果为7^:代表按位异或...

2019-03-23 15:04:57 9694

原创 【python】''.join()实现字符拼接

Python join()方法描述将序列中的元素以指定的字符拼接接生成一个新的字符串。语法语法: ‘sep’.join(seq)参数说明:sep:分隔符。可以为空seq:要连接的元素序列、字符串、元组、字典返回值返回通过指定字符连接seq中的元素后生成的新字符串。...

2019-03-23 14:40:18 4289

原创 【python】匹配中文的正则表达式

r’[\w\u4e00-\u9fcc]+’

2019-03-23 14:28:58 2499 1

转载 【Linux】僵尸进程与孤儿进程

1、基本概念  我们知道在unix/linux中,正常情况下,子进程是通过父进程创建的,子进程在创建新的进程。子进程的结束和父进程的运行是一个异步过程,即父进程永远无法预测子进程 到底什么时候结束。 当一个 进程完成它的工作终止之后,它的父进程需要调用wait()或者waitpid()系统调用取得子进程的终止状态。孤儿进程:一个父进程退出,而它的一个或多个子进程还在运行,那么那些子进程将成为孤...

2019-03-21 16:26:04 115

原创 【bug】You can't specify target table '表名' for update in FROM clause

解决办法:update 原表名 set 属性列=XXX where YYY=(select 别名.YYY from(select YYY from 原表名 where ZZZ)as 别名)也就是说:把结果集当作一个表,自我查询一遍...

2019-03-17 14:50:01 204

原创 【Linux】之系统管理

系统管理一、概述(一)、进程类型(二)、进程状态(三)、三个特殊进程二、Linux中的常用信号三、常用命令(一)、ps命令查看系统中正在运行的进程(二)、top命令动态地持续监听进程的运行状态(三)kill命令管理进程(四)、killall命令终止特定的一类进程四、工作管理(一)命令最后加&放入后台执行(二)nohup保证脱离终端运行方法(三)jobs命令查看当前终端放入后台的工作(四)、...

2019-03-16 20:14:09 261

原创 Ubuntu时间调整

查看当前系统时间date -R运行tzselecttzselect接着按照提示进行选择最后复制文件到/etc目录下cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

2019-03-16 16:40:43 2721

原创 python操作mysql 之字符串的引号问题

今天在写程序时,遇到一个错误异常: (1054, “Unknown column ’ 06_cl.com’ in ‘where clause’”)后来我把那条mysql语句打印出来,结果是这样的:delete from html_tag where domain_name= 06_cl.com发现虽然我的domain这个变量在python中的类型明明是字符串,但是用下面的语句:del_s...

2019-03-14 20:38:08 610

原创 【Linux】之远程文件拷贝scp命令

功能:scp是 secure copy的缩写, scp是linux系统下基于ssh登陆进行安全的远程文件拷贝命令。现在假设有两台Linux主机A,B,ip地址分别为a,b,现在想在B上将A某个目录拷贝到B,即远程复制到本地则命令如下:scp -r A的用户名@a:A的目录 B的目录现在我们的本地主机为B,想将B上的目录复制到远程主机A,即本地到远程则命令如下:scp -r 本地目录 A的...

2019-03-14 17:20:10 234

原创 【Linux】之pwd命令

功能:查看当前路径命令

2019-03-14 16:52:44 230

原创 【Linux】之df命令

功能:显示目前在Linux系统上的文件系统的磁盘使用情况统计常用的是df -h:通过它可以产生可读的格式df命令的输出

2019-03-14 16:45:19 172

原创 【聚类】篇四之理解密度聚类算法DBSCAN

篇四之理解密度聚类算法DBSCAN一、密度聚类概述二、DBSCAN聚类(一)、基础概念(二)、算法原理(三)、算法流程(四)、优缺点参考一、密度聚类概述密度聚类假设聚类结构能通过样本的紧密程度确定,同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。从样本密度出发考虑样本间的可连接性,然后基于可连接样本不断扩展聚类的簇实现聚类的目的。基于原型(划分...

2019-03-13 15:37:13 1438

转载 【聚类】篇三之理解层次聚类 BIRCH算法

在K-Means聚类算法原理中,我们讲到了K-Means和Mini Batch K-Means的聚类原理。这里我们再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类,当然需要用到一些技巧,下面我们就对BIRCH算法做一个总结。BIRCH概述    BIRCH的全称是利用层次方法的平衡迭代规约和聚...

2019-03-13 11:09:53 862

原创 【聚类算法】篇二之KMeans聚类算法及其优化KMeans++,elkan K-Means,Mini Batch K-Means,K中心点算法

篇二之KMeans聚类算法及其优化一、KMeans算法二、优化初始k个中心的KMeans++算法三、优化距离计算量的elkan K-Means算法四、Mini Batch K-Means参考KMeans算法是原型聚类的一种,原型聚类是指基于一组原型进行初始化,然后再利用迭代的方式对原型进行更新求解一、KMeans算法K均值算法基于最小化平方误差的原则,所有簇的平方误差和如下:μi是簇Ci...

2019-03-13 10:00:36 3999 3

原创 【聚类算法】篇一之理解聚类

篇一之理解聚类概述聚类性能度量外部指标内部指标距离度量对于数值属性对于非数值属性对于属性取值为混合型对于属性取值具有不同权重概述首先,聚类属于无监督学习,即样本没有标签(类别标记),但是试图将数据集划分为若干个不相交的子集,称为一个个的”簇“,这些簇实际对应的概念在最后由人来定义。通常,聚类既可以作为一个单独的过程,只是简单的将数据集划分为一个个的簇,另外,也可以在对一些类别不好定义的分类任...

2019-03-12 20:32:01 1028

原创 对于正则化项L1,L2范数的理解

对于正则化项L1,L2范数的理解L2范数正则化L1范数正则化L1范数正则化与L2范数正则化的作用区别L1范数正则化为什么比L2范数正则化更容易获得稀疏解之前讲到了利用正则化项降低过拟合,这里再总结一下L1,L2这两种范数作为正则化项各自的特点及区别L2范数正则化在深度学习一书中,带有L2范数的正则化项的目标函数如下:其中 wTw{w^T}wwTw=∣∣w∣∣2{||w||}^2∣∣w∣∣...

2019-03-12 11:04:26 1598

原创 【剑指offer】python实现二叉树中和为某一值的路径

二叉树中和为某一值的路径思路实现思路又是一道关于二叉树的题,差不多关于二叉树的题都少不了要用到递归。1.首先,我们必须判断根节点是否大于期望的路径求和值,如果大于,那么就直接return2.然后,还要考虑到只有根节点且值为期望的路径求和值,就直接返回由根节点构成的路径3.以上两条是递归结束的标志,对于其他情况,我们需要分别递归处理左子树和右子树4.递归结束后,我们再整合在左子树和右子树...

2019-03-11 11:10:57 443

原创 【剑指offer】python实现”二叉搜索树的后序遍历序列“

二叉搜索树的后序遍历序列思路实现思路首先题目是对二叉搜索树的后序遍历,在解题之前我们应该明确什么是二叉搜索树、后序遍历,有哪些特点:关于二叉查找树以下来自百度百科:”二叉查找树(Binary Search Tree),(又:二叉搜索树,二叉排序树)它或者是一棵空树,或者是具有下列性质的二叉树: 若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值; 若它的右子树不空,则右子树上所有...

2019-03-11 10:55:27 694

原创 防止过拟合方法之添加正则项的思想原理及作用

防止过拟合方法之添加正则项的思想原理及作用一、两种风险最小化二、利用偏差方差分解理解正则化作用一、两种风险最小化李航老师的统计学习方法中提到了两种风险最小化,一种是经验风险最小化,另一种是结构风险最小化,首先我们知道模型的损失越小那么就表明模型越好,模型的输入X以及输出Y均为随机变量,遵循联合分布,所以理论上模型关于联合分布P(X,Y)的平均损失(称为期望损失)如下:给定训练集,模型关于...

2019-03-10 16:05:07 1393

原创 属性(特征)离散化的方法

前面转载了一篇博文,这里自己再进行一下补充和梳理属性(特征)离散化是指设置若干离散的划分点,将属性的取值化为一个个区间,再用离散值表示,一般取整数表示,为了计算机的识别常用的离散化的方法一、非监督方法1.分箱离散化是指基于指定的箱子的个数自定向下的分裂计数,通过使用等宽或等频分箱,然后用箱子中的均值或者中位数来代表每个箱子,实现离散化2.通过聚类离散化通过将属性A的值划分为簇或组,产...

2019-03-07 18:39:18 1685 1

转载 特征怎么离散化?为什么需要离散化?

特征怎么离散化?为什么需要离散化?特征离散化连续特征离散化的基本假设,是默认连续特征不同区间的取值对结果的贡献是不一样的。特征的连续值在不同的区间的重要性是不一样的,所以希望连续特征在不同的区间有不同的权重,实现的方法就是对特征进行划分区间,每个区间为一个新的特征。常用做法,就是先对特征进行排序,然后再按照等频离散化为N个区间。无监督方法无监督方法都具有的问题就是都需要认为规定划分区间这...

2019-03-07 18:16:45 471

原创 数据挖掘/机器学习领域中连续,离散,连续化,离散化到底是什么含义

现在网上关于数据挖掘、机器学习中数据预处理阶段关于属性(特征)的各种连续,离散的变换,由于用词不清,真让人晕头转向。那么数据挖掘、机器学习中用于描述属性(特征)的”连续“,”离散“,”连续化“,”离散化“的这几个词到底是什么含义呢?首先,韩家炜老师在他的书的第二章就对属性的几种类型进行了介绍:1.标称属性:即与名称有关,标称属性的值是一些符号或事物的名称。每个取值代表某种类别、或状态。举个...

2019-03-07 17:06:18 5865 1

原创 深入理解拉格朗日乘子法和KKT条件的原理及运用

深入理解拉格朗日乘子法和KKT条件的原理及运用三、引入KKT条件求带不等式约束条件的最优化问题一、常见的三类最优化问题二、拉格朗日乘子法解决带等式约束的最优化问题(一)用实例理解拉格朗日乘子法的背后意义(二)、拉格朗日乘子法求解带等式约束的zui'yo三、引入KKT条件求带不等式约束条件的最优化参考构造拉格朗日函数 :之所以这样构造的原理我们可以继续看上面的例子的第8步,因为有我们把这...

2019-03-06 15:46:04 5090 2

原创 【剑指offer】python实现”从上往下打印二叉树“

从上往下打印二叉树思路实现思路可以借助队列先进先出的特点,①每次取对头节点的值放入结果中②按照先序遍历每次先将根节点存入,再依次存入其左孩子右孩子(如果有的话)以上两点在while循环中实现,直至队列长度为0实现# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.va...

2019-03-05 21:59:46 566

原创 python实现PCA算法,参考机器学习实战

python实现PCA算法def pca(dataMat, topNfeat=9999999): meanVals = mean(dataMat, axis=0)#求每一维特征的平均值 meanRemoved = dataMat - meanVals #中心化 covMat = cov(meanRemoved, rowvar=0)#求特征间的协方差矩阵 eigVa...

2019-03-05 17:38:02 1373

原创 理解降维算法之PCA(主成分分析)

PCAPCA算法流程PCA理解实例参考PCA算法流程输入:n维样本集D=(x(1),x(2),…,x(m)),要降维到的维数n’.输出:降维后的样本集D′1)对所有的样本进行中心化:2) 计算样本的协方差矩阵XXTX{X^T}XXT3) 对矩阵XXTX{X^T}XXT 进行特征值分解(即求解特征值和特征向量)4)取出最大的n’个特征值对应的特征向量(w1,w2,…,wn′), 将所...

2019-03-05 09:50:15 638

原创 python实现CART回归树,参考机器学习实战

python实现CART回归树一、二分化数据集二、进行最优划分(选择最优特征及最优切分点)三、递归构造树一、二分化数据集def binSplitDataSet(dataSet, feature, value): mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :] mat1 = dataSet[nonzero...

2019-03-04 15:21:14 725

原创 决策树CART算法原理的理解

决策树CART算法原理理解一、CART回归决策树算法原理(一)、回归树的生成最优特征及最优切分点的选择(二)、最小二乘回归树生成算法二、CART分类树算法原理(一)、分类树的生成最优特征及最优切分点的选择(二)、分类树生成算法三、CART对于特征为连续值以及离散值的处理参考首先应该清楚回归树与分类树的本质区别在于模型的输出值不同,如果输出值为连续值则为回归树,如果为离散值则为分类树。一、CAR...

2019-03-03 20:58:54 3879

原创 pandas学习笔记之用于实现时间序列算法中不平稳序列差分的diff()函数

以下是自己对diff()函数用于差分的理解:DataFrame.diff(periods=1, axis=0)函数功能:计算DataFrame元素与DataFrame中其他元素之间的差异(默认值是前一行同一列中的元素)。参数: periods : int型, 默认为 1是指计算的差异要移动的期间,其实就是间隔数量axis : {0 or ‘index’, 1 or ‘columns’...

2019-02-28 09:30:16 1992

原创 Pandas学习笔记之选择数据的五种常用方法总结

Pandas学习笔记之索引数据的常用方法选择单列数据对行使用切片使用loc[]选择数据使用iloc[]通过索引下标值选择数据使用条件表达式选择数据首先先创建数据:选择单列数据以下两种方式是等价的对行使用切片注意两种方式的区别:df[0:3]就是python切片的基本语法从索引为0的行至索引为2的行,数据个数为3-0个,不包括索引为3的行df[‘2019-02-27’:‘2019...

2019-02-27 17:05:43 316

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除