自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(27)
  • 收藏
  • 关注

原创 Python 批量修改PDF文件名

参加CyberC会议,会议的论文集文件名全是字母+数字,找自己想看的很难受,就用python改了下。环境说明:(1)python3.6(2)PyPDF2库(直接pip安装就行)(3)文件的结构说明,如下图:代码如下:import osfrom PyPDF2 import PdfFileWriter, PdfFileReaderfrom shutil import ...

2018-10-23 11:51:08 6604 2

原创 基于python的二叉搜索树

二叉搜索树即左孩子<=根节点,右孩子>=根节点# -*- coding: utf-8 -*-# @Time : 2018/9/23 21:10# @Author : Lemon_shark# @Email : [email protected] TreeNode: def __init__(self,value): se...

2018-09-23 22:34:43 372

原创 基于python的二叉树遍历

例子中的二叉树是这样的,可以自己修改: # -*- coding: utf-8 -*-# @Time : 2018/9/23 13:47# @Author : Lemon_shark# @Email : [email protected] TreeNode: def __init__(self,value): self.va...

2018-09-23 15:19:16 239

转载 极大似然估计与贝叶斯估计的原理和区别

转载自:https://www.cnblogs.com/zjh225901/p/7495505.html赞一个!

2018-09-13 18:23:58 1684

原创 几种常见的聚类算法

(1) k均值聚类思想:先确定聚类中心个数K,初始化聚类中心,计算每个样本到每个聚类中心的距离,将其归为最近的一类。#伪代码输入:样本集D={x1,x2....xm} 聚类中心(簇)个数k.迭代过程:1:从D中随机选择K个样本作为初始聚类中心{u1,u2....uk}2:repeat:3: 令Ci=空集(1<=i<=k)4: for ...

2018-09-06 10:22:13 13731

原创 GBDT与XGB的异同

1、xgboost怎么给特征打分?如何解决缺失值问题?1)在训练的过程中,通过gini指数选择分离点的特征,一个特征被选中的次数越多,评分越高。2)xgboost对缺失值有默认的处理方法,对于特征的值有缺失的样本,xgboost可以自动学习出它的分裂方向,可以大大的提升算法的效率。2、什么是OOB?随机森中OOB如何计算的?(为什么不用交叉验证?)随机森林采用的bagging方法,其中...

2018-09-05 19:51:30 6815

原创 随机森林(RF)与GBDT的异同

面试经常被问到,做个记录!相同点:好吧,其实相同点不太好说,如果非要说的话,那就是它们都是由多棵树组成,最终结果由这多棵树一起决定(其实中间的细节还是不一样)。不同点:(1)从集成学习来说,RF属于的bagging(稍微有点改变,增加了列抽样),而GBDT属于boosting;(2)从偏差-方差权衡来说,RF不断的降低模型的方差,GBDT不断的降低模型的偏差;(3)从训练样...

2018-09-05 17:06:21 1603

原创 对数损失的两种形式

  

2018-09-05 12:10:30 2295 1

转载 最大似然估计 贝叶斯估计 最大后验概率估计

笔试做到这种题,居然说不清楚,回顾一下https://www.2cto.com/net/201608/542594.html

2018-09-04 15:19:55 229

原创 CNN图像分类-经典网络摘要

一、LeNet-5-------1998年  由LeCun在1998年提出,用于手写数字分类(1)提出了权重共享、特征图的概念(2)激活函数:双曲正切     (3)网络权重初始化:均匀分布(4)训练:BP+SGD二、AlexNet------2012年(1)使用ReLU激活函数,减小梯度消失、防止过拟合,并加快了训练速度(2)数据增强:对图像进行裁剪、...

2018-08-30 15:27:06 4040

转载 (转)BP神经网络反向传播推导

关于反向传播推导的博客千千万,能讲清楚的没几个,下文大部分转自博客:https://blog.csdn.net/sinat_34474705/article/details/54176584其中加了点注释(红色部分)1. BP网络模型及变量说明1.1 模型简图 1.2 变量说明:2. 误差反向传播相关推导2.1 正向传播(forward-propagatio...

2018-08-28 16:19:11 2024

原创 TF-IDF算法

TF-IDF(Term Frequency-Inverse Document Frequency)即词频-逆文档频率,一般用在文本描述中。主要思想是通过统计文章的关键词频率,来衡量和某个主题的相近程度或者计算文章之间的相似性。计算步骤(1)通过停用词将文章从字流分为词流,这儿推荐python的jieba库,下面给出一个使用示例:import jiebastring='小明昨天去了...

2018-08-27 16:37:09 1503

原创 目标检测中mAP的意义

在目标检测任务中一般都是使用mAP(mean average precision)作为评价指标。维基百科中对mAP的解释是:翻译过来放在目标检测中是什么意思呢?分为三步解释:(1)计算P(q)大家都知道目标检测中每张图中可能有多个类别C,那么式中的P(q)其实就是某一张图中某一类的precision。  ,就是检测出来的结果中真正属于这一类的比例。(2)AveP(q)...

2018-08-16 22:11:46 2844

原创 Python实现FM (附代码与数据)

 网上有很多实现FM的代码,基本一样且没有注释,看着很难受,就重新写了一下。借鉴的一篇博客地址为https://blog.csdn.net/john_xyz/article/details/78933253一、FM原理及用途FM一般用在CTR预估场景,出处为论文:《Factorization Machines》FM主要目标是:解决数据稀疏的情况下,特征怎样组合的问题 根据pap...

2018-08-15 16:45:28 8917 4

转载 RCNN详解(转)

转载博客链接:http://blog.csdn.net/wopawn/article/details/52133338paper链接:链接: https://pan.baidu.com/s/1qYO4vY8 密码: 62fdpaper中相关名词解释:链接: https://pan.baidu.com/s/1nuAhidz 密码: pnsh再推荐一个博客:http://blog.csdn...

2018-08-11 21:43:56 2227

原创 CNN中的感受野

CNN中有一个概念叫局部感受野(local receptive field),那什么是感受野呢?一般的CNN结构都是卷积-池化这样重复下去,比如下表: layers size stride input 100*100*1 --- conv1 3*3 1 pool1 2*2 2 conv...

2018-08-10 15:35:34 4211

转载 SVM如何用于回归分析

转载自:http://blog.sina.com.cn/s/blog_62970c250102xfzj.html支持向量机(SVM)除了可以用于分类问题,也可以用于回归问题。1. SVM回归模型的损失函数度量我们知道SVM分类模型的目标函数是,同时要让训练集中的各个样本点尽量远离自己类别一侧的支持向量,即约束条件是。如果加上一个松弛变量,则目标函数变成,对应的约束条件变成。对于回归...

2018-08-10 10:40:26 33530 3

原创 决策树算法

原来一直以为自己对决策树算法很了解了,今天有人问起的时候才发现原来一知半解。醒悟过来特作记录。由于公式实在是太难敲了,所以下文基本没有公式,见谅。一、简介相对于其他机器学习算法来说,决策树是一种很简单的算法,它遵循‘分而治之’的策略,迭代的产生分类or回归结果。它的内容主要有三点:(1)特征选择特征选择在于选取对数据具有分类能力的特征,其间细节其实很多,比如特征选择的方法以及的...

2018-08-07 21:27:21 261

转载 梯度提升树GBDT原理小结

转载自刘建平的博客,大神写的内容都非常好啊https://www.cnblogs.com/pinard/p/6140514.html文章内容简介:(1)GBDT概述(2)GBDT的负梯度拟合(3)GBDT回归算法(4)GBDT分类算法        A. 二元GBDT分类算法        B.多元GBDT分类算法(5)GBDT常用损失函数(6) GBDT的...

2018-08-07 09:37:57 378 1

原创 Ubuntu无法连接到以太网

写在前面:(1)适用于ubuntu桌面版(VMware安装的虚拟机)(2)网上看了很多断网的情况,我遇到的只是其中一种,能帮到最好,帮不上忙勿怪问题:解决办法: 在windows下输入服务,出现下图,点击将DHCP和NAT服务启动(原来可能是被360关了)   这个时候虚拟机一般就能连上网了,如果还是不能,就像我一样,点Edit Connections --...

2018-08-01 20:32:07 6987 4

原创 Ubuntu下配置pysaprk并将其导入Python

一、所需的东西(1)java jdk(注意要是linux版的,并注意位数)(2)spark(3)anaconda(推荐,带有一些基本库)这个不是必须,linux里面python是自带的二、details(1)安装java下载网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-21...

2018-07-31 11:43:58 414

原创 win7下 pyspark+pycharm的结合使用

个人使用python的时候喜欢用pycharm,安装好spark后同样也想在其中使用,这需要一些配置,希望对有同样需求的人有所帮助ps:由于配置时没有马上做记录,中间有些过程忘了,可能会有其他问题,欢迎提出,看到尽快回复(1)打开pycharm,打开设置选项 (2)输入python console ,如下 (3)下面是一个测试代码,统计词频的from pysp...

2018-07-29 11:50:37 638

原创 WIN7下安装pyspark

一、需要的东西(1)java JDK 1.8 以上(2)spark (3)hadoop(不确定是否必须)+winutils.exe执行文件(4)python下面就一个个说明二、具体操作【下面所有软件安装时,请注意路径,路径不要有空格或者其他奇怪的符号,否则会出现奇形怪状的错误,切记切记】(1)安装jdk这一步比较简单,可以参考这个https://www.cn...

2018-07-29 10:53:56 1062

原创 python数据处理中的一些实际问题

前段时间参加阿里天池中的智慧交通预测挑战赛,费了不少功夫初赛排名45进入了复赛,后续没有时间继续复赛了,但还是想总结一下,算法就不详述了,具体谈谈数据处理的一些问题与解决方案。适合想要学习的新手参考,欢迎大家提出意见语言使用python+pycharm数据与部分代码百度网盘地址:http://pan.baidu.com/s/1jIGasnW 1.      读取数据比赛中数据格

2017-08-28 15:19:59 2311 1

原创 python之基础numpy库使用(三)

这儿为numpy基础知识的最后一弹,内容主要有线性代数运算与随机数的生成(一)线性代数运算线性代数运算使用方式:import numpy.linalg as alg(二)随机数生成在第二篇里面用到了随机数,这儿详细介绍一下(1)生成一个多维正态分布的随机数组In[49]: arr=np.random.normal(size=(4,4))In[50]: ar

2017-07-17 15:18:28 332

原创 python之基础numpy库使用(二)

接着第一篇的内容,下面介绍numpy中的一些通用函数(ufunc)的使用,它们可以实现快速的元素级操作以及利用数组进行数据处理一、通用函数(1)一元函数Sqrt(开根号),exp(e指数)In[13]: arr=np.arange(4)In[14]: np.sqrt(arr)Out[14]: array([ 0. , 1. , 1.4142135

2017-07-17 14:54:22 386

原创 python之基础numpy库使用(一)

Numpy(numerical python的简称)是高性能科学计算和数据分析的基础包,python中安装许多其他库(如scipy,matplotlib等都需要numpy已经安装),这儿打算简单介绍一下它的基本使用,初定一个系列(希望能写完)写在前面:(1)导入numpy库的约定写法:import numpyas np(2)索引下标从0开始,且前闭后开(比如0-3,实际是0,1,2

2017-06-30 14:28:31 1021

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除