自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(32)
  • 资源 (18)
  • 收藏
  • 关注

原创 R语言安装.tar.gz包方法

以安装 fUnitRoots 包为例。1.安装Rtools 下载:https://cran.r-project.org/ 点击R Binaries -》windows-》Rtools,下载Rtools33.exe 下载Rtools34.exe,安装在c:\Rtools, 安装时path打上勾,自动添加路径(自动添加路径,免得自己添加带来不必要的麻烦)。2.安装fUnitRoots (

2017-08-28 16:09:22 25668 3

原创 LR用户挖掘,如何选取阈值

在用逻辑回归做潜在用户挖掘时,阀值(Z)的选取是一个头疼的问题。取太高,查全率虽然高了,但是查询条件过于严格,挖掘出的潜在用户过少。取的太低,资源浪费的太多。对于一般的营销而言,这个问题很好解决,只要按照预算,从高往下选取就可以了。但对于其他没有预算约束的情况就比较麻烦。希望下面的公式可以给予一些启发Z=Ln((qc)/(QC))q-发生显性结果的先验概率,比如信用卡用户发生违约的以往

2017-07-13 17:48:53 3274

原创 python27,anaconda2 安装网络绘图工具igraph及cairo

igraph

2017-06-01 16:22:23 3626 1

原创 anaconda2安装igraph

igraph的python 版本使用 http://igraph.org/python/doc/tutorial/install.html#installing-igraph 因为目前要求packages for Python 2.6, Python 2.7 and Python 3.2, 在我已安装anaconda2(基于Python 2.7的)的前提下,在cmd通过命令pip instal

2017-05-24 18:04:23 5496 1

原创 python 判断为空nan, null

pandas 空值定义为numpy.nan对整体的series或Dataframe判断是否未空,用isnull() eg: pd.isnull(df1) #df1是dataframe变量对单独的某个值判断,可以用 np.isnan() eg: np.isnan(df1.ix[0,3]) #对df1的第0行第3列判断nan遇到问题解决:http://www.cnblogs.com/itdyb/

2017-03-14 13:54:40 122833 3

原创 反欺诈资料 搜索与整理

无监督反欺诈 http://www.360doc.com/content/17/0111/22/32626470_621872620.shtmlpython +随机森林 http://blog.csdn.net/tbdp6411/article/details/49686447

2017-03-03 15:36:40 1332

原创 python 中函数format()函数进行字符串格式化

如下[“{:02d}”.format(i) for i in range(24)] 得到00,…24的字符list. :号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充,这里用0填充; “{:02d}”.format(i)表示将i变为两位十进制数字的字符串,不够两位用0填充。in[17]:["{:02d}".format(i) for i in range(24)]Out[17]

2017-02-16 23:12:06 7110

原创 anaconda 安装scrapy

scrapy是一个python的爬虫框架。1.首先查看anaconda中是否装有scrapy工具包,具体方法如下: cmd命令中,输入 conda list,查看所有已经安装的工具包及版本号。 发现没有scrapy,。。。 2.输入 conda install -c scrapinghub scrapy ,等待片刻后,提示需要安装的相关工具包。 3.proceed下输入y,回车, 自动进

2017-02-12 11:24:13 4602 2

原创 python 快速排序法

递归实现快速排序法:def quitsort(arr): if len(arr)<=1: return arr pivot=arr[len(arr)/2] left=[x for x in arr if x<pivot] middle=[x for x in arr if x==pivot] right=[x for x in arr if x

2017-01-19 14:15:12 680

原创 anaconda 中安装seaborn ,plotly,jieba

Seaborn是斯坦福大学出的一个非常好用的可视化包。 原始安装的anaconda 中,并没有包含seaborn,需要安装。 具体安装方法:1.从电脑的开始,打开cmd命令窗口,然后输入 conda install seaborn 或者 anaconda prompt 窗口,输入conda install seaborn 或者 pip install seaborn 在安装的过程

2017-01-18 18:27:23 26186 5

原创 python出错:local variable XXX referenced before assignment

出错:局部变量XXX在定义前被引用 如上在多次调用函数时使用返回的值bestThreshVal 时,提示local variable bestThreshVal referenced before assignment。 原因是,在这个被调用函数中,bestThreshVal 是在if 条件语句中得到的一个局部值,并返回。应该在for 循环外定义bestThreshVal 一个初值。如下简单例子

2016-12-21 15:01:05 10800 1

原创 anaconda 使用import sklearn.model_selection 出错ImportError: No module named model_selection

在anaconda的spider窗口中使用model selection中的函数时,需要import,比如 from sklearn.model_selection import cross_val_score 时出现: ImportError: No module named model_selection 查看原因: 在anaconda中通过如下命令查看sklearn的版本: in:

2016-12-19 13:47:55 3488

原创 anaconda2 打开jupyter Notebook及简单使用

jupyter notebook

2016-12-12 11:05:16 72514 5

原创 navicat for mysql ,从远程数据库中到数据到本地数据库(笨办法)

启动远程的数据库服务器,打开想要导出的数据库中的某表。 有两种简单粗暴的方法: 方法一: 如图,假如想导出表grade,那么选择“导出向导”,选择表类型: 下一步,将表grade导出到指定的路径中,需要选择一些附加项。 假如保存的为txt类型,那么若需要列标题,那么勾选;文本限定符可以选择“ 或‘,分隔符通常用逗号,时间习惯用横杠—隔开。然后,打开本地数据库,现在“导入向导”,(页

2016-12-10 20:27:30 6050 1

原创 python 划分数据集为训练集和测试集

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_splitfrom sklearn.cross_validation import train_test_split#x为数据集的feature熟悉,y为label.x_train, x_test, y_train, y_test = train_test_spli

2016-12-05 10:42:07 56970 7

原创 R--安装reshape 报错:Package which is only available in source form, and may need compilation of C/C++/Fo

对变量进行重命名(比如data.frame的列名称),有如下几种方法。 假设data.frame 的数据mydata如下: 有4列,想把后两列名称修改为weight1,weight2。方法1:调用交互式编辑器,手动修改。 fix(mydata) 然后弹出数据框 然后将鼠标移动到列名称上,就弹出 修改变量名就可以了。方法2:编程的方式修改,代码如下:library(reshape)

2016-12-03 21:12:00 8357

原创 统计学相关

变量划分: 1.分类数据:对事物的分类结果,用文字描述,例如性别男,女;按照行业分医疗企业,家电企业,纺织品企业。 2.顺序数据:只能归于某一类别的非数字型数据。类别是有顺序的。比如,成绩分为优,良,中,差。 3.数值型数据:按照数字尺度测量的观察值。

2016-12-02 11:55:39 658

原创 python2,绘图title,xlabel,ylabel出现中文乱码

绘制图形时使用了中文标题,会出现乱码 原因是matplotlib.pyplot在显示时无法找到合适的字体。 先把需要的字体(在系统盘C盘的windows下的fonts目录内)添加到FontProperties中。具体解决方法如下: import matplotlib.pyplot as plt from matplotlib.font_manager import FontProp

2016-11-28 14:51:46 9226 3

原创 win7 anaconda2 安装xgboost

本人用python做数据分析,经常用到pandas,调用sklearn,于是偷个了小懒,直接安装了anaconda,它集成了很多python的工具包,安装也简单。 最近了解了一下GBM(gradient boosting machine),下面博客是一位寒小阳老师根据某次kaggle大赛上使用GBM处理赛事的流程。 ​http://blog.csdn.net/han_xiaoyang/artic

2016-11-22 17:33:43 3267 1

原创 数据预处理之独热编码(One-Hot Encoding)

比如 sex:[“male”, “female”] country: [‘china’,’USA’,’Japan’] 正常数字量化后: “male”, “female”用0,1表示; ‘china’,’USA’,’Japan’用0,1,2表示。 现在有3个样本: [‘male’,‘USA’], [‘male’,‘Japan’], [‘female’,’China’] 处理后:

2016-11-21 16:57:19 3608 1

原创 数据准备--降低基数,连续变量分段

数据准备非常重要: 1.从不同的渠道收集数据; 2.清理数据中意外错误或被认为是极端值的取值; 3.生成衍生的变量(feature)。在数据处理过程,需要进行的操作:当名义变量的取值大于12个,考虑降低基数:1>将相同含义的变量合并; 2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。 3>合并变量的类别使得某些预测力指标最大化。 下面是采用决策树的方法,

2016-11-21 16:04:32 5805

原创 信用风险评估之 预测力指标(筛选特征)

在建模时,被用来预测的变量(即feature)相互间不能有很强的相关性,最好完全不存在相关性。 评判变量间的预测力指标有皮尔森相关系数,斯皮尔曼相关系数,皮尔森卡方统计量,概率比,信息值等。1.皮尔森相关系数pearson 连续变量x,y(两列feature), 皮尔森相关系数ρ:取值区间[-1,1]。 0表示无相关性即相互独立,越接近于0,相关性越小; -1为负的强相关性; +1为正的

2016-11-08 15:35:49 7046 1

原创 信用风险评估评分卡 之 极端值

极端值的产生: 1.数据生成的过程来源于某些未知的函数形式的分布,很难确定哪些观测值是极端值; 2.在获取原始业务数据过程中,产生差错。极端值的识别: 1.为每个变量(feature)设定一个正常的取值范围,超过一定范围视为极端值。如连续feature,这些范围设定为均值+/-3倍标准差。该方法只考虑单个变量。 2.用已知数据拟合模型,严重偏离拟合模型的样本/观测值视为极端值。 3.用聚

2016-11-07 14:12:04 2000

原创 Mysql下载与安装 (出错install/remove of the service denied)

1.在mysql官网下载社区版的mysql : http://dev.mysql.com/downloads/mysql/2.解压版本,下载后只需要解压到指定目录,如D:\program files\mysql。3.安装服务 去cmd命令窗口,进入mysql\bin目录,输入命令安装:mysqld –install 具体操作如下: 但是出错了:install/remove of the

2016-11-06 23:43:20 7043

原创 no module named MySQLdb

win7, python27安装MySQLdb。在上一篇提到安装安装MySQL-Python-1.2.5.win32-py2.7 时出现了 not found in the registry 的问题。按照创建新的register.py的方法,可以成功的register.若想要在python27引入import MySQLdb时,会出现 no module named MySQLdb的错误。重新下载w

2016-08-02 13:49:25 873

原创 python version 2.7 required,which was not found in the registry

安装MySQL-python-1.2.5.win32-py2.7 (64位系统也可以安装)时,出现问题:python version 2.7 required,which was not found in the registry(但是python2.7已经安装了。) 创建新的register.py文件,代码如下:## script to register Python 2.0 or later

2016-08-02 11:57:21 995

原创 推荐算法之 slope one 算法

1.示例引入多个吃货在某美团的某家饭馆点餐,如下两道菜:可乐鸡翅: 红烧肉: 顾客吃过后,会有相关的星级评分。假设评分如下: 评分 可乐鸡翅 红烧肉 小明 4 5 小红 4 3 小伟 2 3 小芳 3 ? 问题:请猜测一下小芳可能会给“红烧肉”打多少分?

2016-07-15 12:03:30 21238 4

原创 了解推荐系统是什么

1.什么是推荐系统? 也许你不知道什么是推荐系统,但你肯定使用过。淘宝首页,有好货,猜你喜欢等,根据历史浏览记录,个性化推荐相似宝贝。 美团外卖,猜你喜欢。 网易云音乐,私人FM,每日推荐20首歌,推荐歌单等 电商购物、音乐、视频、新闻门户、社交平台好友、餐饮、旅游服务、招聘网以及相亲网等,都涉及推荐系统,推荐系统已经体现在生活的方方面面。2.推荐系统工作原理 利用物品,用户或用户对物品的

2016-07-15 11:11:48 635

原创 发博客字体,字号,颜色设置

使用markdown编辑器很棒,常用的小功能有: 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 而在编辑文字时,需要注意或强调的内容,往往想用不同的颜色或不同的字体标注。可以添加如下脚本实现:<font face="黑体">被设置的文字内容</font><font color=gray size=72>被设置的文字内容</font><font color=#

2016-06-15 16:17:48 1736 2

原创 python中list的拷贝与numpy的array的拷贝

1.python中列表list的拷贝,会有什么需要注意的呢? python变量名相当于标签名。 list2=list1 ,直接赋值,实质上指向的是同一个内存值。任意一个变量list1(或list2)发生改变,都会影响另一个list2(或list1)。 eg: list1[2]=88 list1 [1, 2, 88, 4, 5, 6]

2016-06-15 15:46:51 36418 2

原创 向量,标量对向量求导数

1.已知 对谁求导数,就以谁(分母)作为主序,得出结果。比如这里x是列向量,求Ax关于x求导数,那么对x的每个分量分别求偏导数(写成一行),然后整理排成一列(同x一样是列向量)。 同理有 关于x的转置x.T求导数,x.T是行向量,那么Ax分别对x.T向量中的分量求偏导(写成一列),然后整体排成一行(同x.T是行向量)。2.若A是1×n行向量,x是n×1的列向量, 有 3.若A是n

2016-06-14 17:09:28 66132 26

原创 winpython,安装与使用(anaconda)

winpython套件包含numpy,scipy,sklearn,matplotlib.等,省去了一个个安装的麻烦,尤其是sklearn在window下安装的各种问题。winpython 的多多优点,参考 http://www.cnblogs.com/starimpact/p/3526146.htmlsklearn机器学习开源工具包,官网上的API介绍很详细,有一些数据集,和例子。可以好好学习机器学

2016-04-01 16:03:49 11710 1

python基本入门小抄

python入门基础,包括一些基本的语法,绘图,搭建游戏框架等。

2018-01-29

c++ iris-贝叶斯分类

关于iris 的贝叶斯分类,用C++实现的

2011-09-25

c++ iris-贝叶斯分类

关于iris 的贝叶斯分类,用C++实现的

2011-09-25

K近邻分类算法 (欧氏距离与 Manhatan 距离 )

k-近邻的分类算法,距离函数分别为欧式距离 和Manhatan 距离。

2011-09-24

matlab Iris Bayes.rar

用matlab编写的基于 Iris 数据的Bayes分类。收数据集的分类介绍

2011-09-15

Matlab及其图像处理工具

Matlab及其图像处理工具箱的介绍.ppt

2011-09-15

集成学习(Bagging ,Boosting ,AdaBoost) PPT

集成学习Bagging ,Boosting等介绍的PPT。集成方法是构建一种对单个分类器进行集成的学习算法,将各分类器的分类结果以一定的方式集成起来实现对新数据点进行分类,其中单个分类器是独立的且不要求分类精度很高。通过这种方式,大大提高了集成系统的性能。

2011-09-15

libsvm-mat-3.0-1

libsvm-mat-3.0-1,在matlab中调用C版的libsvm。非常实用

2011-09-15

mapminmax .m与boiler_process.m函数

较低版本的matlab的工具包中没有归一化的函数mapminmax .m及其子函数boiler_process.m,在libsvm的使用中是必不可少的调用函数。

2011-08-11

基于压缩感知的OMP改进算法

这是一篇基于压缩感知的OMP改进算法的论文,详细的介绍了OMP算法及其改进的创新点,很有参考价值。

2011-08-11

匹配追踪算法OMP matlab代码

匹配追踪算法OMP的 matlab代码,实验中常用到的子程序。很好用的哦

2011-08-11

20newsgroups

迁移学习用的数据包20newsgroups,适合迁移学习的实验使用。

2011-07-26

Pattern Recognition and Machine Learning

Christopher M. Bishop编写的模式识别与机器学习的教材《Pattern Recognition and Machine Learning》,值得参考。

2011-07-26

tradaboost算法

迁移学习目前是机器学习中的热门领域,有代表的“Boosting for Transfer Learning”,tradaboost算法是该文章的精髓

2011-07-26

算法设计与分析:分支界限法

介绍分支限界法的基本思想,举了分析了0-1背包问题和旅行商(TSP)问题。

2010-11-25

算法设计与分析回溯法

介绍回溯法的基本思想及算法的实现,举列皇后问题和图的着色

2010-11-25

算法设计与分析(分治法)

分治算法总体思想,适用条件,解决问题的步骤及复杂性分析

2010-11-25

机器学习研究回顾与趋势

“机器学习”现状和研究趋势,及机器学习存在的理论问题

2010-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除