心雨心辰-CSDN博客

原创 R语言安装.tar.gz包方法

以安装 fUnitRoots 包为例。1.安装Rtools 下载：https://cran.r-project.org/ 点击R Binaries -》windows-》Rtools，下载Rtools33.exe 下载Rtools34.exe,安装在c:\Rtools，安装时path打上勾，自动添加路径（自动添加路径，免得自己添加带来不必要的麻烦）。2.安装fUnitRoots （

2017-08-28 16:09:22 25668 3

原创 LR用户挖掘，如何选取阈值

在用逻辑回归做潜在用户挖掘时,阀值(Z)的选取是一个头疼的问题。取太高，查全率虽然高了，但是查询条件过于严格，挖掘出的潜在用户过少。取的太低，资源浪费的太多。对于一般的营销而言，这个问题很好解决，只要按照预算，从高往下选取就可以了。但对于其他没有预算约束的情况就比较麻烦。希望下面的公式可以给予一些启发Z=Ln（(qc)/(QC)）q-发生显性结果的先验概率，比如信用卡用户发生违约的以往

2017-07-13 17:48:53 3274

原创 python27，anaconda2 安装网络绘图工具igraph及cairo

igraph

2017-06-01 16:22:23 3626 1

原创 anaconda2安装igraph

igraph的python 版本使用 http://igraph.org/python/doc/tutorial/install.html#installing-igraph 因为目前要求packages for Python 2.6, Python 2.7 and Python 3.2，在我已安装anaconda2（基于Python 2.7的）的前提下，在cmd通过命令pip instal

2017-05-24 18:04:23 5496 1

原创 python 判断为空nan, null

pandas 空值定义为numpy.nan对整体的series或Dataframe判断是否未空，用isnull() eg: pd.isnull(df1) #df1是dataframe变量对单独的某个值判断，可以用 np.isnan() eg: np.isnan(df1.ix[0,3]) #对df1的第0行第3列判断nan遇到问题解决：http://www.cnblogs.com/itdyb/

2017-03-14 13:54:40 122833 3

原创反欺诈资料搜索与整理

无监督反欺诈 http://www.360doc.com/content/17/0111/22/32626470_621872620.shtmlpython +随机森林 http://blog.csdn.net/tbdp6411/article/details/49686447

2017-03-03 15:36:40 1332

原创 python 中函数format()函数进行字符串格式化

如下[“{:02d}”.format(i) for i in range(24)] 得到00，…24的字符list. :号后面带填充的字符，只能是一个字符，不指定的话默认是用空格填充，这里用0填充； “{:02d}”.format(i)表示将i变为两位十进制数字的字符串，不够两位用0填充。in[17]:["{:02d}".format(i) for i in range(24)]Out[17]

2017-02-16 23:12:06 7110

原创 anaconda 安装scrapy

scrapy是一个python的爬虫框架。1.首先查看anaconda中是否装有scrapy工具包，具体方法如下： cmd命令中，输入 conda list,查看所有已经安装的工具包及版本号。发现没有scrapy,。。。 2.输入 conda install -c scrapinghub scrapy ，等待片刻后，提示需要安装的相关工具包。 3.proceed下输入y，回车，自动进

2017-02-12 11:24:13 4602 2

原创 python 快速排序法

递归实现快速排序法：def quitsort(arr): if len(arr)<=1: return arr pivot=arr[len(arr)/2] left=[x for x in arr if x<pivot] middle=[x for x in arr if x==pivot] right=[x for x in arr if x

2017-01-19 14:15:12 680

原创 anaconda 中安装seaborn ,plotly,jieba

Seaborn是斯坦福大学出的一个非常好用的可视化包。原始安装的anaconda 中，并没有包含seaborn,需要安装。具体安装方法：1.从电脑的开始，打开cmd命令窗口,然后输入 conda install seaborn 或者 anaconda prompt 窗口，输入conda install seaborn 或者 pip install seaborn 在安装的过程

2017-01-18 18:27:23 26186 5

原创 python出错：local variable XXX referenced before assignment

出错：局部变量XXX在定义前被引用如上在多次调用函数时使用返回的值bestThreshVal 时，提示local variable bestThreshVal referenced before assignment。原因是，在这个被调用函数中，bestThreshVal 是在if 条件语句中得到的一个局部值，并返回。应该在for 循环外定义bestThreshVal 一个初值。如下简单例子

2016-12-21 15:01:05 10800 1

原创 anaconda 使用import sklearn.model_selection 出错ImportError: No module named model_selection

在anaconda的spider窗口中使用model selection中的函数时，需要import,比如 from sklearn.model_selection import cross_val_score 时出现： ImportError: No module named model_selection 查看原因：在anaconda中通过如下命令查看sklearn的版本： in:

2016-12-19 13:47:55 3488

原创 anaconda2 打开jupyter Notebook及简单使用

jupyter notebook

2016-12-12 11:05:16 72514 5

原创 navicat for mysql ,从远程数据库中到数据到本地数据库（笨办法）

启动远程的数据库服务器，打开想要导出的数据库中的某表。有两种简单粗暴的方法：方法一：如图，假如想导出表grade,那么选择“导出向导”，选择表类型：下一步，将表grade导出到指定的路径中，需要选择一些附加项。假如保存的为txt类型，那么若需要列标题，那么勾选；文本限定符可以选择“ 或‘，分隔符通常用逗号,时间习惯用横杠—隔开。然后，打开本地数据库，现在“导入向导”，（页

2016-12-10 20:27:30 6050 1

原创 python 划分数据集为训练集和测试集

sklearn的cross_validation包中含有将数据集按照一定的比例，随机划分为训练集和测试集的函数train_test_splitfrom sklearn.cross_validation import train_test_split#x为数据集的feature熟悉，y为label.x_train, x_test, y_train, y_test = train_test_spli

2016-12-05 10:42:07 56970 7

原创 R--安装reshape 报错：Package which is only available in source form, and may need compilation of C/C++/Fo

对变量进行重命名（比如data.frame的列名称），有如下几种方法。假设data.frame 的数据mydata如下：有4列，想把后两列名称修改为weight1,weight2。方法1：调用交互式编辑器，手动修改。 fix(mydata) 然后弹出数据框然后将鼠标移动到列名称上，就弹出修改变量名就可以了。方法2：编程的方式修改，代码如下：library(reshape)

2016-12-03 21:12:00 8357

原创统计学相关

变量划分： 1.分类数据：对事物的分类结果，用文字描述，例如性别男，女；按照行业分医疗企业，家电企业，纺织品企业。 2.顺序数据：只能归于某一类别的非数字型数据。类别是有顺序的。比如，成绩分为优，良，中，差。 3.数值型数据：按照数字尺度测量的观察值。

2016-12-02 11:55:39 658

原创 python2,绘图title,xlabel,ylabel出现中文乱码

绘制图形时使用了中文标题，会出现乱码原因是matplotlib.pyplot在显示时无法找到合适的字体。先把需要的字体（在系统盘C盘的windows下的fonts目录内）添加到FontProperties中。具体解决方法如下： import matplotlib.pyplot as plt from matplotlib.font_manager import FontProp

2016-11-28 14:51:46 9226 3

原创 win7 anaconda2 安装xgboost

本人用python做数据分析，经常用到pandas，调用sklearn，于是偷个了小懒，直接安装了anaconda，它集成了很多python的工具包，安装也简单。最近了解了一下GBM（gradient boosting machine），下面博客是一位寒小阳老师根据某次kaggle大赛上使用GBM处理赛事的流程。 http://blog.csdn.net/han_xiaoyang/artic

2016-11-22 17:33:43 3267 1

原创数据预处理之独热编码（One-Hot Encoding）

比如 sex:[“male”, “female”] country: [‘china’,’USA’,’Japan’] 正常数字量化后： “male”, “female”用0,1表示; ‘china’,’USA’,’Japan’用0,1,2表示。现在有3个样本： [‘male’，‘USA’], [‘male’，‘Japan’], [‘female’,’China’] 处理后：

2016-11-21 16:57:19 3608 1

原创数据准备--降低基数，连续变量分段

数据准备非常重要： 1.从不同的渠道收集数据； 2.清理数据中意外错误或被认为是极端值的取值； 3.生成衍生的变量（feature）。在数据处理过程，需要进行的操作：当名义变量的取值大于12个，考虑降低基数：1>将相同含义的变量合并； 2>出现频率下的类别被合并为一个新的类别，并给予一个合理的标识，如other。 3>合并变量的类别使得某些预测力指标最大化。下面是采用决策树的方法，

2016-11-21 16:04:32 5805

原创信用风险评估之预测力指标（筛选特征）

在建模时，被用来预测的变量（即feature）相互间不能有很强的相关性，最好完全不存在相关性。评判变量间的预测力指标有皮尔森相关系数，斯皮尔曼相关系数，皮尔森卡方统计量，概率比，信息值等。1.皮尔森相关系数pearson 连续变量x,y（两列feature）, 皮尔森相关系数ρ：取值区间[-1,1]。 0表示无相关性即相互独立，越接近于0，相关性越小； -1为负的强相关性； +1为正的

2016-11-08 15:35:49 7046 1

原创信用风险评估评分卡之极端值

极端值的产生： 1.数据生成的过程来源于某些未知的函数形式的分布，很难确定哪些观测值是极端值； 2.在获取原始业务数据过程中，产生差错。极端值的识别： 1.为每个变量（feature）设定一个正常的取值范围，超过一定范围视为极端值。如连续feature,这些范围设定为均值+/-3倍标准差。该方法只考虑单个变量。 2.用已知数据拟合模型，严重偏离拟合模型的样本/观测值视为极端值。 3.用聚

2016-11-07 14:12:04 2000

原创 Mysql下载与安装（出错install/remove of the service denied）

1.在mysql官网下载社区版的mysql : http://dev.mysql.com/downloads/mysql/2.解压版本，下载后只需要解压到指定目录，如D:\program files\mysql。3.安装服务去cmd命令窗口,进入mysql\bin目录，输入命令安装：mysqld –install 具体操作如下: 但是出错了:install/remove of the

2016-11-06 23:43:20 7043

win7, python27安装MySQLdb。在上一篇提到安装安装MySQL-Python-1.2.5.win32-py2.7 时出现了 not found in the registry 的问题。按照创建新的register.py的方法，可以成功的register.若想要在python27引入import MySQLdb时，会出现 no module named MySQLdb的错误。重新下载w

2016-08-02 13:49:25 873

原创 python version 2.7 required,which was not found in the registry

安装MySQL-python-1.2.5.win32-py2.7 （64位系统也可以安装）时，出现问题：python version 2.7 required,which was not found in the registry（但是python2.7已经安装了。）创建新的register.py文件，代码如下：## script to register Python 2.0 or later

2016-08-02 11:57:21 995

原创推荐算法之 slope one 算法

1.示例引入多个吃货在某美团的某家饭馆点餐，如下两道菜：可乐鸡翅：红烧肉：顾客吃过后，会有相关的星级评分。假设评分如下：评分可乐鸡翅红烧肉小明 4 5 小红 4 3 小伟 2 3 小芳 3 ？问题：请猜测一下小芳可能会给“红烧肉”打多少分？

2016-07-15 12:03:30 21238 4

原创了解推荐系统是什么

1.什么是推荐系统？也许你不知道什么是推荐系统，但你肯定使用过。淘宝首页，有好货，猜你喜欢等，根据历史浏览记录，个性化推荐相似宝贝。美团外卖，猜你喜欢。网易云音乐，私人FM，每日推荐20首歌，推荐歌单等电商购物、音乐、视频、新闻门户、社交平台好友、餐饮、旅游服务、招聘网以及相亲网等，都涉及推荐系统，推荐系统已经体现在生活的方方面面。2.推荐系统工作原理利用物品，用户或用户对物品的

2016-07-15 11:11:48 635

原创发博客字体，字号，颜色设置

使用markdown编辑器很棒，常用的小功能有：代码块高亮图片链接和图片上传 LaTex数学公式 UML序列图和流程图而在编辑文字时，需要注意或强调的内容，往往想用不同的颜色或不同的字体标注。可以添加如下脚本实现：<font face="黑体">被设置的文字内容</font><font color=gray size=72>被设置的文字内容</font><font color=#

2016-06-15 16:17:48 1736 2

原创 python中list的拷贝与numpy的array的拷贝

1.python中列表list的拷贝，会有什么需要注意的呢？ python变量名相当于标签名。 list2=list1 ,直接赋值，实质上指向的是同一个内存值。任意一个变量list1（或list2）发生改变，都会影响另一个list2(或list1)。 eg: list1[2]=88 list1 [1, 2, 88, 4, 5, 6]

2016-06-15 15:46:51 36418 2

原创向量，标量对向量求导数

1.已知对谁求导数，就以谁（分母）作为主序，得出结果。比如这里x是列向量，求Ax关于x求导数，那么对x的每个分量分别求偏导数(写成一行)，然后整理排成一列（同x一样是列向量）。同理有关于x的转置x.T求导数，x.T是行向量，那么Ax分别对x.T向量中的分量求偏导（写成一列），然后整体排成一行（同x.T是行向量）。2.若A是1×n行向量，x是n×1的列向量，有 3.若A是n

2016-06-14 17:09:28 66132 26

原创 winpython,安装与使用(anaconda)

winpython套件包含numpy,scipy,sklearn,matplotlib.等，省去了一个个安装的麻烦，尤其是sklearn在window下安装的各种问题。winpython 的多多优点，参考 http://www.cnblogs.com/starimpact/p/3526146.htmlsklearn机器学习开源工具包，官网上的API介绍很详细，有一些数据集，和例子。可以好好学习机器学

2016-04-01 16:03:49 11710 1