自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 天池智能工业大赛大佬们的思路(需要再看)

打酱油参加了天池工业AI大赛1,当然没拿到奖,看决赛答辩直播时见识到了大佬们的各种思路,真是大开眼界。记录一下,留给以后参考。1. 特征构造这个是相当重要的 第一名那个女孩子并没有用什么高深的方法,但是对特征挖掘的特别好,并且提到我们可能要 “人工”智能,即是人为创造数据。1) 通过每个特征原始值与均值的差异,差异的绝对值构造。2) 通过可能特征的四则运算构造特征(当然,这是剔除掉

2018-02-07 10:57:45 1375 1

原创 Arcgis 矢量数据提取栅格值的方法

有时候我们需要提取一副栅格图像中某一特定地理位置的像元值,或者是对某一区域的像元值进行统计分析(均值、方差等),这个时候可以使用Spatial Analysis Tools中的Zonal Statistic功能完成。该方法来源于陈明明发表的文章 1 。 ArcToolBox -> Spatial Analysis Tools -> Zonal Statistic -> …. To tabl

2018-02-07 10:41:18 29394

原创 VC维

VC维描述的是一个机器学习算法的学习能力,基于该学习方法能否实现任何一种标记组合(能否实现一个数据集上所有可能的对分)(能否将一个数据集打散)。维数表示其能够将样本量为多大的数据集打散。打散是指可以实现所有可能的标记组合。例如,对于二分类问题,一个样本数量为m的数据集D所对应的标记组合可能为2m" role="presentation" style="position: relative;">

2018-02-02 18:31:27 325

原创 决策树

昨天看一个机器学习面试材料的时候,发现他把C4.5算法中信息增益率描述为信息增益与之前熵的比值。这个有问题,在周志华书中确认了这一点,即增益率描述的是信息增益与(该特征IV值,其实就是熵)的比值,公式描述如下: Gain(D,a)IV(a)" role="presentation">Gain(D,a)IV(a)Gain(D,a)IV(a)\frac{Gain(D,a)}{IV(a)} IV(a

2018-02-01 22:30:18 294

原创 pandas数据预处理时的一些坑

1) 在使用pd.concat([df1,df2],axis=1)对数据进行纵向合并时,要注意默认是对应行索引进行合并。如果之前对数据进行过类似于去除样本的操作,要注意对两个数据集的行索引进行重复定义,否则会合并错位。df1.index = range(len(df1))df2.index = range(len(df2))df = pd.concat([df1,df2],axis=1

2018-02-01 22:28:36 865

原创 sklearn.preprocessing中的StandardScaler、normalize、Normalizer和LASSO中的Normalize=True

在使用以RBF为核函数的SVM时,或使用L1或L2正则化的线性模型时,通常要求各个特征具有相似的方差,否则拥有较大方差的特征将主导梯度下降的过程,从而导致无法得出真正的最优解。因此,在做之前要求对数据进行标准化,即对于每个特征(数据中的每一列)进行标准化 Xi=Xi−X¯sdX" role="presentation">Xi=Xi−X¯¯¯¯sdXXi=Xi−X¯sd

2018-02-01 22:09:35 3884

原创 python中的os库常用操作

更改工作目录os.chdir()列出默认目录/或其他目录下的所有文件os.listdir()

2018-01-30 19:18:12 530

原创 python中时间处理

pandas中的Timestamp可以灵活处理包含时间信息的字符串,并将其转化为时间信息。如:pd.Timestamp('20171104')pd.Timestamp('11-04-17')时间相减生成的是timedelta,timedelta有days等属性,指间隔天数delta = pd.Timestamp('20171108')-pd.Timestamp('201709

2018-01-30 19:08:24 297

原创 python中图片显示中文的方法和原理

控制matplotlib画图中图片字体的参数是在rcParmas中设置,默认的参数设置中使用的字体为sans-serif类,其中包括了常见的Arial和Helvetica等,但这些字体是不支持显示中文的。通过更改该参数中的字体设置,将其转为一种支持中文的字体,即可达到显示中文的目的。具体如下: import matplotlibmatplotlib.rcParams#rcParams

2018-01-30 16:08:40 4428

原创 支持向量机

对于所有的数据点,其到分割面的距离为 |wx+b|‖w‖" role="presentation">|wx+b|∥w∥|wx+b|‖w‖\frac{\lvert wx+b \rvert}{\lVert w\rVert} 假设完全线性可分,同时假设支持向量距离分割面的距离为 k‖w‖" role="presen

2018-01-29 20:15:17 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除