自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 sklearn中的数据预处理和特征工程

1.数据预处理 Preprocessing & Impute1…1 数据无量纲化(1)数据归一化:当数据(x)按照最小值中心化后,再按极差(最大值 - 最小值)缩放,数据移动了最小值个单位,并且会被收敛到[0,1]之间,而这个过程,就叫做数据归一化(Normalization,又称Min-Max Scaling)。注意,Normalization是归一化用sklearn实现:fr...

2019-04-14 12:01:26 2097 1

原创 机器学习-随机森林-调参的案例

一、随机森林-实例:随机森林在乳腺癌数据上的调参1.1首先先了解一下调参的基本思想:二、下面开始正是调参实例2.1.导入相关库from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selecti...

2019-04-13 15:50:28 2944

原创 机器学习-随机森林之回归

一、随机森林之回归RandomForestRegressorclass sklearn.ensemble.RandomForestRegressor (n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0...

2019-04-13 15:27:27 39082 2

原创 机器学习-随机森林-分类

一、机器学习之随机森林1.1 集成算法概述集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的...

2019-04-13 12:04:31 10236 2

原创 机器学习-决策树之回归树案例(泰克尼克号)

一、决策树之回归树案例1.导入相关库import pandas as pd from sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selectio...

2019-04-13 11:44:15 2331 1

原创 机器学习-决策树之回归树

一、决策树之回归树- DecisionTreeRegressor1.参数sklearn.tree.DecisionTreeRegressor (criterion=’mse’, splitter=’best’, max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0, max_feat...

2019-04-13 11:14:37 2283

原创 机器学习-决策树

一、决策树是怎样工作的重要参数都有哪些?二、下面就开始建立一棵树了,具体步骤如下所示:(1)首先导入需要的模块以及相关的库from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_split(2)导入数据集wi...

2019-04-10 21:33:43 715

原创 机器学习之k-近邻

k-近邻一、概述基本原理已经介绍了,下面就开始用python进行实现了二、python实现(1)计算已知类别数据集中的点与当前点之间的距离(为了方便,我们先将数据用字典的形式进行定义,然后再转化成dataframe的形式)import pandas as pdrowdata={'电影名称':['无问西东','后来的我们','前任3','红海行动','唐人街探案','战狼2'],...

2019-04-10 17:04:50 281

原创 机器学习-PCA降维

一、首先先问一个问题:为什么要进行降维操作呢?降维的主要方法有:二、主成分分析PCA2.PCA的python 实现过程有人会问为什么要去均值呢?我们进行PCA降维的主要目的是为了得到方差最大的前N个特征,为了减少计算量,我们第一步就将数据所特征的均值变为0,来达到取出均值的目的。在学习的过程中首先我们根据算法的实现过程一步步进行代码实现,然后再封装成函数的形式,这样就有助于调用...

2019-04-10 11:58:37 529

原创 sklearn学习

(1)线性回归案例参考文档栗子代码:#倒数模块import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squared_error, r2_score# 数据下载diabetes=dataset...

2019-04-08 17:05:09 148

原创 pandas中的选择和设置

主要包含这5个方法:具体请看参考文档get_option() / set_option() - get/set the value of a single option.(获取/设置单个选项的值)reset_option() - reset one or more options to their default value.(将一个或多个选项重置为其默认值)describe_optio...

2019-04-06 15:34:36 667

原创 pandas 中的pct_change的用法

(1)df.pct_change()DataFrame.pct_change(periods=1, fill_method=‘pad’, limit=None, freq=None, **kwargs)参考文档例子:df = pd.DataFrame({ 'FR': [4.0405, 4.0963, 4.3149], 'GR': [1.7246, 1.7482, 1.8519...

2019-04-06 11:09:44 87759 1

原创 pandas 中的分类数据pandas.Categorical

(1)pandas.Categorical()pandas.Categorical(values, categories=None, ordered=None, dtype=None, fastpath=False)参考文档栗子:pd.Categorical(['a', 'b', 'c', 'a', 'b', 'c'])结果:[a, b, c, a, b, c]Categories...

2019-04-06 10:35:30 1538

原创 pandas的中的 interpolate()方法以及replace()方法的使用

(1)df.interpolate()DataFrame.interpolate(method=‘linear’, axis=0, limit=None, inplace=False, limit_direction=‘forward’, limit_area=None, downcast=None, **kwargs)参考文档插值方式nearest:最邻近插值法zero:阶梯插值sl...

2019-04-06 09:59:39 25825 6

原创 pandas中的pivot_table和crosstab

(1)pandas.pivot_table参考文档pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc=‘mean’, fill_value=None, margins=False, dropna=True, margins_name=‘All’)栗子:import pandas as pdimp...

2019-04-05 10:48:02 698

原创 pandas返回满足条件的数据

官网查看pd.where()DataFrame.where(cond, other=nan, inplace=False, axis=None, level=None, errors=‘raise’, try_cast=False, raise_on_error=None)pd.mask()np.where()numpy.where(condition[, x, y])pd.query...

2019-04-04 20:18:09 2402

原创 pandas中的随机取样的方法。smaple

(1)DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)注意n和frac不能够同时存在,n默认为 1,frac表示 选择 原数据中的百分之多少。栗子:data=pd.DataFrame(np.random.randn(5,4),columns=['a','...

2019-04-04 19:59:31 886

原创 python中的apply(),map(),agg()等的用法

(1)map()函数:map(function, iterable, …)map() 会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。function – 函数iterable – 一个或多个序列注意这里可以是一个或者多个数组成的列表def f(x): re...

2019-04-04 19:12:04 3309

原创 pandas的reindex的用法

1.**reindex()**表示重新索引,如果某个索引值当前不存在,就会引入缺失值;可以通过fill_value参数填充默认值,也可以通过method参数设置填充方法;reindex方法的methon参数的选项:ffill或pad 前向填充值bfill或backfill 后向填充值或者是fill_value直接指定缺失值为多少例子:impo...

2019-04-04 10:09:56 5301

原创 pandas学习之路

注意pandas 中的切片操作pd.loc[],pd.iloc[],pd.ix[]在pandas中如果索引值不是字符型pd.loc[1:2]用数值进行切片就会报错,但是iloc[],pd.ix[],就不会报错,所以在切片的时候尽量还是不要用pd.loc[],避免不必要的麻烦。data=pd.DataFrame(np.random.randn(5,4),columns=list('ABCD'),...

2019-04-03 20:31:50 279

转载 python 逻辑回归,预测银行客户是否购买定期存款

问题:逻辑回归其实是一个二分类问题,预测银行客户是否购买定期存款我们会提出以下一些问题:(1)影响银行客户购买定期存款的因素有哪些(2)对于类别变量我们应该怎样处理,(3)我们应该怎样进行特征选择(4)逻辑回归模型预测,以及最终的评估另外还有很多需要注意的,比如数据处理,缺失值异常值的怎样处理,等等下面开始一步步进行实现首先导入在整个过程中需要用到的模块import pandas...

2019-04-03 17:02:17 8110 4

转载 神经网络的初步学习python

转载请见详情一些非线性的样本数据用线性分类比较难分割,可以考虑用非线性神经网络进行分割。下面从一个具体的实例来实现比较简单的神经网络的思想以及过程。1.首先生成数据集(当然对于有原始数据集的可以直接导入了)import numpy as npimport matplotlib.pyplot as pltN = 100 # 每个类中的样本点D = 2 # 维度K = 3 # 类别个数...

2019-04-01 19:03:36 342

原创 python中的math 的一些函数

import mathmath.ceil(x) 就是取大于等于x最邻近的整数,**math.floor(x)**类似,但是是向下取整import numpy as npa=2.1import mathprint(math.ceil(a))x=-1.3print(math.ceil(x))结果如下:3-1关于数组的ceil()函数的用法,np.ceil(arr)ar...

2019-04-01 11:07:08 1598

原创 python中几种格式化输出 的用法

官方文档1.若要使用格式化字符串文本,请在开始引号或三重引号之前以f或f开头的字符串。例子:year = 2016event = 'Referendum'print(f'Results of the {year} {event}')结果:Results of the 2016 Referendum在这里的格式化输出可以是f或者是F开头的,另外对于需要加入输出的相关内容需要用{}...

2019-03-31 18:25:25 2181

原创 python中用列表作为队列

队列有“先进先出”的,这样没删除或者是郑加一个元素,这样就需要对原列表进行移动,这样效率会比较低,就引入:collections.deque这样可以提高效率from collections import dequequeue = deque(["Eric", "John", "Michael"])queue.append("Terry") print(queue)queue.appen...

2019-03-31 16:22:32 1545

原创 python中的list列表的相关操作

list.remove(x)表示从列表中删除指定的元素x例子如下:list1=[1,2,3]print(list1)list1.remove(2)print(list1)结果如下所示:[1, 2, 3][1, 3]list.insert(i, x)表示在列表中的第i个位置上插入值x例子:list1=[1,5,6,35]list1.insert(1,8)list1...

2019-03-31 16:07:55 473

转载 numpy中的np.ix_的用法

其实就是相当于花式索引,会增加可读性,给出下面的例子import numpy as npa=np.arange(10).reshape(2,5)a[np.ix_([0,1],[2,3])]=2print(a)结果如下:array([[0, 1, 2, 2, 4],[5, 6, 2, 2, 9]])需要注意的是:A[[2,3]][:,[0,1]]#这种方式只有 read-on...

2019-03-31 15:17:09 11186 1

原创 numpy中的put,putmask, place的用法

np.put(a, ind, v, mode=‘raise’)参数解释:Parameters: a : ndarrayTarget array.ind : array_likeTarget indices, interpreted as integers.v : array_likeValues to place in a at target indices. If v is sh...

2019-03-31 12:05:54 5270

转载 python中的select()以及choose()的用法

转自一、什么是np.select()顾名思义,这个函数用用来“ 根据某一些条件 ” 来筛选出 “某一些元素 ”的函数,比如我有一个数组,我如果用if-else语句去做,当然也可以,比如我们让小于6的元素各自加上10,大于等于6的元素统统变为100,我们可以这么做,代码如下:a=np.array([1,2,3,4,5,6,7,8,9,10])aa=[]for i in a: if ...

2019-03-31 11:30:24 10969 1

原创 b=a[np.newaxis,:]的功能解释

下面以例子来说明import numpy as npa=np.array([1,2,3,4,5])b=a[np.newaxis,:]print (a.shape,b.shape)print (a)print (b)c=a[:np.newaxis]print(c.shape)print©结果如下:(5,) (1, 5)[1 2 3 4 5][[1 2 3 4 5]](5,...

2019-03-25 09:28:10 5116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除