自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

原创 建模之泰坦尼克生存预测

作者:北有鸣鹿个人辛苦之作,请勿随意转载,必追究责任。如需转载,请联系我#https://www.kaggle.com/c/titanic#本次建模的模型的最高准确率0.9665,AUC为0.9666#1.导入数据集import pandas as pdimport numpy as npimport matplotlib.pyplot as plttrain = pd.read...

2018-12-13 16:33:18 326

原创 12.支持向量机

#####12 支持向量机######支持向量机方法建立在统计学理论的VC维理论和结构风险最小远离基础上,根据有限样本在#模型的复杂性和学习能力之间寻求最佳折中,以期获得的最好的推广能力。其中模型的复杂#度指对特定训练样本的学习精度,学习能力是指无错误地识别任意样本的能力。#统计学习的目标从经验最小化变为了寻求经验风险与置信风险之和最小化,即结构风险最小化。#核函数,在样例线性不可分...

2018-11-17 22:51:34 499

原创 11.随机森林

#####11 随机森林#####library(randomForest)#####1.2.2 核心函数######这个软件包主要有5个函数,分别为:importance()、MDSplot()、rfImpute、treesize()以及#randomForest().#函数importance()用来提取在利用函数randomForest()建立随机森林过程中方程中各个变量的#...

2018-10-20 16:50:58 1106 1

原创 10.集成学习

#####10 集成学习######集成学习是近年来机器学习领域中的研究热点之一。经典的两个集成算法是Bagging和#AdaBoost,它们分别以某种巧妙的方式将若干基分类器的预测结果进行综合,已达到显#著提示分类效果的目的。#####10.2.2 核心函数######1. bagging函数#bagging(formula,data,mfinal=100,control)#fo...

2018-10-20 16:50:14 449

原创 9.决策树

#####9 决策树######从理论上构建决策树#1. 决策树的生成#2. 生成数的剪枝#分类树和回归树#分类树是针对于目标变量为离散型的情况,即最终目标是预测各样本的所属类别。#回归树适用于目标变量为连续型。#####9.1.3 常用算法######CART和C4.5#分类回归树CART,即可以建立分类树也可以建造回归树的算法。它是许多集成分类#算法的基分类器。如Boo...

2018-10-20 16:49:36 839

原创 8.判别分析

#####8 判别分析######判别分析就是根据已掌握的每个类别若干样本的数据信息,总结出客观事物分类的规律性,#建立判别公式和判别标准;在遇到新的样本点时,再根据已总结的判别公式和判别准则,#来判断出样本点所属的类别。#####8.1 概述######费希尔(Fisher)判别:线性判别分析方法(LDA)和二次判别方法(QDA);#贝叶斯(Bayes)判别:朴素贝叶斯分类(N...

2018-10-20 16:48:51 805

原创 7.聚类分析

#####7 聚类分析##########7.1.1 K-均值聚类######它是一种快速聚类方法,但对于异常值或极值敏感,稳定性差,因此适合处理分布集#中的大样本数据集。#思路:以随机选取的k(预设类别)个数作为起始中心店,将其余样本归入相似度最高#中心点所在的簇,再确立当前簇中样本坐标的均值为新的中心点,依次循环迭代下去,#直至所有样本所属类别不再变动。#####7.1.2...

2018-10-20 16:46:53 1082 1

原创 6.关联分析

#####6 关联分析######支持度,置信度,提升度#提升度(lift):表示在含有X的条件下同时含有Y的可能性与没有这个条件下项集中含有Y的可能性之比#####6.2 R中的实现######install.packages("arules")library(arules) #提供Apriori和Eclat算法#####6.2.2 核心函数######1. apriori函数...

2018-10-20 16:46:05 523

原创 5.数据预处理

#####5 数据预处理##########5.1 数据集加载#####library(lattice)library(nnet)library(MASS)library(mice)data(nhanes2) #获取nHanes2数据集nrow(nhanes2);ncol(nhanes2) #显示行列数summary(nhanes2)#从概括信息中可以看出,age和hyp是定...

2018-10-20 16:44:26 791 2

原创 4.探索性数据分析

#####4 探索性数据分析#####library(MASS)data(Insurance)#####4.2.1 变量概况#####attributes(Insurance) #获取Insurance数据集的属性列表str(Insurance) #查看Insurance数据集内部结构summary(Insurance) #查看Insurance数据集的变量概况...

2018-10-20 16:43:43 802

原创 3.用R获取数据

#####3 用R获取数据##########3.1 获取内置数据集##########3.1.1 datasets数据集#####data(package = "datasets") #获取datasets中所有数据集?AirPassengers #获取AirPassengers数据集的帮助文档#当我们选定要使用该数据集时,仅需要使用data()函数,即可调用得到目标数据集##...

2018-10-20 16:42:28 313

原创 2.R的数据的分类

#####2.2.2 R的数据的分类######1. numeric数值型x = c(1,2,3,4)xclass(x) #显示向量的数据类型#2. integer整数型x1 = as.integer(x) #将x转化为整数型数据x1class(x1)#3.logical逻辑型x=c(1,2,3,4)x==2!(x<2) #判断向量x中大于等于2的元素whic...

2018-10-20 16:40:44 502

原创 11.用深度学习方法为图像中的物体进行分类

这几个库现在更新了,用书上的会出错,未解决,建议直接学新的# -*- coding: utf-8 -*-"""Created on Sun Oct 14 09:09:58 2018@author: asus"""#11 用深度学习方法为图像中的物体进行分类import osbatch1_filename = os.path.join( "E:\\books\Pyt...

2018-10-18 15:26:40 1738

原创 10.新闻语料分类

# -*- coding: utf-8 -*-"""Created on Mon Oct 8 16:41:10 2018@author: asus"""#10 新闻语料分类#10.1 获取新闻文章#本章将构建一个按照主题为最新的新闻报道分组的系统。你可以运行几周(或更长时间)以了解这#段时间新闻趋势的变化。#http://www.reddit.com/login#找不到...

2018-10-18 15:24:19 1390

原创 9.作者归属问题

# -*- coding: utf-8 -*-"""Created on Sun Oct 7 09:00:32 2018@author: asus"""#9 作者归属问题#9.1.3 获取数据import osimport sysdata_folder = os.path.join( "E:\\books\Python数据挖掘入门与实践\作者归属问题,支持向...

2018-10-18 15:23:08 706

原创 8.用神经网络破解验证码

# -*- coding: utf-8 -*-"""Created on Fri Oct 5 08:02:05 2018@author: asus"""#8 用神经网络破解验证码#8.2.1 绘制验证码import numpy as npfrom PIL import Image, ImageDraw, ImageFontfrom skimage import transf...

2018-10-18 15:22:12 1798

原创 7.用图挖掘找到感兴趣的人

# -*- coding: utf-8 -*-"""Created on Wed Oct 3 09:40:15 2018@author: asus"""#7 用图挖掘找到感兴趣的人#7.1 加载数据集#根据社交网络用户的好友信息,向他们推荐好友。逻辑为:如果两个用户有共同好友,那么这两#个人相似度很高,只得向彼此推荐。#国外的网站国内禁了#利用上一张介绍的Twitte...

2018-10-18 15:21:09 652

原创 6.使用朴素贝叶斯进行社会媒体挖掘

# -*- coding: utf-8 -*-"""Created on Tue Oct 2 07:58:33 2018@author: asus"""#6 使用朴素贝叶斯进行社会媒体挖掘#朴素贝叶斯算法在计算用于分类的概率时,为简化计算,假定各特征之间是相互独立的,因此名#字中含有朴素二字。#6.1 消歧#文本挖掘的一个难点来自于歧义,消除歧义常被称为消歧。一个词在文中的...

2018-10-10 14:24:40 924 1

原创 5.用转换器抽取特征

# -*- coding: utf-8 -*-"""Created on Sat Sep 29 15:43:18 2018@author: asus"""#5 用转换器抽取特征#5.1 特征抽取#特征抽取是数据挖掘任务最为重要的一个环节,一般而言,它对最终结果的影响要过高数据挖掘#算法本身。#5.1.1 在模型中表示事实#特征选择,降低真实世界的复杂度,模型比现实更容易操...

2018-10-10 14:22:44 244

原创 4.亲和性分析算法

# -*- coding: utf-8 -*-"""Created on Thu Sep 27 10:59:39 2018@author: asus"""#4 用亲和性分析方法推荐电影#4.1 亲和性分析#亲和性分析用来寻找出两个对象同时出现的情况。#应用场景:欺诈检测;顾客区分;软件优化;产品推荐。#4.1.1 亲和性分析算法#Apriori算法#其他算法有Eclat...

2018-10-10 14:21:19 721

原创 3. 用决策树预测获胜球队

# -*- coding: utf-8 -*-"""Created on Sun Sep 23 16:15:30 2018@author: asus"""#3 用决策树预测获胜球队#3.1.2 用pandas加载数据集import pandas as pddataset = pd.read_csv("NBA.csv")dataset.ix[:5]dataset[datase...

2018-10-10 14:19:46 1969 1

原创 2. 用scikit-learn估计器分类

# -*- coding: utf-8 -*-"""Created on Sat Sep 22 09:43:28 2018@author: asus"""#2 用scikit-learn估计器分类#估计器(Estimator):用于分类、聚类和回归分析#转换器(Transformer):用于数据预处理和数据转换#流水线(Pipeline):组合数据挖掘流程,便于再次使用。#2...

2018-10-09 13:17:44 276

原创 1. 亲和性分析

-- coding: utf-8 --“”"Created on Tue Sep 18 08:03:55 2018@author: asus“”"#1 亲和性分析import numpy as npdataset_filename = “affinity_dataset.txt”x = np.loadtxt(dataset_filename)print(x[:5])featur...

2018-10-09 13:15:53 338

Python数据挖掘入门与实践NBA数据

Python数据挖掘入门与实践NBA数据,如需本书的其他数据,请私聊,如果有,会分享的

2018-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除