自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 描述统计(2)

案例一项调查,由30人技术工人组成的样本,被要求写出他们对工作、工资、升职机会的满意度,这三个方面的满意度的评分都是从0分到100分.且较大的分值代表较大的满意度。如下表:变量名依次为公司类型、工作、工资、升职机会。我们感兴趣的问题:1.工人最满意的是什么,最不满意的是什么?如果需要的话,在哪些方面需要改进?2.判断技术工人在哪方面的满意度差别最大,是什么原因引起的?3.技术工人对日资...

2019-07-28 23:31:36 335

原创 描述统计(1)

一、statistics有关的几个基本概念a.工资b.性别c.Mp3销售量d.对软体饮料的偏好e.温度f.SAT的分数g.班级学生的名次h.金融学教授的级别i.家用计算机的数量discrete variable         continuous variablequalitative    b性别、d偏好、quantitative    g名次、h级别 f分数     ...

2019-07-21 01:13:12 1225

原创 关于数值数据的特征工程

关于数值数据的特征工程定义特征:原始数据的数值表示。将原始数据表示为数值型数据有多种方式,所以特征也有很多种。特征与模型相关联。 特征数量也比较重要,数量过少信息不够,数量过多训练比较困难,或出现过多特征不合适会影响模型性能。特征工程:在给定数据,任务,模型的情况下,设计出最合适的特征的过程。我们选择的不仅是模型,还有特征,特征和模型相辅相成。数值类型的特征工程介绍一些基本准则,只是基...

2019-07-11 17:39:40 754

原创 数据分析一般流程

数据分析的一般流程介绍数据分析的真正价值在于发现问题,解决问题,创造价值。使用什么软件、工具并不是重要。现在市面上的出现的好多机构,解决的更多的是入门使用工具的问题,演变成手段问题。数据分析是把现实的问题转化为数据能够解决的问题,使用我们学习到的知识和经验,将数据提炼出来的信息应用,创造价值的过程。分为三部:从问题到数据,数据到信息,信息到行动。问题到数据:[5-15%]准确定义实...

2019-07-07 12:15:06 2111

原创 没啥价值,不建议读——关于2019北京半程马拉松参赛体会

2019-04-14北京半程马拉松比赛心得体会当我看到蓝色的、上写印着2019北京半程马拉松比赛的半椭圆桥搭成的架子,我知道前方就是终点。稍作调整后,我开始大力向前迈步,加快迈步节奏,最快速度冲向前。目标很明确,超越,超越你前边的人,并尽力狠狠的甩开他们。只是短短几百米的距离,对有着21公里的半马而言杯水车薪。当我全力冲向终点的时候,马路两边的啦啦队的哇声,来自的肯定是为我,只是单独为我而喊...

2019-04-15 00:03:51 748

转载 决策树

决策树的工作方式[参考文献] : https://mp.weixin.qq.com/s/DTDH2m21Gz1UQ2tW64kPZg决策树可以看成为一个 if-then 规则的集合,即由决策树的根节点到叶节点的每一条路径构建一条规则,路径上内部节点的特征对应着规则的条件,而叶节点的类对应于规则的结论。因此决策树就可以看作由条件 if(内部节点)和满足条件下对应的规则 then(边)组成。决策...

2019-03-05 09:05:28 1798 2

转载 逻辑回归Logistic Regression

关于逻辑回归逻辑回归概念sigmoid函数逻辑回归模型构建二元逻辑回归是如何进行分类的?逻辑回归的假设逻辑回归的损失函数逻辑回归损失函数求解逻辑回归的优缺点逻辑回归概念逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。sigmoid函数首先我们了解一个函数:sigmoid,逻辑回归就是基于这个函数构建的模型。sigmod函数公式如下:...

2019-03-03 20:24:47 1090

转载 回归分析

线性回归线性回归使用最佳的拟合直线(也就是回归线)建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。用一个等式来表示它,即:Y=a+b*X + e其中a 表示截距,b 表示直线的倾斜率,e 是误差项。这个等式可以根据给定的单个或多个预测变量来预测目标变量的值。一元线性回归和多元线性回归的区别在于,多元线性回归有一个以上的自变量,而一元线性回归通常只有一个自变量。线性回归要点:...

2019-03-01 21:34:36 768

原创 人生阅历上的忠告----请回答1988

或许家人最不懂,但懂不懂有什么可重要的呢!最终消除隔阂的不是无所不知的脑袋,而是手拉手,坚决不放手的那颗心。归根到底是家人。别说是英雄,哪怕是英雄他爷爷最后那一刻也要回到家人身边。出了家门,从外面世界所受的伤害,各自在生活中留下的伤疤,甚至把家人留给我们的伤痕,也会来抚摸的最后一个安慰,归根到底是家人,还有,不……,即便如此,历史还是在重演。大人们只是在忍,只是在忙着大人们的事,只是在用故作坚...

2019-02-15 00:13:06 320

原创 统计推断与假设检验

统计推断我们了解统计学是无法确凿的证明任何东西。统计推断的力量在于可以:先发现一些规律和结果,然后再利用概率来证明这些结果的背后最有可能的原因。所以通过推断我们可以知道哪些方面是可能的,哪些方面是不太可能的。统计推断的示例一个学生在期中成绩比较差,但在期末的成绩非常高。因为我们知道期中和期末的成绩具有极为显著的相关性,这种事情发生的概率比较低,所以我们可以发现作弊现象。假设检验统计推断...

2019-01-31 09:29:50 2655

转载 GBDT

Skelearn 参数详解:这篇介绍Boosting的第二个模型GBDT,GBDT和Adaboost都是Boosting模型的一种,但是略有不同,主要有以下两点不同:GBDT使用的基模型是CART决策树,且只能是CART决策树,而Adaboost的默认基模型是CART决策树,可以是其他模型。GBDT通过计算每次模型的负梯度来进行模型迭代,而Adaboost模型则根据错分率来进行模型迭代。参...

2019-01-29 21:00:43 2170

原创 中心极限定理

中心极限定理比如,我们想了解一家工厂所生产的鸡胸肉是否安全,我们会怎么做?抽样调查,通过抽样检测这家工厂生产的100块鸡胸肉的沙门氏菌我们就可以知道结论。问题是,我们一概而论的强大能力,到底是从哪来的?绝大部分来自中心极限定理,中心极限定理是许多统计活动的动力源泉,这些统计活动存在着一个共同的特点,那就是使用样本对一个更大的数据集进行推理。那么能够体会出的要义就是:一个大型样本的正确抽...

2019-01-28 21:28:19 1377

原创 统计推断 与 置性区间confidence interval

置信区间是指由样本统计量所构造的总体参数的估计区间。置信区间是参数估计的一种形式,通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。用数轴上的一段距离或一个数据区间,表示总体参数的可能范围.这一段距离或数据区间称为区间估计的置信区间。什么是 95% 置信区间?95%置信区间的意思并不是说某个值有95%的概...

2019-01-28 21:27:39 727

原创 机器学习--决策树与随机森林

决策树的工作机制决策树可以看成为一个 if-then 规则的集合,即由决策树的根节点到叶节点的每一条路径构建一条规则,路径上内部节点的特征对应着规则的条件,而叶节点的类对应于规则的结论。因此决策树就可以看作由条件 if(内部节点)和满足条件下对应的规则 then(边)组成。决策树的工作方式是以一种贪婪(greedy)的方式迭代式地将数据分成不同的子集。其中回归树(regression tree...

2019-01-27 21:16:18 545

原创 泊松分布Poisson Probability Distribution

泊松分布泊松分布是用来形容在某一特定时间或面积内稀有事件发生的概率。泊松随机变数的一些列子几周内保险公司收到的要保信数几分钟内经过检票口的旅客数一段短时间内经接听的电话次数一段时间内发生的地震次数泊松分布随机变数:实验某一公司生产的平板玻璃窗内气泡数为泊松分布,平均每没平方尺有0.004个气泡,求:a.所生产的玻璃窗内无气泡的概率b.所生产的玻璃窗内气泡数不超过1个的概...

2019-01-27 12:58:20 1970

原创 二项分布(Binomial Probability Distribution)与概率,大数法则Law of Large Numbers,期望值

二项分布(又名伯努利实验)满足四个条件才能称为二项分布:实验次数固定为n次每一次实验都有两种可能结果:成功或是失败而且每一次实验成功的概率都相等每次实验都是独立的例如抛硬币实验…实验:R语言模拟实验:假如100位啤酒盲品者进行独立实验,每位盲品都有两种可能结果,A OR B,每位选择A的概率都相等,为50%问题一:100位盲品者都选择B的概率为多少? dbinom(...

2019-01-27 11:40:18 8937

原创 统计学:描述性统计学数字特征与正态分布

描述性统计学 Descriptive Statistics对原始数据集进性归纳就是描述性统计学所做的事。我们深知,数据越多,事实越模糊,因此需要简化。我们将一系列复杂的数据序列减少为几个能够起到描述作用的数字,这些数字为我们提供了一个争对原始数据的可操作、有意义的概括。坏消息是,任何一种简化都会面临被滥用的风险。数字特征集中趋势 (Central Tendency of Location...

2019-01-26 19:43:46 3396

原创 python用于数据分析实战 之控制流

条件语句与循环语句编写一个程序,检查3个变量x,y,z,输出其中最大的奇数。如果没有奇数,就输出一个消息进行说明。x,y,z = 2,5,9list_num = [x,y,z]odd=[]for i in list_num : if i %2 == 1: odd.append(i)if odd: print(sorted(odd)[-1])else:...

2018-11-12 17:31:21 412

原创 python 脚本编写

脚本编写将学习:Python 安装和环境设置 运行和修改 Python 脚本 与用户输入交互 处理异常 读写文件 导入本地、标准和第三方模块 在解释器中进行实验方法 1:安装 Anaconda 安装教程:https://www.zhihu.com/question/58033789方法2:安装python1.创建工作目录:多级import os #创建多...

2018-10-19 12:59:33 1361

原创 python 函数

函数将学习:函数定义 变量作用域 文档 Lambda 表达式 迭代器和生成器定义函数函数定义示例:def cylinder_volume(height, radius): pi = 3.14159 return height * pi * radius ** 2定义 cylinder_volume 函数后,我们可以如下所示地调用该函数。cyl...

2018-10-09 14:10:38 266

原创 Python 控制流程

内容包括:条件语句 布尔表达式 For 和 While 循环 Break 和 Continue Zip 和 Enumerate 列表推导式条件语句f 语句if 语句是是一种条件语句,根据条件为 true 还是 false 运行或执行相关代码。下面是一个简单的示例:if phone_balance < 5: phone_balance += 10 ...

2018-10-09 10:35:43 759

转载 python数据类型与运输符

总结Data Structure Ordered Mutable Constructor Example int NA NA int() 5 float NA NA float() 6.5 string Yes No ’ ’ or ” ” or str() “this is a stri...

2018-09-15 17:01:06 478

原创 主成分分析、因子分析及其有关的数学基础

1、相关矩阵2、单位矩阵3、旋转正余弦公式:https://baike.baidu.com/item/%E4%B8%89%E8%A7%92%E5%87%BD%E6%95%B0%E5%85%AC%E5%BC%8F/4374733?fr=aladdin旋转翻译自: http://www.metro-hs.ac.jp/rs/sinohara/zahyou_rot/zahyou_rot...

2018-09-13 10:30:02 3137

转载 机器学习重点函数

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_16365849/article/details/50646708基本操作常用函数及包预测函数:predict() type=”prob”判别该量度的昆虫归类为A、B和C的概率;type=”response”:判别该量度的昆虫的类别; 预测分类的概率的函数predict(…, type...

2018-09-08 22:27:07 2231

转载 githhub使用心得

这个世界上有个叫GitHub的神奇的网站,这个网站就是提供Git仓库托管服务的。本地Git仓库和GitHub仓库之间的传输是通过SSH加密的。远程仓库设置:第1步:创建SSH Key。$ ssh-keygen -t rsa -C "[email protected]"一切顺利的话,可以在用户主目录里找到.ssh目录,里面有id_rsa和id_rsa.pub两个文件...

2018-08-24 22:00:36 2283

原创 git使用心得

Git是目前世界上最先进的分布式版本控制系统,不但可以记录每次的改动,还可以便于同事协作。可以不用联网,极强的分支管理。创建版本库:什么是版本库呢?版本库又名仓库,英文名repository,你可以简单理解成一个目录,这个目录里面的所有文件都可以被Git管理起来,每个文件的修改、删除,Git都能跟踪,以便任何时刻都可以追踪历史,或者在将来某个时刻可以“还原”。1、首先,选择一个合适的地...

2018-08-24 09:15:12 342

转载 混淆矩阵中的准确率与召回率

我们倾向于使用准确率,是因为熟悉它的定义,而不是因为它是评估模型的最佳工具!精度(查准率)和召回率(查全率)等指标对衡量机器学习的模型性能是非常基本的,特别是在不平衡分布数据集的案例中,在周志华教授的「西瓜书」中就特别详细地介绍了这些概念。GitHub 地址:https://github.com/WillKoehrsen/Data-Analysis/blob/master/recall_pre...

2018-08-22 22:04:21 15771

原创 R分类技术

#############R分类###什么是分类问题###创建误差|分类混淆矩阵cp <- read.csv("college-perf.csv")str(cp)#因子重新排序dput(levels(cp$Perf))#常规因子排序cp$Perf <- factor(cp$Perf,levels=c("Low", "Medium","High"))str(cp)#...

2018-08-15 08:21:00 796

原创 影响是否付费的相关性分析

### 活跃时间段相关分析 ###logindata <- read.csv("data//logindata.csv")library(caret)dmy <- dummyVars(~.,data = logindata)dmyTsrf <- data.frame(predict(dmy,newdata = logindata))dim(dmyTsrf)str(d...

2018-08-02 10:11:47 258

原创 R 语言 apply 系列函数

 apply() 4 4.0> #apply系列函数> > #apply(X, MARGIN, FUN, ...)> #参数列表:> #X:数组、矩阵、数据框> #MARGIN: 按行计算或按按列计算,1表示按行,2表示按列> #FUN: 自定义的调用函数> #…: 更多参数,可选> > apply(iris...

2018-08-01 14:28:24 974

原创 R 数据分离与交叉验证的一些抽样方法

> #等比例数据抽样> library(caret)> str(iris)'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 ...

2018-08-01 09:38:11 2181

原创 R 数据预处理

数据变换数据标准化#scale 返回矩阵> cbind(as.data.frame(scale(iris[,1:4],center=TRUE,scale=TRUE)),iris$Species) Sepal.Length Sepal.Width Petal.Length Petal.Width iris$Species1 -0.89767388 1.015601...

2018-07-31 22:51:05 407

原创 R 描述性统计分析

中位数:quantile(iris$Sepal.Length) 0% 25% 50% 75% 100% 4.3 5.1 5.8 6.4 7.9 quantile(iris$Sepal.Length,seq(0,1,by=0.1)) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 4.30 4.80 5....

2018-07-31 13:13:10 4292

转载 数据挖掘资源汇总

原作者地址:https://blog.csdn.net/littlely_ll/article/details/79326950文献库Cornell University Library citeseerx NIPS Proceedings数据挖掘个人网站Jiawei Han Zhi-Hua Zhou Jian Pei Shirin’s playgRound, 她的新网...

2018-07-25 13:33:13 206

原创 R语言:常见的分布

定義 :離散型隨機 變數 (Discrete Random Variable)– 離散型隨機變數為計數值的隨機變數。– 例:生產線上某次抽檢之不良品的數目2)  定義 :連續型隨機 變數 (Continuous Random Variable)– 連續型隨機變數為連續值的隨機變數。– 例:厚度、重量與長度 离散分布: 二项分布伯努利实验介绍二项分布前,先了解一下伯...

2018-07-22 08:54:43 36511

原创 AB测试

公司每月都会开展促销活动,虽然这种促销活动是销售比率比较高的经营策略,然而公司经营层指出“虽然促销活动的销售额较高,但购买率却比较低”。通过和公司的其他应用的促销活动相比,我们发现购买率确实比较低。提出假设:1、活动的内容有问题促销产品并不是用户需要的 促销力度不够,对用户没有吸引力2、广告的外观展示有问题 针对广告外观展示问题,广告的点击率比较低,从而对购买率产生影响。可...

2018-07-18 14:32:59 1278

原创 卡方检验的R语言实现

R函数: chisq.test()chisq.test : 执行卡方检验chisq.test(x,        #数值型向量或矩阵,或者x 、y 全为因子y=null ,  #数值型向量或x为因子时设为因子。x为矩阵时,列联表保存于其中,故忽略Y#与x等长的概率,该值测试比率是否与概率一致,若不设置该参数,则检测概率彼此是否相同。#p=rep(1/length(x),le...

2018-07-18 09:51:31 30517

原创 用户减少问题出在哪?

N重交叉列表的实现:通过将有因果关系的属性结合起来进行统计分析。交叉列表在分析数据的变化趋势或者通过复合属性来发掘因果关系方面十分有用。接下来通过SQL实现交叉表统计:二维交叉表:三维交叉表:在分析用户使用的终端设备,对设备类型进行交叉列表统计时,结果发现9月IOS用户数相比8月下降幅度很小,然而android用户数却极大地减少了,因为问题可能出在这个用户群。 ...

2018-07-17 08:39:25 213

转载 ggplot2 theme相关设置—文本调整

原文地址:https://www.cnblogs.com/wkslearner/p/5701207.html在geom设置和scale设置之后,要想把图画的漂亮,theme设置是比不可少的在theme 设置中element_text()是一项很重要的内容element_text(family = NULL, face = NULL, colour = NULL, size = NULL...

2018-07-16 20:42:28 4396

原创 销售额减少问题出在哪里?

销售额之前一直保持着稳定的增长,然而这个月下降了。无论从市场环境还是从本身的产品状态来看,这个产品的销售额还有继续增长的空间。因此销售额下降成了公司一大问题, 导致销售额下降的原因有哪些?也就是说本月与上月有哪些地方不同? 提出假设:1、在商业宣传上存在问题。2、每月以不同主题开展的活动存在问题。 用简单的方法大致验证假设:咨询其他部门,得到了以下信息:1、...

2018-07-16 18:40:20 1034

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除