Lang Grass-CSDN博客

原创 Python3爬虫1

爬虫原理:请求网站并提取数据的自动化程序通用爬虫:搜索引擎爬虫;聚焦爬虫:获取某一垂直领域的数据或者有明确的检索需求,需要过滤掉一些无用的信息 HTTP协议:用于从WWW服务器传输文本到本地浏览器的传送协议;HTTPS协议是加密的超文本传输协议 HTTP主要请求方式 GET请求：是以实体的方式得到由请求URL所指定资源的信息 POST请求：用来向目的服务发出请求,并且带上...

2018-11-26 11:10:01 190

VMware虚拟物理机,Linux的CentOS系统 CentOS是Linux的发行版之一，它安全、稳定、高效，CentOS根据Red Hat Enterprise Linux开放源代码编译而成，与RedHat Linux并没有什么本质上的差别;但Red Hat Enterprise Linux是商业软件，使用必须向RedHat公司付费，而CentOS并没有任何使用上的限制内核官网：http...

2018-11-21 23:21:31 209

转载 linux安装R,Rstudio server和shiny服务器部署

https://blog.csdn.net/dream_angel_z/article/details/45768453 configure: error: “liblzma library and headers are required” :https://blog.csdn.net/qq_34023608/article/details/51700974 configure: error...

2018-11-21 23:18:04 1334

翻译 Customer Lifetime Value in R笔记

原文:http://www.keetan.me/clvCLVcustomer lifetime value是顾客对公司的价值估计,客户在与公司整个接触时期的未来贡献现金流净值,利用到的模型为Pareto/NBD Buy Til'You Die;重点是预测顾客的未来价值 Four Types of Customer Relationships:CLV对非契约业务的估计不同于合同业务,区别在于客...

2018-11-01 08:56:34 1110

原创第5章抽样分布

参数是一个对整体的数值描述度量，其基于总体观测，所以几乎是未知的样本统计量是对一个样本的数值描述测度样本统计量的抽样分布是其概率分布，是由n个观测量的样本得到的；n个个体的多样本点估计：总体参数的点估计是一个规则或公式，如何用样本数据来计算可以作为总体参数的估计的一个值如果样本统计量的抽样分布均值与该统计量要估计的总体参数相等，就可认为这个统计量是参数的无偏估计量重复抽样产生的...

2018-10-30 08:31:41 1626

原创第3章概率第4章常见概率分布

一个样本点是试验中最基本的结果组合法则(Nn)=N!/(n!(N-n)!) 事件的补集是指事件所有的不发生样本点Ac 概率的加法：p(AUB)=p(A)+p(B)-p(AnB) 互斥事件：p(AUB)=p(A)+p(B) 条件概率：p(A|B)=p(AnB)/p(B) 乘法法则：p(AnB)=p(A)*p(B|A)=p(B)*p(A|B) A和B互为独立事件：p(A|B)=p(...

2018-10-30 08:31:11 817

原创第1章统计与数据第2章数据的描述方法

统计的应用可以分为描述统计（即报表）和推断统计（即预测建模）样本来源于总体，是试验的产物，变量是每个试验单元的特征或属性推断统计的五要素：总体、变量、样本、推断、可靠性过程是讲输入转化为输出的一系列行动或操作，过程产生的一系列输出被称为样本所有数据可以分为定量数据或定性数据有代表性的样本指变量取值可以代表总体特征的样本获取有代表性的样本的方法有：简单随机抽样分层随...

2018-10-30 08:30:46 235

原创 R教材11.2 随机森林与支持向量机

随机森林是组成式监督学习算法，同时使用多个预测模型，将模型的结果汇总以提升分类准确率；对样本单元和属性进行抽样，产生大量的决策树，再对检验的样本单元进行依次分类，从而得到未知样本单元的类算法：训练集中有N个样本单元，M个变量从训练集中随机有放回的抽取N个样本单元对于抽取出的训练集，对每个节点随机抽取m<M个变量，作为分割该节点的候选变量，每一个节点处的变量数应该一致 ...

2018-10-28 22:10:46 2416

原创 R教材11.1 分类与决策树

分类目的：根据一组预测变量来预测相对应的分类结果，实现对新出单元的准确分类有监督学习：基于已知类的数据样本，将全部数据分为训练集和验证集用到的包：rpart，rpart.plot，party，randomForest，e1071 随机抽样： set.seed(1234) sample(nrow(对象),present*nrow(对象))，结果是抽样的内置ID sample(数据...

2018-10-28 22:10:31 482

原创 R教材10 聚类分析

营销研究人员根据消费者的人口统计特征和购买行为的相似性制定客户细分战略聚类的一般步骤：选择对聚类结果有效的数据对每个变量标准化：z分数scale()，分位数或（x-μ）/平均绝对偏差；变量间数值差距较大时必须标准化寻找异常点并去除（或研究）： outliers包中有筛选单变量离群点的函数 mvoutlier包中有筛选多元变量离群点的函数计算距离？dist，...

2018-10-28 22:09:48 962

转载 Rstudio快捷键

控制台功能 Windows & Linux Mac移动鼠标到控制台Ctrl+2 Ctrl+2控制台清屏Ctrl+L Command+L移动鼠标至第一行Home Command+Left移动鼠标至最后一行End Command+Right历史记录翻滚Up/Down Up/Down弹出历史记录栏Ctrl+Up Command+Up终...

2018-10-28 22:09:00 1395

原创 R教材8 功效分析

在给定置信度下，判断检测到给定值时所需要的样本量；也能计算在某样本量内能检测到给定效应值的概率功效是1-二类错误，1-β，看做真实效应发生的概率效应值是在备选或研究假设下效应的量对于每个函数，用户设定（样本大小n，显著性水平α，功效，效应值）中的三个量，第四个量可以计算出来功效分析函数 t检验：pwr::pwr.t.test(n,d,sig.level,power,typ...

2018-10-26 08:46:00 840

原创 R教材7 方差分析

方差分析：组间差别分析aov(formula,data)，将组别因子加入到函数双因素方差分析中，若不同的分组中组内观测数不同则模型的顺序具有唯一性；ANOVA模型的顺序很重要，模型Y~A+B+A:B，其中Y为因变量，A,B为分组量序贯型：后面对线出现的效应做调整，A不调整，B根据A调整，A:B交互项根据A和B调整分层型：根据同水平或低水平的效应调整，A根据B调整，B根据A调整，A:B...

2018-10-26 08:45:44 547

原创 R教材6 回归

大部分情况下，我们用OLS（最小二乘法）来得出回归模型 lm(formula,data)拟合回归模型，data是数据框 y~x，左边为响应变量，右边为解释变量；+分隔预测变量 :表示交互项，x:y *表示所有可能交互项的简洁方式，x*z=x+z+x:z ^表示交互达到某个次数，(x+z+w)^2=x+z+w+x:z+x:w+z:w .表示出因变量外的所有变量，不包含自变量间的交...

2018-10-26 08:45:29 408

原创 R教材5 统计

summary()，统计描述，因子向量和逻辑向量的频数统计，包括缺失值统计，同样作用的有 Hmisc包中的describe() pastecs包中的stat.desc() psych包中的describe() 多个包中有相同名的函数，运行最后载入的，可用包名::函数()来使用分组计算描述性统计量 aggregate(x,by,FUN)，单返回值函数 by(x,indic...

2018-10-26 08:45:12 228 1

原创 R教材4 高级数据管理

数值与字符处理函数数学函数，对象非单个数值时，会作用于每个数值绝对值abs() 平方根sqrt() 舍入小数round(,digits=) 对数 log(x,base=n)以n为底 log()以e为底 log10()以10为底指数exp(x)，以e为底指数统计函数na.rm=T，计算时移除NA；trim=0.05，去除...

2018-10-26 08:44:57 122

原创 R教材3 数据管理

根据原对象创建新变量，对象=transform(对象,新变量) 变量的重编码variable[condition]<-expression，变量的下标运算符设置条件，当condition为T时则执行赋值；within(对象,{新变量[原变量的判断条件]=新值})，创建新对象，{}内为执行语句 cut(列对象,breaks=quantile(列对象,probs=c(0.0,0.3,0.7,...

2018-10-26 08:44:35 120

原创 4 anaconda&Numpy&Pandas&Matplotlib

python环境搭建 Jupyter notebook修改初始打开的文件夹路径;在jupyter打开的情况下 cmd->jupyter notebook --generate-config->y c.NotebookApp.notebook_dir修改jupyter_notebook_config.py的文件夹路径启动jupyter notebook出现闪退 ...

2018-10-26 08:42:00 491

原创 3 条件控制和循环语句&函数&面向对象编程&模块&包&文件和异常

if if condition:T_execute if condition:T_execute else:F_execute if condition1:condition1_execute elif condition2:condition2_execute else:F_execute *random::random.randint(start,end)随机取[start,en...

2018-10-26 08:41:54 124

原创 2 字符串&列表&元祖&集合&字典&浅拷贝和深拷贝(针对可变对象)

String'',反斜杠\代表部分符号的本意,也用于特殊字符,如换行符等 *字符串对象调用函数可赋值给其他对象切片:截取字符串,字符串变量[起始:结束:步长],包含起始值不包含结束值,步长默认为1,第一个字符的下标为0,负数则为倒数,倒数从-1开始;下标即索引 a[::-1]倒序输出字符串连接字符串,必须是相同格式的字符串才能运算 +表示连接字符串 *表示复制字符...

2018-10-26 08:41:43 166

原创 1 基础

anaconda是python的集成包和环境 *resources_cn.jar放入pycharm的lib文件夹内，改为中文 Anaconda Anaconda Navigator：管理工具包和环境的图形用户界面，类似mysql Jupyter notebook：基于web的交互式计算环境，编辑易于人们阅读的文档，展示数据分析过程，类似R markdown qtconsole：可执行...

2018-10-26 08:41:36 92

原创 R教材2&19&23 图形初阶&ggplot2&lattice&ggiraph&plotly

设置基础图形参数 par()设置图形特征，直到会话结束 opar<-par(no.readonly=T)……par(opar)，将默认图形属性保存，在修改图形属性的作图后，恢复默认值 par(mfrow=c(1,1))设置画板分隔成1*1的等大区域符号和线条 pch=1|2|3|......点的符号(形状) cex点的形状的大小,默认为1...

2018-10-24 00:20:09 505

原创 R教材1

R是一种区分大小写的解释型语言；一个对象可以是任何能被赋值的东西，对于R来说对象可以是数据、函数、图形、分析结果等等，每个对象有一个类属性，可以告诉R如何处理数据，对象都拥有某种模式，描述此对象是如何存储的 R语句由函数和赋值构成，使用<-赋值，注释由#开头；了解R能够做出什么图形，用demo() 工作空间：是R当前的环境，setwd()，存储着定义的对象和数据.RData，下次直接打开...

2018-10-24 00:19:37 170

原创第八章（3）聚类：DBSCAN和簇评估

基于密度的聚类寻找被低密度区域分离的高密度区域传统的密度：基于中心的方法：数据集中特定点的密度通过对该点半径之内的点计数（包括本身）来估计，关键是确定半径；根据基于中心的密度进行点分类：稠密区域内的点（核心点）：点的邻域由距离函数和指定半径决定；定义是该点的给定邻域内的点的个数>给定的阈值，则为核心点稠密区域边缘上的点（边界点）：落在某个核心点的邻域内稀疏区域中的点（噪声...

2018-10-24 00:17:18 5667

原创第八章（2）聚类：凝聚层次聚类

有两种产生层次聚类的方法：凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇，这需要定义簇的邻近性概念分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到剩下单点簇，需要确定每一步分裂哪个簇，如何分裂基本凝聚：定义簇之间的邻近性：簇的邻近性通常用特定的簇类型定义；凝聚层次聚类源于基于图的聚类，有下面3种： MIN（单链）：簇的邻近度为不同簇的两个最近的点之间的邻近度...

2018-10-24 00:16:49 3149

原创第八章（1）聚类：基本概念

聚类分析是将数据划分成有用的簇，如果目标是划分有用的组，则簇应当体现数据的自然结构；聚类分析只是解决问题的起点聚类的目的：用于理解的聚类：在对世界的分析和描述中，人类擅长将对象划分为簇，例如生物学：界门纲目科属种信息检索：面对网页的搜索结果，聚类将其分成若干簇，每个簇获取某个特定的方面气候医学商业：利用顾客的信息将其分组实用的聚类：聚类分析...

2018-10-24 00:16:33 869

原创第七章（3）关联分析：非频繁模式

非频繁模式是支持度<阈值的项集或规则非频繁模式的应用：利用数据中的负相关元素，有助于识别竞争项，找到某种商品的替代项某些非频繁模式暗示了数据中出现了罕见的现象挖掘非频繁模式的问题：如何识别有用的非频繁模式如何有效的在大型数据中发现它们负模式：负项集：有如下的性质：负项集X=AU非B，其中A是正项的集合，非B是负项的集合，且至少有1个负项 ...

2018-10-24 00:16:18 1709

原创第七章（2）关联分析：子图模式

子图模式：将关联分析方法应用到复杂实体、文档数据的建模，运用到图形表示频繁子图挖掘：在图的集合中发现一组公共子结构图与子图：图是一种表示实体集之间联系的数据结构，由顶点集和连接顶点对的边集组成；当一个图的顶点集是另一个图的子集且其边集也是这个图的子集，那么前者是后者的子图；顶点vi是顶点的序列，而给每个顶点vi赋予一个标号l（vi）代表实体；每条边（vi,vj）也可以给予一个边标号l（vi...

2018-10-24 00:16:01 787

原创第七章（1）关联分析：高级概念

之前的项是非对称的二元属性，项组成事务，并且只有频繁模式是有用的；接下来探索的不同：处理分类属性：将分类属性和对称二元属性转换成项，就可以用已有的关联规则挖掘算法；将每个不同的属性-值对创建一个新的项（即转化为非对称二元属性）来实现对于二元化后的数据，需要考虑：有些属性值不够频繁，特别是具有很多可能属性值的分类属性；不能降低阈值，可以将相关的属性值分组，形成少数类别，或者将不频...

2018-10-24 00:15:44 910

原创第六章（3）关联分析：关联模式评估（客观度量）

关联分析会产生大量的模式，建立一组广泛接受的评价关联模式质量的标准是很重要的；分为两种：通过统计论据建立：相互独立的项的模式或者覆盖少量事务的模式可能是伪联系；使用客观兴趣度度量：支持度、置信度、相关性通过主观论据建立：模式被主观的判断，希望模式是提供有利信息的或者预料不到的，这需要来自领域专家的大量先验信息；主观信息加入到模式发现：可视化基于模板的方法主观兴趣度度...

2018-10-24 00:15:27 3098

原创第六章（2）关联分析：FP增长算法

FP增长算法：使用FP树的紧凑数据结构组织数据，并从中提取频繁项集 FP树表示法：FP树是一种输入数据的压缩表示，把每个事务映射到FP树中的一条路径来构造；步骤：扫描一次数据集，确定每个项的支持度，事务数据去除非频繁项，将事务中的项按支持度降序第二次扫描数据集，构建FP树，读入第一个事务，路径上结点的频数计数为1 继续读入事务，如果有共同的前缀项则前缀项合并，计数+1，没有则...

2018-10-24 00:14:06 610

原创第六章（1）关联分析：基本概念

关联分析：发现隐藏在大型数据集中的有意义的联系；所发现的联系可以用关联规则和频繁项集来表示两个问题：从大型事务数据集中发现联系的开销大所发现的联系需要验证问题定义：二元表示：购物篮事务每行对应一个事务，每列对应一个项，项在事务中的值为0或1，出现很重要，所以是非对称二元变量项集和支持度计数：事务的宽度是事务中出现项的个数；项集的支持度计数即包含该项集的事务个数 ...

2018-10-23 15:33:20 1451

原创第五章（4）分类：人工神经网络

人工神经网络ANN由一组互相连接的结点和有向链构成感知器：包含输入结点和一个输出结点，每个输入结点通过一个加权的链连接到输出结点，而权值代表神经元之间连接的强度，训练一个感知器模型相当于不断调整链的权值，直到拟合训练数据的输入输出关系为止感知器的输入结点简单的把接收到的值传递给输出链，不做任何转换；输出结点则是计算输入的加权和，减去偏置项，然后根据结果产生输出学习感知器模型：重点是权值...

2018-10-23 15:32:55 331

原创第五章（3）分类：贝叶斯分类器

在一些情况中，属性和类之间的关系是不确定的，产生这种情况的原因可能是噪声或是其他因素，所以，引入对属性集和类的概率关系的建模，即贝叶斯分类器，两种：朴素贝叶斯和贝叶斯信念网络贝叶斯定理：先验知识在现实中的概率实现贝叶斯定理在分类中的应用：在现实，它允许我们用先验概率、类条件概率、证据来表示后验概率，所以对类条件概率的估计就由朴素贝叶斯和贝叶斯信念网络来实现朴素贝叶斯：前提是假设属性...

2018-10-23 15:32:31 787

原创第五章（2）分类：最近邻分类器

积极学习方法：从训练记录中提取模型，对预测数据进行分类消极学习方法：Rote分类器，记住整个训练数据，仅当测试实例的属性和某个训练样例完全匹配时才进行分类，缺点是某些测试记录不能被分类更灵活的方法是找出和测试样例的属性相对接近的所有训练样例，这些训练样例即最近邻最近邻分类器是把每个样例看作多维空间上的一个数据点，计算测试样例和训练集中其他数据点的邻近度（任意一种邻近度度量）；给定样例z...

2018-10-23 15:32:08 3544

原创第五章（1）分类：基于规则的分类器

根据规则集来分类分类规则的质量用覆盖率和准确率来度量覆盖率=触发规则r的记录/所有记录准确率=触发规则r且类标号正确的记录/触发规则r的记录基于规则的分类器所产生的规则集的两个重要性质：互斥规则：规则集中不存在两条规则被同一个记录触发穷举规则：对属性值的任意组合，规则集中都有一条规则可以覆盖两个规则共同作用的规则集，保证一条记录有且仅有被一条规则覆盖；当然，很...

2018-10-23 15:31:41 5197

原创第四章（2）分类：模型评估

模型的过分拟合训练误差：即再代入误差或表现误差，即训练记录上错误分类的比例泛化误差：模型在未知记录上的期望误差一个好的分类模型应该具有低训练和泛化误差，而拟合度过高的模型，泛化误差可能高模型的训练误差随着模型的复杂度增加而降低，但是检验误差可能很大（检验误差在一定程度上代表着泛化误差），因为树的结点可能拟合了噪音造成过分拟合的因素噪声导致过分拟合：训练集本身的错误...

2018-10-23 15:31:16 629

原创第四章（1）分类：决策树

分类任务就是确定对象属于哪个预定义的目标类分类的属性集可以包含连续属性，但类标号必须是离散的，这是分类与回归的区别，回归的目标属性y是连续的分类任务就是通过学习得到一个目标函数（分类模型），把属性集x映射到一个预先定义的类标号y 分类模型可以作为解释性工具，区分不同类中的对象；预测未知记录的类标号分类技术适合二元或标称的数据集，不适用于序数或包含关系的属性分类技术是一种根据输入数...

2018-10-23 15:30:37 626

原创第三章探索数据

汇总统计频率和众数：无序、分类的属性百分位数：有序的或连续的属性位置度量：均值和中位数：递增排序的数据；截断均值：去除最高和最低的p%的数来计算均值散布的度量：极差和方差：方差对离群值极其敏感，用稳健的值集散布度量，如IQR 多元统计汇总：多个对象有n个连续的属性时，用协方差矩阵；两个属性的协方差是两个属性一起变化并依赖于变量大小的度量；两个属性的线性相关程度，相关矩阵更...

2018-10-23 15:30:10 193

原创第二章相似性和相异性度量&数据&数据预处理

数据类型：定量、定性属性是对象的性质、特征，测量标度是将数值或符号值与对象的属性相关联的规则（函数）属性类型：属性的性质不必与用来度量他的值的性质相同属性的不同：相异性、序、加法、乘法四种属性类型：标称和序数（分类的、定性的）、区间和比率（数值的、定量的）；非对称属性：如果属性值具有相同的权重，则为对称的；反之，为非对称的数据集的类型：数据集的特征：维度、稀疏性、分辨率 ...

2018-10-23 15:29:20 990

空空如也

空空如也