自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (6)
  • 收藏
  • 关注

原创 升级操作系统,svn服务器迁移

Windows系统1.将新操作系统环境准备。2.在新操作系统下安装svn 服务端。VISUALSVNSERVER;3.完成服务端安装;4.将系统中的repository 复制到信息系统中,并将文件替换。(必须将原系统中的svn服务停用)5.完成之后重新启动。Linux操作系统1.详见https://blog.csdn.net/liangcl_2018/article/details/79745688Linux到windows 和Windows到Linux迁移均采用命令..

2020-08-30 22:07:40 158

原创 R机器学习算法系列——人工神经网络

人工神经网络(ANN)受到生物学的启发是生物神经网络的一种模拟和近似,它从结构、实现机理和功能上模拟生物神经网络。从系统观点看,人工神经元网络是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统。人工神经网络,因为生物的学习系统是由相互连接的神经元组成的异常复杂的网络,其中每一个神经元单元有一定数量的实值输入,并产生单一的实数值输出。1960 年威德罗和霍夫率先把神经网络用于自动控制研究。神经网络以其独特的结构和处理信息的方法,在许多实际应用领域中取得了显著的成效,主要应用如下:自动控制领域、

2017-04-15 00:35:10 7365 4

原创 R机器学习算法系列——KNN

K 最近邻 (k-Nearest Neighbor,KNN) 分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一,1968年由 Cover 和 Hart 提出。该方法的思路是:如果一个样本在特征空间中的 k 个最相似即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN 算法中,所选择的邻居都是已经正确分类的对象。

2017-04-14 00:21:37 796

原创 数据分析与数据挖掘在常规工作中的应用——日期处理

日期数据处理包lubridate

2017-01-15 23:34:21 725

原创 数据分析与数据挖掘在常规工作中的应用——数据 离散化

常见离散化方法:1等宽离散化2等频离散化3聚类离散化

2017-01-08 20:56:57 653

原创 数据分析与数据挖掘在常规工作中的应用——数据规范化

2017-01-08 18:12:55 748

原创 数据分析与数据挖掘在常规工作中的应用——数据清洗之缺失值处理

数据清洗的数据缺失值填补方式

2017-01-07 22:02:08 963

原创 数据分析与数据挖掘在常规工作中的应用——基本统计量案例

2017-01-04 23:40:31 455

原创 数据分析与数据挖掘在常规工作中的应用——基本统计量描述

常见统计量:均值,中位数,众数,变异系数,极差,方差,四分位数等

2017-01-04 22:12:14 589

原创 数据分析与数据挖掘在常规工作中的应用——数据异常值

2017-01-03 22:17:49 462

原创 R语言——数据分析与数据挖掘在常规工作中的应用

大纲:1 数据质量分析1.1 缺失值分析1.2 异常值分析1.3 一致性分析2 数据特征分析2.1 分布分析 2.2 对比分析2.3 统计量分析2.4 周期性分析2.5 贡献度分析2.6 相关性分析3 R语言主要数据探索函数 3.1 统计特征函数3.2 统计作图函数3.3 小结数据预处理4.1 数据清洗4.1.1 缺失值处理

2017-01-02 21:15:50 967

原创 关于R与tableau的集成----回归

关于R与tableau的集成----回归背景:利用R的算法结合tableau报表作图的优势,做出灵活性的图形。1.连接Rserve()2.结果图中颜色区分在回归线的上下方。y=b+alnx,其中x=H..Life.exp..years.,y=H..Infant.mort.1k.live.births,a=Coefficient,b=Intercept---tableauav

2016-12-25 20:32:30 4640 3

原创 关于R与Tableau的集成----异常值检测

上一期的关于R与Tableau的集成----R与tableau集成,地址:http://blog.csdn.net/u013946794/article/details/51564473关于R与Tableau的集成----异常值检测背景:查找利润异常值,异常值是通过多维度来判断,通过R算法包mvoutlier,extremevalues包:单变量异常检测mvoutlier包:基

2016-12-25 18:05:34 2465

原创 SQL和HIVE、tableau中的时间函数处理

SQL和HIVE、tableau中的时间函数处理小技巧全是工作中遇到的问题,分享给大家是想大家少走弯路、提高工作效率!

2016-11-17 17:15:49 8351

转载 在ubuntu下安装jdk

转载部分http://www.ithao123.cn/content-5588132.html今天折腾一下学会如何在ubuntu下安装jdk,特来分享一下。ubuntu装JDK6安装了ubuntu12.10,折腾了一下,终于将JDK6安装成功了。以此记录一下。1. 去官网下载JDK6,我下载后的保存路径为/home/kanner/下载/jdk-6u38-

2016-07-12 23:43:07 457

原创 关于R连接(远程)MySQL数据库的流程及要注意的问题(乱码)

实验连接远程数据库,相信远程连接其他数据库也类似。1.安装MySQL驱动:MYSQL  Connector Net  .2.配置数据源:在管理工具-----(ODBC)数据源中添加配置。包括相关的数据源名称,数据库的用户名,密码以及相关的数据库名。3.在R中安装包:RODBC,rJava,Rserve 其中本地应该有Java环境。4.查看帮助中的sqlfetch( ),取数。

2016-06-28 20:32:52 1221

转载 关于sql中联接的问题

今天看到关于SQL中的联接的一篇文章觉得写的通俗易懂,特分享给大家。转载地址为:http://www.cnblogs.com/youzhangjin/archive/2009/05/22/1486982.htmlSQL 左外连接,右外连接,全连接,内连接      连接条件可在FROM或WHERE子句中指定,建议在FROM子句中指定连接条件。WHERE和HAVING子句

2016-06-27 18:59:26 408

转载 学习笔记4

互联网企业的专业术语:(1) DAU : daily active user,日活跃用户数量(2) MAU : 月活跃用户量(3) ARPU : (Average Revenue Per User)即每用户平均收入,用于衡量电信运营商和互联网公司业务收入的指标。(4) KPI :关键绩效指标法,是企业绩效考核的方法之一,其特点是考核指标围绕关键成果领域进行选取

2016-06-21 21:03:07 394

原创 学习心得3

今天来到实习工作岗位上,发现自身的缺陷在:1.作为一名数据分析师不能很好的使用Thinkcell;2.除了解行业的标准外,更要知晓业务内的知识概况;3.更加深入学习以前丢弃的Python和Linux。下面来一波Thinkcell知识:根据上述图形来进行编辑。如何编辑待续。。。。。。

2016-06-20 21:01:41 667

原创 关于R与tableau的集成----kmeans聚类

R与tableau集成(聚类)1.利用R内置数据集iris;2.通过Rserve 包连接tableau,服务器:localhost,默认端口6311;3.加载数据集iris;4.编辑字段:Cluster//使用k-means方法对数据进行聚类SCRIPT_REAL("fit <- kmeans(data.frame(.arg1,.arg2,.arg3,.arg4),cen

2016-06-02 10:48:20 7147 2

原创 产品经理第一堂课

一.一点改变亿万人1.从原子世界到比特世界2.从万水千山到零距离二.干互联网与挣钱的关系1.不为挣钱而从事互联网2.赚钱是为了更好地服务社会三.互联网的平等机制1.互联的节点平等2.从用户角度问题反人类(但是能解决一切问题)

2016-05-01 10:58:35 388

原创 被遗忘的R中的sql语句

本文主要介SQL在R语言中的应用,很多人将SQL遗忘,在利用R的时候,特别是当工具繁多的时候,R中也有不用连接数据库来练习SQL语句。1.安装sqldf()包install.packages("sqldf")sqldf(sqldf)sqldf()所属R语言包:sqldf                                        SQL select on

2016-03-22 08:20:20 550

原创 聊聊R的优势

R与其他统计软件比较SAS: 速度快,有大量统计分析模块,可扩展性稍差,昂贵。SPSS: 复杂的用户图形界面,简单易学,但编程十分困难。Splus: 运行S语言,具有复杂的界面,与R完全兼容,昂贵。有人说R的最大缺点是对文本处理存在短板,的确相对于Python来说R的优势在于绘图和统计计算。

2016-03-12 19:26:37 783

原创 R语言中的svm实例

svmWANGChang2016年2月18日n=150p=2sigma = 1meanpos = 0meanneg =3npos = round(n/2)nneg = n-npos##生成数据中正负实例样本特征值xpos = matrix(rnorm(npos*p,mean =meanpos,sd = sigma),npos,p)xneg = m

2016-02-18 12:42:44 18002 2

原创 Q-Q图的理解

1.正态qq图的原理数据中一串数目的每个点都是该数据的某分位点,把这些点的(称为样本分位数点)和相应的理论上的分位数配对做出散点图,如果该数据服从正态分布,那么该图看上去应该像一条直线,否则就不服从正态分布。2.附上参考的文章

2015-11-04 17:06:59 27092 3

原创 关于学习朴素贝叶斯心得

朴素贝叶斯假设:基于属性相互独立。原理:基于贝叶斯定理,p(c|x)=p(x|c)*p(c)/p(x),根据贝叶斯定理,后验概率P(Y=c | X=x) = 条件概率P(X=x | Y=c) * 先验概率P(Y = c) / P(X=x),取P(X=x | Y=c) * P(Y = c)最大的分类作为输出。c表示类别(c1,c2),x表示属性(x1,x2,x3,....)P(A

2015-10-31 00:16:17 1218

转载 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

0、写在前面的话      我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。      一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知

2015-10-26 22:53:43 331

原创 网站指标操作

网站指标操作环境:R,win7插件:gWidgetRGtk2、gWidget2包,Gtk插件 install.packages("gWidgets")library(gWidgets2)library(RColorBrewer)#颜色包mouthweekwindow=gwindow("xxx网站数据指标分析系统")BigGroup = ggroup(cont

2015-10-25 10:46:56 384

转载 算法

1.数据结构和算法的关系个人感觉程序=算法+数据结构。数据结构是算法实现的基础,算法总是要依赖于某种数据结构来实现的。往往是在发展一种算法的时候,构建了适合于这种算法的数据结构。当然数据结构和算法也有区别:数据结构关注的是数据的逻辑结构、存储结构以及基本操作,而算法更多的是关注如何在数据结构的基础上解决实际问题。算法是编程的思想,数据结构则是这些思想的逻辑基础。2.算法定义

2015-10-08 23:01:54 409

转载 数据结构开场白

1.基本概念和术语1.1数据:    是描述客观事物的符号是计算机中可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合。数据元素:是组成数据的,有一定意义的单位,在计算机中通常作为整体处理。也被称为记录。1.2.数据项:    一个数据元素可以由若干个数据项组成,数据项是数据不可分割的最小单位。1.3.数据对象:    性质相同的

2015-10-08 22:53:07 486

转载 制作红头文件

一、红头文件的制作及标准1、进行页面设置选择“文件”——“页面设置”选择“页边距”附签,上:3.7厘米 下:3.5厘米 左:2.8厘米 右:2.6厘米。选择“版式”附签,将“页眉和页脚”设置成“奇偶页不同”,在该选项前打“√”。选择“文档网格”附签,“字体设置”,“中文字体”设置为“仿宋”;“字号”设置成“三号”,单击“确定”按钮,选中“指定行网格和字符网格”;将“每行”设置成“28”个字

2015-10-08 17:20:08 926

原创 数据结构概述

1.数据结构概述2.算法3.线性表4.桟与队列5.串6.树7.图8.查找9.排序

2015-09-25 23:31:30 306

原创 随机森林

随机森林(Random Forest):    随机森林是一个最近比较火的算法,它有很多的优点:    在数据集上表现良好    在当前的很多数据集上,相对其他算法有着很大的优势    它能够处理很高维度(feature很多)的数据,并且不用做特征选择    在训练完后,它能够给出哪些feature比较重要    在创建随机森林的时候,对generlization error使用的

2015-09-23 11:14:09 596

转载 如何进行用户行为分析

一、     什么是用户行为分析?对于任何事情,我们要想做好它就必须先了解它,了解之后我们才能更好的驾驭它。那么对一款产品的市场表现情况我们需要如何才能清晰地知道呢?这就需要我们通过用户对该产品的使用行为来进行分析。那么什么是用户行为分析呢?通过百度搜索我们知道:“用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营

2015-08-21 10:34:06 2454 1

原创 个人的尚学堂数据库oracle笔记(3)

pl/sqlcreate index ename_emp_sal on emp(sal);drop index ename_emp_sal ;/*索引*/ /*范式:不存在冗余数据,就是信息重复*/第一范式:a.要有主键, b.列不可分第二范式:a.当一张表存在多个主键时,b.不存在部分函数依赖。c.存在于多对多的关系第三范式:a.不存在传递依赖。begin dbms_o

2015-08-20 17:05:20 958

转载 数据库三范式详解

转载地址:http://www.cnblogs.com/xwdreamer/archive/2012/05/17/2506039.html0.参考文献:http://jacki6.iteye.com/blog/774866http://baike.baidu.com/view/402020.htm1.范式说明1.1 第一范式(1NF)无重复的列(列不可分)  所谓第一范式(

2015-08-20 11:05:19 402

原创 个人的尚学堂数据库oracle笔记(2)

select avg(sal),deptno from emp group by deptno; select avg(sal),deptno from emp group by deptno having avg(sal) >2000; select avg(sal),deptno from emp where sal > 1200 group by deptnohaving avg(s

2015-08-20 09:17:57 373

原创 个人的尚学堂数据库oracle笔记(1)

1.查询语句select *from emp;select *from dept;select * from salgrade;select ename ,sal *12 from emp;/*年薪*/select 2*3 from emp;/*计算表达式*/select ename ,sal*12 as "anuual sal" from emp;/* ""保持大小写,年薪*/s

2015-08-18 17:03:53 641

原创 利用别人的sql练习题进行修改

use wangchang;CREATE TABLE STUDENT(SNO VARCHAR(3) NOT NULL,SNAME VARCHAR(4) NOT NULL,SSEX VARCHAR(2) NOT NULL,SBIRTHDAY DATETIME,CLASS VARCHAR(5))charset = gbk; CREATE TABLE COURSE(CNO VARCHA

2015-08-17 14:11:31 409

原创 关于R画误差分析图——做到和MATLAB一样

a=read.table("C:\\Users\\Administrator\\Desktop\\data.txt",head= T)k<-c(10,20,30,40,50,60,70,80,90,100)matplot(k,a,type ="o",pch=15:18,lty =1,bg = "yellow",lwd=1,xlab = "K-邻居数目" ,ylab = "MAE",font =

2015-08-14 16:51:23 4012

Tableau集成测试

页面集成,生成tableau视图,能够密码登录,完成快速集成。

2018-08-04

Tableau集成C#源码

关于tableau server集成C#页面的源代码,可形成tickets,能够免密码登录。

2018-08-04

thinkcell中文版(文档)

使咨询简单,数据分析师必备!thinkcell

2016-06-20

PLSQLDeveloper.pdf

这本文档针对想学习oracle的非专业人士学习此书非常好理解,是一本极佳的入门参考书!

2015-08-31

R遗传算法.pdf

r中的遗传算法实现案例,便于理解遗传算法。

2015-03-20

R下配置RStudio

R下配置RStudio,关于R的编辑页面。

2014-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除