小神left-CSDN博客

转载离群值

一：什么是OutliersOutliers是统计学专业术语，是指相比一组数据中的其它数据的极限值二：极限值意味什么 1. 决定哪些值是Outliers是一个主观行为，有一些基准数据来决定是否一个值是一个Outliers，这些基准是任意选择的，比如P2. 一个基准是用BoxPlot来决定适度离群值（mild Outliers）和极限离群值（extreme Outliers），适

2013-11-14 11:37:03 7344

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order byorder by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的

2013-11-06 10:52:21 617

转载 hive join 大全

hive(0.9.0)：1.支持equality joins, outer joins, and left semi joins2.只支持等值条件3.支持多表join原理hive执行引擎会将HQL“翻译”成为map-reduce任务，如果多张表使用同一列做join则将被翻译成一个reduce，否则将被翻译成多个map-reduce任务。eg：SELECT a.val

2013-10-18 15:32:01 721

转载 HIVE 中内连接(JOIN ON)与LEFT SEMI JOIN查询结果不一致的分析

由于HIVE中都是等值连接，在JOIN使用的时候，有两种写法在理论上是可以达到相同的效果的，但是由于实际情况的不一样，子表中数据的差异导致结果也不太一样。写法一：Java代码 select a.bucket_id, a.search_type, a.level1, a.n

2013-10-15 11:18:07 1054

转载数据挖掘SPSS Clementine 12.0.3

由于网上大量链接失效，再次分享网盘链接，内涵“SPSS.Clementine.v12.0镜像”、“12.0.3补丁”。下载地址：http://pan.baidu.com/share/link?shareid=43789&uk=28021157221. 用虚拟光驱装载“[统计数据挖掘工具].TLF-SOFT-SPSS_Clementine_v12.0-CYGiSO.bin”安装SPSS

2013-08-21 10:16:12 2269

转载 Hive基本命令整理

创建表：hive> CREATE TABLE pokes (foo INT, barSTRING); Creates a table called pokes with two columns, the first being aninteger and the other a string创建一个新表，结构与其他一样hive> create table new_tab

2013-08-20 10:03:32 646

因为，后天要参加中国电信集团的一个EDA论坛，要仔细准备发言稿！在交流的过程中，发现大家都对预测问题非常关注，尤其是数据挖掘领域，有时候分类问题与预测问题在表达上区分不开，有时候分类就是预测，比如通过判别分析、C5.0规则或Logistics回归进行监督类建模，得到的结论说该客户是什么类别等级，似乎也可以说是预测；当然，如果能够预测该消费者什么时候流失，也就是进行了分类；这样说吧，其实有时候并不需

2013-08-15 17:12:34 6412

原创时间序列分析

一个平稳的时间序列在水平方向平稳发展，在垂直方向的波动性保持稳定，非平稳性的表现形式多种多样，主要特征有：趋势性、异方差性、波动性、周期性、季节性、以及这些特征的交错混杂等。自相关函数图和偏自相关函数图（ACF＆PACF）所谓自相关是指序列与其自身经过某些阶数滞后形成的序列之间存在某种程度的相关性。对自相关的测度往往采用自协方差函数和自相关函数。偏自相关函数是在其

2013-08-15 17:05:23 3965

转载 Excel常用函数大全

我们在使用Excel制作表格整理数据的时候，常常要用到它的函数功能来自动统计处理表格中的数据。这里整理了Excel中使用频率最高的函数的功能、使用方法，以及这些函数在实际应用中的实例剖析，并配有详细的介绍。 1、ABS函数　　函数名称：ABS主要功能：求出相应数字的绝对值。使用格式：ABS(number) 　　参数说明：number代表需要求绝对值的数值或引用的单元格

2013-08-15 09:56:05 710

转载 hive修改表/分区语句

添加分区ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例ALTER TABLE table_name ADD IF NOT EXISTS PARTITION (dt='20130101') LOCATION '/user/hadoop/warehouse/table_nam

2013-08-14 09:47:34 849

转载 Ljung-Box q 统计量

用于检验某个时间段内的一系列观测值是不是随机的独立观测值。如果观测值并非彼此独立，一个观测值可能会在 k 个时间单位后与另一个观测值相关，形成一种称为自相关的关系。自相关可以削减基于时间的预测模型（例如时间序列图）的准确性，并导致数据的错误解释。例如，一家电子公司对电池的月销售量跟踪记录五年。他们想使用这些数据来设计一个时间序列模型以帮助预测未来的销售。但是，月销售额可能会受到季节趋势的影响。

2013-08-12 17:32:30 27850

转载 ARPU

ARPU值 (每用户平均收入,Average Revenue Per User)[编辑]什么是ARPU　　所谓ARPU就是每用户平均收入(ARPU-Average Revenue Per User)。　　ARPU注重的是一个时间段内运营商从每个用户所得到的利润。很明显，高端的用户越多，ARPU越高。在这个时间段，从运营商的运营情况来看，ARPU值高说明利润高，这段时间效益好。

2013-08-09 10:27:28 883

转载社交游戏的鲸鱼理论【信息图】

如果你的游戏中没有鲸鱼玩家，那么失败是在所难免的。”木瓜移动和 36 氪分享一张信息图，分析了社交游戏中的鲸鱼理论。木瓜移动将在他们平台上消费大于 100 美元的用户定义为“鲸”。这类型的用户只占所有付费用户的得 4%，却为他们贡献了超过 60% 的收入。并且经他们研究发现，“鲸”发布和更新自己的状态的次数是平均付费用户的 6 倍，而且催生了社交互动。最后他们得出的结论是：如果你的游戏没有

2013-08-08 13:50:04 1118

转载游戏行业几种计算方式

【计算方式】　　付费率=付费用户÷活跃用户x100。　　活跃率=登陆人次÷平均在线人数。　　ARPU值=收入÷付费用户。　　用户流失率=游戏当前活跃用户规模÷历史注册总量。　　同时在线峰值=24小时内同时在线最高达到人数。　　平均在线=24小时每小时同时在线相加总和÷24小时。　　付费人数一般是在线人数2～4倍。　　活跃用户=？（计算方式望看者能提供）。　　中国

2013-08-07 17:32:58 1181

转载 13个要重点关注的数据指标

1.流失[Churn]每个月离开游戏的用户量，有时候也选择用每周来衡量。举个例子，比如一款游戏在月初有100人在游戏，其中70个人在那个月结束后仍旧留在游戏中，那么我们就说流失率为30%，因为那个月中30个人从最初的100人中离开了游戏。流失率也被用来分析一个玩家离开游戏的可能性。比如，一个游戏100个用户，其中30%的用户离开[30%流失率]。那么就意味着离开的可能性为30%，同样换个角

2013-08-07 16:05:45 1308

转载 sed

1. Sed简介sed是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。以下介绍

2013-08-05 15:25:06 438

转载 shell常用命令

一、mkdir命令1、用途：创建目录2、参数：（1）、-p ：如果路径中的某些目录不存在，则会自动创建目录，默认的mode由执行环境中的umask决定，即mode = 0777 - umask;无参数则路径中的目录不存在则将无法创建（2）、-m ：指定目录的权限;3、例子：示例一[root@jfht ~]# umask0022[root@jfh

2013-08-05 14:46:07 666

转载 Hadoop FS Shell命令

FS Shell调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FSshell命令使用URI路径作为参数。URI格式是scheme://authority/path 。对HDFS文件系统，scheme是hdfs ，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。

2013-07-31 10:16:19 447

转载 spearman 相关系数

测量相关程度的相关系数很多，各种参数的计算方法及特点各异。一般用积差相关系数，又称pearson相关系数来表示其相关性的大小，积差相关系数只适用于两变量呈线性相关时。其数值介于-1~1之间，当两变量相关性达到最大，散点呈一条直线时取值为-1或1，正负号表明了相关的方向，如果两变量完全无关，则取值为零。作为参数方法，积差相关分析有一定的适用条件，当数

2013-07-26 10:42:04 2371

转载回归分析

•线性回归分析的内容能否找到一个线性组合来说明一组自变量和因变量的关系如果能的话，这种关系的强度有多大，也就是利用自变量的线性组合来预测因变量的能力有多强整体解释能力是否具有统计上的显著性意义在整体解释能力显著的情况下，哪些自变量有显著意义•回归分析的一般步骤确定回归方程中的解释变量（自变量）和被解释变量（因变量）确定回归方程对回归方程进行各种检验利用回归方

2013-07-25 15:03:59 8336

转载 T检验和F检验\自由度

1,T检验和F检验的由来一般而言，为了确定从样本(sample)统计结果推论至总体时所犯错的概率，我们会利用统计学家所开发的一些统计方法，进行统计检定。通过把所得到的统计检定值，与统计学家建立了一些随机变量的概率分布(probabilitydistribution)进行比较，我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现，出现这结果的机率很少，亦即是说，是在机会

2013-07-25 10:38:16 21527

转载 oracle删除重复行

查询及删除重复记录的SQL语句1、查找表中多余的重复记录，重复记录是根据单个字段（peopleId）来判断select * from peoplewhere peopleId in (select peopleId from people group by peopleId having count(peopleId) > 1)2、删除表中多余的重复记录，重复记录是根据

2013-07-24 12:29:53 631

转载希腊字母读音及科学方面应用

大写小写英文读音国际音标意义Ααalpha/ˈælfə/角度，系数，角加速度Ββbeta/'beitə/磁通系数，角度，系数Γγgamma/'g&a

2013-07-23 17:18:18 1005

转载方差分析

单因素单因素方差分析：（一）单因素方差分析概念理解步骤是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里，由于仅研究单个因素对观测变量的影响，因此称为单因素方差分析。例如，分析不同施肥量是否给农作物产量带来显著影响，考察地区差异是否影响妇女的生育率，研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。单因素方差分析的第一步是明确观测变量和控制

2013-07-23 09:21:04 6067

转载常用的数据标准化方法

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。　　其中最典型的就是0-1标准化和Z标准化：1、0-1标准化(0-1normalization)　　也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换

2013-07-19 08:49:40 951

原创如何在SPSS中做数据正态转化

严格说来，回答你的问题需要讲四个W：What's normal transformation?（什么是正态转换）Why do we need normal transformation?（为何做正态转换）When is normal transformation needed? （何时做正态转化）How can we do normal transformation?（如何做正态转化）

2013-07-18 17:38:53 8002 1

转载数据挖掘之处理分类自变量与处理时间变量

某些数据挖掘方法能够直接处理分类自变量，譬如第八章将介绍的决策树；但很多数据挖掘方法都只能处理数值自变量，如线性回归、神经网络等，使用这些方法时就需要把分类自变量转换为数值自变量。对于定序自变量，最常用的一种转换是按各类别的序号直接将该变量转换为数值自变量。对于名义自变量，最常用的转换是将该变量转换为哑变量。例如，对于性别而言，可以生成一个二元哑变量，取值1表示“女”，0表示“男”。对于有

2013-07-18 14:51:40 1368

转载权重确定方法之主成分分析法

什么是权重呢？所谓权重，是指某指标在整体评价中的相对重要程度。权重越大则该指标的重要性越高，对整体的影响就越高。权重要满足两个条件：每个指标的权重在0、1之间。所有指标的权重和为1。权重的确定方法有很多，这里我们学习用主成分分析确定权重。一、主成分基本思想：图1 主成分基本思想的问与答二、利用主成分确定权重如何利用主成分分析法确定指标权重

2013-07-17 10:04:40 13883 1

转载数据的正态性检验汇总

一、图示法1、P-P图以样本的累计频率作为横坐标，以安装正态分布计算的相应累计概率作为纵坐标，把样本值表现为直角坐标系中的散点。如果资料服从整体分布，则样本点应围绕第一象限的对角线分布。2、Q-Q图以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为指教坐标系的散点。如果资料服从正态分布，则样本点应该呈一条围绕第一象限对角线的直线。

2013-07-17 10:02:51 12835

转载统计学汇总备忘

随机变量的数学期望在概率论和统计学中，一个离散性随机变量的期望值（或数学期望、或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。换句话说，期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。需要注意的是，期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。（换句话说，期望值是该变量输出值的平均数。期望值并不一定

2013-07-11 10:34:15 869

转载品牌影响力评估方法探讨

近期，聚划算在各类媒体上投放了大量广告，迅速传播了聚划算的品牌形象，在非淘宝用户中培养了品牌认知，同时也在淘宝用户中巩固了品牌理解，从而对聚划算提升品牌价值起到积极作用。在投放广告前，用研团队Q3时曾对聚划算的品牌影响力进行了考察，着重于六个主要指标：——熟悉度：用户知道并且了解该品牌的程度，反映市场的表现和地位——流行度：流行的/大众接受的品牌，反映市场的表现和地位——相关性：品

2013-07-09 17:19:11 1081

转载利用选择题进行信息关注度研究案例解析

如果我们想知道浏览某个页面的用户到底在看些什么？一般往有如下几种方法：1.查看点击流数据，如CTR（Click through rate，点击转化率/点选率）、点击热图（Heat Map，可用于测试不同的布局方式、配色方案等对整体效果造成的影响）；2.眼动测试，可得到用户的注视轨迹、某一区块的注视时间、注视点个数、回扫次数，及注视热图等。3.用户访谈和用户测试，定性了解用户的浏览行为及其背后的原因

2013-07-09 17:12:43 819

转载 python format string (转)

在python中也有类似于c中的printf()的格式输出标记。在python中格式化输出字符串使用的是%运算符，通用的形式为格式标记字符串 % 要输出的值组其中，左边部分的”格式标记字符串“可以完全和c中的一致。右边的'值组'如果有两个及以上的值则需要用小括号括起来，中间用短号隔开。重点来看左边的部分。左边部分的最简单形式为：%cdoe 其中的code有多种，

2013-07-09 13:43:42 605

转载 python调用Shell脚本：os.system(cmd)或os.popen(cmd)

python调用Shell脚本，有两种方法：os.system(cmd)或os.popen(cmd),前者返回值是脚本的退出状态码，后者的返回值是脚本执行过程中的输出内容。实际使用时视需求情况而选择。现假定有一个shell脚本test.sh：#!/bin/bash1. echo "hello world!"2. exit 3os.system(cmd):该方法在调用完sh

2013-07-09 13:42:54 666

转载 hive bucket

hive中table可以拆分成partition，table和partition可以通过‘CLUSTERED BY ’进一步分bucket，bucket中的数据可以通过‘SORT BY’排序。bucket主要作用：1. 数据sampling2. 提升某些查询操作效率，例如mapside join需要特别注意的是：clustered by和sorted by不会影响数据的导入，这意味

2013-07-09 13:41:57 665

转载 Python正则表达式指南

1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。如果已经在其他语言里使用

2013-07-04 10:56:41 426

转载 hive 不等值

1）用MAPJOIN解决：1: 有一个极小的表2: 需要做不等值join操作（a.x 这种操作如果直接使用join的话语法不支持不等于操作，hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积，数据异常增大，速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理，MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数

2013-07-03 16:35:51 1664

转载 hive中的udf时间函数用法

1 from_unixtime函数用法为将时间戳转换为时间格式语法: from_unixtime(bigint unixtime[, string format]) 返回值为string例如 hive>select from_unixtime(1326988805,'yyyyMMddHH') from test;如果为字段转换的话，则为 select from_unix

2013-06-27 09:21:50 886

转载 Hive性能调校

本报告主要就如何提高Hive执行的总体性能进行了调研，下面以分条的形式列举出来。 1. 设置hive.map.aggr=true，提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。缺点：该设置会消耗更多的内存。注：顶层的聚合操作（top-level aggregation oper

2013-06-26 15:01:08 1107

转载 Hive命令行参数

$HIVE_HOME/bin/hive是一个shell工具，它可以用来运行于交互或批处理方式配置单元查询。语法：Usage: hive [-hiveconf x=y]*[]* [|] [-S]-i： Initialization Sql fromfile (executed automatically and silently before any othercommands)-e

2013-06-25 17:17:58 2006

空空如也

空空如也