自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

I think so I am

think bigger, think broader, think deeper

  • 博客(94)
  • 收藏
  • 关注

原创 大数据 | 数据挖掘 | R语言 R绘图Session#2 - Bar Plot

####Bar Plot#There’s an important distinction you should be aware of when making bar graphs: #sometimes the bar heights represent counts of cases in the data set, #and sometimes they represent v

2015-12-08 11:48:23 1539

原创 大数据 | 数据挖掘 | R语言 R绘图Session#1 - 基础

涉及的内容1. 加载文本文件2. 基础绘图1.Scatter2.Line3.Bar4.Histogram5.Box6.Function示例代码####install R packages> install.packages("ggplot2")# or use GUIâu0080u0099s menu#

2015-12-02 11:28:24 1396

转载 UA 简史

http://www.cnblogs.com/georgewing/archive/2010/01/18/1650960.html

2015-05-28 15:49:43 1018

转载 互联网精准广告定向技术

转自:http://www.williamlong.info/archives/3125.html

2015-05-28 14:18:18 1412

原创 互联网广告的度量

PV, Page View:

2015-05-28 13:53:29 1510

转载 http://www.wangluqing.com/

http://www.wangluqing.com/

2015-04-29 14:35:20 962

原创 互联网广告的基本概念

【摘要】简介Ad Network, Ad Exchange, DSP, SSP, Publisher, Advertiser/Agency,AudienceAdvertiser:广告主,指想为自己的品牌或者产品做广告的人。Publisher:媒体,提供广告位置的载体。Ad agency:广告代理商,帮广告主找媒体广告位,帮媒体找广告主。Audience:受众,“消费”广告的人,

2015-04-23 21:28:28 3934

原创 读书笔记 | Targeted (Mike Smith)

IntroductionEverything we get from the Internet we get for free because others pay for it.1. The Congested Online Ecosystem一开始阐述在线广告发展的困难,不仅仅在于技术,人们对在线广告的质疑、对在线广告的认知程度不够。广告业务的本质是把吸引人的广

2015-04-22 17:18:49 833

原创 R语言 | 单元变量的数据可视化方法

Uni-variate data  一元变量的数据分析方法

2015-04-21 14:22:44 1914

转载 R语言 | 数据文件读写

原文地址:http://www.cnblogs.com/emanlee/archive/2012/12/04/2802352.htmlR语言数据储存与读取1 首先用getwd() 获得当前目录,用setwd("C:/data")设定当前目录 2 数据保存创建数据框d>d data.frame(obs = c(1, 2, 3), tre

2015-04-20 23:41:44 7287

原创 R语言 | 数据挖掘中的常用统计分析知识

F检验p值ChiSquare核密度函数

2015-04-20 20:10:57 1627

原创 R语言 | 关联规则

关联规则(AssociationRules)是无监督的机器学习方法,用于知识发现,而非预测。关联规则的学习器(learner)无需事先对训练数据进行打标签,因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估,一般都可以通过肉眼观测结果是否合理。 关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然其他类似于购物篮交易数据的案例也可以应用关联规则进行模式发现。

2015-04-12 22:48:05 99902 33

转载 R语言自定义启动环境

平时做R开发时,每次启动R环境都会要加载很多package,甚是繁琐。最近学习《R in action》时,介绍了自定义R启动环境的方法。windows环境下,R启动时会到R_Home\etc目录下找Rprofile.site文件,其中“R_Home”指的是R安装目录,例如c:\R。可以用notepad等文本编辑器打开c:\R\etc\Rprofile.site,进行修改 

2015-04-12 19:53:05 4512

原创 R语言 | 多元回归分析中的对照编码(contrast coding) | 第二节 deviation coding(偏差编码)

Deviation coding是一种contrast编码方式。因为采用该contrast的回归方程的回归系数之和等于0,又称作sum contrast。Deviation Coding的定义是每个Level的反应变量的均值(Mean_per_Level)与每个Level的反应变量的均值的均值(Grand_Mean)进行对比。参考dummy coding文中的例子。如下

2015-04-10 23:08:34 7952 2

原创 R语言 | 多元回归分析中的对照编码(contrast coding) | 第一节 dummy variable(哑变量) 和 dummy coding

对于一个自变量是Categorical Factor的回归模型,需要为每个Level创建dummy variable。Contrast Matrix把每个Level映射到dummy variable的值。我们来看一个例子来感性认识下dummy variable和contrast matrix。> library(datasets)> str(ChickWeight)Clas

2015-04-10 21:24:39 24427 2

原创 Scala 排序算法的实现

Merge Sort import math.Ordering def mSort[T](a: List[T])(implicit ord: Ordering[T]): List[T] = { def merge(xs: List[T], ys: List[T]): List[T] = (xs, ys) match { case (Nil, ys) =

2015-04-08 11:03:35 1180

原创 R语言-地理信息数据

> data(world.cities)> world.cities[world.cities$country.etc=='China',]> map.cities(country = "China", capitals = 2)

2015-04-07 20:48:18 2633

原创 R语言-RJDBC连接Teradata

第一步:从Teradata官方网站现在JDBC driver第二步:把Driver放在一个目录下(我放在C:\JDBC)第三步:为R按照RJDBC packageinstall.packages("RJDBC")安装成功后,可以键入如下代码进行连接Teradata> library(RJDBC)> jdbc.drv> jdbc.conn

2015-04-07 20:47:23 3467 1

原创 R语言-内存管理

编程方法:通过rm删除变量,gc进行垃圾回收(不建议手动操作)xls()rm(x)gc()

2015-04-07 20:46:31 1245

原创 R语言-数据操作之排序

SQL SELECT x, yFROM table_1ORDER BY x, y DESCRorder(X, na.last=TRUE, decreasing=FALSE)返回值: X排好序的下标向量na.last 控制空值NA排在最前还是最后,默认最后desceasing 控制升序还是降序排列

2015-04-07 20:46:03 29949

原创 R语言-数据操作之选择

SQLSELECT *FROM tableWHERE a BETWEEN 1 AND 100R方法1: 下标选取> A > A[1] 10 20 30 40 50 60 70 80 90> A[2][1] 20> A[2:4][1] 20 30 40> A[c(1,3,5)][1] 10 30 50> A[

2015-04-07 20:44:35 11110

原创 R语言的中文支持

Sys.setlocale(,"CHS")

2015-04-07 20:43:53 5625 1

原创 [ Hadoop | Spark | Scala ] 搭建 Scoobi 开发环境

Scoobi: An open source Scala library for Hadoop MapReduce. It combines the simplicity of functional programming with the strength of distributed data processing powered by Hadoop. It can dramatica

2015-04-01 11:11:21 1231

原创 [Spark | Yarn | Hadoop] Spark Submit over Yarn

I use pre built package of spark 1.0.2 for Hadoop 2.4.1edit conf/spark-env.shexport HADOOP_CONF_DIR="/apache/hadoop/conf"export YARN_CONF_DIR="/apache/hadoop/conf"export SPARK_LIBRARY_PATH="/a

2015-04-01 11:11:16 587

原创 [ Hadoop | MapReduce ] 使用 CompositeInputSplit 来提高Join效率

Map side join is the most efficient way. On Hadoop, between two large datasets, we can utilizeComposite Join to achieve this goal.

2015-04-01 11:09:12 915

翻译 DW Performance Notes

第一章1.1 性能度量查询的响应时间查询提交到返回第一行数据的时间查询提交到最后一行数据的时间我的理解:响应时间是一个直观的用户体验。本质上是查询所消耗的CPU 时间,IO开销,PE效率(并行系统)1.2 生产效率响应时间快对用户的生产效率有很大的帮助。更加及时知道业务的变化。

2011-07-19 14:58:32 787

原创 SEO Notes

Search 算法分类1. on site / on page, 主要关注一个页面上的keyword和meta tag信息。2. whole site         , 关注整个站点上所有页面之间的关系,比如站点页面之间的架构、anchor text、页面之间怎么串联在一起3. off site              ,关注incoming links,即外部站点上可以访问你

2011-06-15 21:21:00 381

原创 DW Design

1. 数据类型 如果某PK是很多表的FK,也就是说该表是很多表的父表,那么在设计这种顶层的表的时候,一般要考虑到将来的变更可能带来的问题,所以一般在设计这种表的时候要尽量放宽标准,比如列长要宽、约束要小等等 2. ETL process flow 应当按照数据源(source host)进行归类,而不应该按照DW的主题表进行归类。 EX LD TR应当放在一个大的container下面(按照 source host) 3. Surrogate Key Surrogate K

2011-05-19 10:21:00 634

原创 PET and Prod

今天发生件有意思的事情我的客户adri在做财务报表的时候跳出来很不高兴的说:“冠军,上周三你说这个数据已经没有问题了,现在这个周一怎么问题还是出现,我感到有点不爽”。其实我也感到有点不爽,上周三我是校验过数据的,都是没有问题才发邮件告诉他现在没问题了。况且,我发信告诉他数据应该好了,他也应当作出适当的测试验证,可是他没有,这就导致最后出财务报表的时候大家都不爽。我不是想规避责任,在仔细校验了程序后也发现了另外一个bug,虽然和他说的那个问题没有多少关系。我这里想说的是,任何生产系统上运行的正规报表必须运行在

2011-05-17 20:56:00 623

原创 tables in database

<br />ORACLE:<br /><br />selecttable_name from all_tables where owner='USER'<br /> <br />MYSQL:<br />show tables in 'databasename';<br /> <br /><br />

2011-03-14 14:35:00 627

原创 scp by SAS

<br />options nocenter missing = ' ' mprint mlogic symbolgen;<br /><br /><br />/**************************************/<br />/* Execute scp over macro values      */<br />/**************************************/<br />%macro scp;<br /><br /> %do i

2011-03-14 14:32:00 569

原创 data reconciliation/verification TBC

<br />1. 通过(group by字段组合)来查看这些组合(字段映射如group by A, B, C可能蕴含A=f(B,C))的逻辑关系是否正确,同时计算每个组合的count.<br />eg.<br /> <br /><br />SELECTb.USER_STAMP_NAME, a.SLR_SGMNT, COUNT(*)cnt<br />FROMMP_SLR_SGMNT_HSTa<br />JOINMP_SLR_STAMP_HSTb<br />ONa.MONTH_BEG

2011-03-11 13:38:00 459

原创 2011

<br />研究DW原理性的东西,做一个元数据管理系统<br />认证是重点

2011-02-13 22:38:00 381

原创 unix 发 email

cat $ZIP_NAME.tmp |mailx -s "$EMAIL_SUBJECT" $EMAIL_GROUP $ADD_EMAIL$ZIP_NAME.tmp attachment"$EMAIL_SUBJECT" 主题$EMAIL_GROUP 主接收人$ADD_EMAIL 其他接收人

2011-01-19 10:30:00 855

转载 Customer lifetime value

<br />In marketing, customer lifetime value (CLV), lifetime customer value (LCV), or lifetime value (LTV) is the net present value of the cash flows attributed to the relationship with a customer. The use of customer lifetime value as a marketi

2011-01-18 14:25:00 1571

原创 Unix 时区

<br /><br />OLDTZ=$TZ<br />export TZ=GMT;echo "GMT: `date +/"%F %R (%Z)/"`"<br />GMT:2008-10-31 12:30 (GMT)<br />exportTZ=Europe/Stockholm; echo "Stockholm: `date +/"%F %R(%Z)/"`"<br />Stockholm:   2008-10-31 13:30 (CET)<br />exportTZ=Asia/Kual

2010-12-15 11:16:00 732

原创 做人原则

今天顿悟:做人要有自己的行事原则,这些原则作为你行为处事的判断的逻辑方法和标准,做任何事情,一定要恪守这些自己的原则和方法,即使这些原则和方法最终导致了行事结果是错误的。我很多时候碰到一些事情不知所措,在不同的心情下,可能会有不同的行为方式,我觉得这是不对的,应当抛出感性,每个事情依据原则应当得出一致的结论和行事方法。就事论事+原则哲学从今天开始记录一些自己的原则:1. 大道至简任何问题都应该有简单直白的解决方法。即使所谓复杂,分步骤也应该是非常直接明了的。没有必要把一件事情搞得很复杂。

2010-11-21 23:18:00 488

原创 Oracle 学习 Day3 - Oracle 文件

文件类型本节重点讨论如下文件与Instance相关的文件:Parameter FileTrace FileAlert File与Database相关的文件:Data FileTemp FileControl FileRedo log filePassword File快速备份与恢复相关的文件:Change-tracking FileFlashback log FileDump FileData Dump FileFlat FileParameter File主要讨论init.ora 和 spfile.ora

2010-11-14 23:01:00 712

原创 Oracle 常用查询

1. 如何查看当前Instance的参数设置方法1. 用 SHOW PARAMETER 命令show parameter db_block_sizeshow parameter 参数名参数名可以是前半部分,因为Oracle会自动加通配符%到参数名的后面,所以 参数名=%参数%。show parameter db_block_s 等价于 show parameter db_block_size方法2. 通过视图 V$PARAMETERSQL> select value  2  from v$paramet

2010-11-14 23:00:00 410

转载 "设计不足"与"过度设计"

<br /><br />什么是设计不足(under-engineering)?设计出来的系统复用性差,扩展性不强,不能灵活的应对变化,简言之,设计没到位。设计不足,多半是因为经验有限,设计能力有限。<br />什么是过度设计(over-engineering)?设 计出来的系统比恰到好处要复杂臃肿的多,过度的封装、一堆继承、接口和无用的方法,超复杂的xml配置文件,简言之,客户需求是要一把杀鸡的刀,你给设计了一把牛刀(杀鸡用牛刀)。过度设计,多半是因为有设计的癖好,喜欢炫耀或玩弄无谓的技巧,或是喜欢把简

2010-11-12 09:37:00 6772

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除