自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 资源 (3)
  • 收藏
  • 关注

转载 HDFS dfsclient写文件过程 源码分析

HDFS写入文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在写入一个block的时候,数据传输的基本单位是pac

2013-09-16 10:28:27 1049

转载 HDFS dfsclient读文件过程 源码分析

HDFS读取文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候,数据传输的基本单位是packet,

2013-09-16 10:25:57 1053

转载 HDFS datanode源码分析

datanode的介绍一个典型的HDFS系统包括一个NameNode和多个DataNode。DataNode是hdfs文件系统中真正存储数据的节点。每个DataNode周期性和唯一的NameNode通信,还时不时和hdfs客户端代码以及其他datanode通信。 datanode维护一个重要的表:  块=>字节流这些存储在本地磁盘,DataNode在

2013-09-16 10:21:31 1256

转载 HDFS namenode源码分析

Namenode的介绍一个典型的HDFS系统包括一个NameNode和多个DataNode。NameNode作为HDFS中文件目录和文件分配的管理者,它保存的最重要信息,就是下面两个映射:文件名=>数据块数据块=>DataNode列表其中,文件名=>数据块保存在磁盘上(持久化);但NameNode上不保存数据块=>DataNode列表,该列表是通过Dat

2013-09-16 10:18:53 1911

转载 HDFS的基本概念

HDFS的基本概念1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。2、元数据节点(Namenode)

2013-09-16 10:15:21 993

转载 谁在使用我的网站——用户忠诚和价值分析

谁在使用我的网站——用户忠诚和价值分析前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值,而且可以为网

2013-08-22 14:36:17 850

转载 C#通过sp端口发送短信

using System;using System.Data;using System.Configuration;using System.Web;using System.Web.Security;using System.Web.UI;using System.Web.UI.WebControls;using System.Web.UI

2013-04-08 17:21:32 1001

转载 数据挖掘解决精准营销的三大问题

1 我们这次营销的对象是谁?聚类分析、异常分析、RFM分析、决策树、神经网络、 logistics ; 2 如何营销?关联分析、序列分析 ;3 什么时间营销? 生命周期挖掘、时间序列、回归分析。4、如何评估,T、卡方检验,对比分析,环比同比。

2012-12-27 10:25:59 1422 1

转载 使用R处理大数据集

本文翻译自R in Action的附录G,如果对该书感兴趣,请自行购买或去图书馆阅读。R会把所有的对象读存入虚拟内存中。对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误。内存限制主要取决于R的build版(32位还是64位),而在32位的windows下,取决于操作系统的版本。以cannot alloca

2012-12-06 15:02:53 7336 1

转载 名词解释CPC、CPM、CPA...

1.CPC(CostPerClick;CostPerThousandClick-Through)每点击成本  以每点击一次计费。这样的方法加上点击率限制可以加强作弊的难度,而且是宣传网站站点的最优方式。但是,此类方法就有不少经营广告的网站觉得不公平,比如,虽然浏览者没有点击,但是他已经看到了广告,对于这些看到广告却没有点击的流量来说,网站成了白忙活。2.CPM(CostPerMille

2012-11-01 10:14:40 3635

转载 各大牛逼网站推荐系统

1. 前言随着互联网技术和社会化网络的发展,每天有大量包括博客,图片,视频,微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求,原因有多种,可能是用户很难用合适的关键词来描述自己的需求,也可能用户需要更加符合他们兴趣和喜好的结果,又或是用户无法对自己未知而又可能感兴趣的信息做出描述。推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。个

2012-09-20 11:03:42 10217 1

转载 推荐系统架构小结

一、HULU的推荐系统总结:葫芦的推荐系统,至少在他blog中写的比较简单。更多的是对推荐系统在线部分的一种描述,离线部分我猜想也是通过分布式计算或者不同的计算方式将算法产生的数据存储进入一种介质中,供推荐系统在线部分调用。系统的整个流程是这样的,首先获取用户的行为,包括(watch、subscribe、vote),这样行为会到后台获取show-show对应的推荐数据。同时这些行为

2012-09-19 16:22:28 16506 5

转载 准确度量 持续改进—网站分析驱动目标达成

1 为什么要对网站进行分析? 首先是第一部分,我们为什么要对网站进行分析?网站分析并不是所有网站的标准配置,很多网站都没有做这个工作,他们也运营的很好。那么我们为什么需要网站分析呢?在回答这些问题之前,我先要反问一个问题,你的网站为什么存在?如果你不了解网站存在的目的,那么网站分析对于你来说也就没有任何的价值。毕竟网站分析不是街头算命,可以未卜先知。我们需要明确的网站目标!通常情况下,

2012-09-04 16:45:02 1305

转载 SQL Server查询优化50法

虽然查询速度慢的原因很多,但是如果通过一定的优化,也可以使查询问题得到一定程度的解决。  查询速度慢的原因很多,常见如下几种:没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)I/O吞吐量小,形成了瓶颈效应。没有创建计算列导致查询不优化。内存不足网络速度慢查询出的数据量过大(可以采用多次查询,其他的方法降低数据量)锁或者死锁(这也是查询慢最常见的问题,是程序设计的缺陷

2012-08-03 16:12:29 920

转载 数据分析预处理的方法——SPSS、Clementine如何处理缺失值、离群值、极值?

【一】什么是预处理、预分析? 高质量数据是数据分析的前提和分析结论可靠性的保障。尽管在获取数据源时数据分析师格外谨慎,耗费大量的时间,但数据质量仍然需持续关注。不管是一手还是二手数据源,总是会存在一些质量问题。同时,为了满足数据分析、挖掘的实际需要,对噪声数据如何处理,是丢弃还是补充,或者重新计算新的数据变量,这些不是随意决定的,这就是数据预处理的一个过程,是在数据分析、挖掘开始前

2012-07-31 14:48:23 28368 4

转载 SQL2005/2008中的CTE应用--递归查询

微软从SQl2005起引入了CTE(Common Table Expression)以强化T-SQL。这是一个类似于非持久视图的好东东。按照MSDN介绍1、公用表表达式 (CTE) 可以认为是在单个 SELECT、INSERT、UPDATE、DELETE 或 CREATE VIEW 语句的执行范围内定义的临时结果集。CTE 与派生表类似,具体表现在不存储为对象,并且只在查询期间有效

2012-07-26 13:54:40 953

转载 SQL Server 2008中新增的变更数据捕获(CDC)和更改跟踪

SQL Server 2008中SQL应用系列--目录索引  本文主要介绍SQL Server中记录数据变更的四个方法:触发器、Output子句、变更数据捕获(Change Data Capture 即CDC)功能、同步更改跟踪。其中后两个为SQL Server 2008所新增。一、触发器  在SQL Server的早期版本中,如果要记录某个表或视图的Insert/Up

2012-07-06 10:47:20 2526

转载 SSAS使用时间智能解决本年累计、同比、环比

通常,我们需要使用MDX来定义本年累计、同比、环比等一系列基于时间维度的计算指标。但是这样有一个麻烦的地方就是比如我有50个基础指标,每个指标都需要本年累计,那我就需要写50遍下面的语句:create member CURRENTCUBE.[MEASURES].[本年累计交易金额] assum(periodsToDate([日期].[日期层次结构].[年],[个贷].[日期].[日期层次结

2012-07-05 17:29:11 2951

转载 SSAS发布到IIS

上一章我们介绍了一个简单的多维数据集模型的建立,他可以发布到本机的AS服务中,并在本机用SQL客户端连接,但是还不能供其他机器访问。本章我们介绍如何通过web服务来把分析服务发布到网络中,来供其他客户端联机分析,这些客户端包括SQLServer、ADOMD.NET组件和Excel等工具。      分析服务器上需要安装IIS,我这里是6.0,下面是整个配置过程。

2012-07-05 17:13:57 3342

转载 [SQL2005 BI] 数据级权限解决方案

BI数据分析是目前企业的热门应用,而对企业来说,权限控制是非常重要的,尤其是作为决策用的企业报表。目前基于微软SQL Server体系的BI架构为Integration Services + Analysis Service + Reporting Services,Integration Services和Analysis都属于应用后台的服务,不会在用户前端展现,其权限控制体系不在我们这篇文章的

2012-06-26 11:02:28 3663

原创 SQL Server 2008R2部署程序集时"Clr 程序集必须具有指定的主文件"的处理方法

在使用 Microsoft SQL Server 管理  将程序集部署到 Microsoft SQL Server 2008R2 Analysis Services 实例时,出现以下错误消息:必须为 Clr 程序集指定主文件。 (Microsoft.AnalysisServices)------------------------------程序位置:   在 Micros

2012-06-26 10:23:00 1800

转载 MDX中的Where vs. Subselect/Subcube

Where和Subselect/Subcube在MDX都是经常使用的语句,有的时候它们能起到相同的效果,而有的时候却又不能,这究竟是什么原因呢?本文将尝试就这些情况作一些分析(不对之处,欢迎大家及时指出)。以下MDX语句可以在SSAS(打了SP2补丁的版本)的示例库:Adventure Works中运行。 相同和不同Where和Subselect/Subcube都能够限定计算的范围

2012-05-31 17:30:15 1841

转载 通用数据级权限控制解决方案的实现(二):Cube中的角色设置与数据级权限控制

上一篇文章说了如何写一个控制数据级权限的DLL,并且放到Cube中去。那么这个DLL放到Cube里了,怎么让他起作用呢?这就是我们这节要讲述的内容了。用一句话概括说,在Analysis Services中,我们是通过控制角色的维度数据,来让上一节的DLL起作用的。那么具体如果操作呢?首先我们先建立一个角色,角色名字是无所谓的,在这里我们将之称为DataSecurity。如下图所示:

2012-05-29 10:12:38 2185 1

转载 通用数据级权限控制解决方案的实现(一):Cube中的自定义DLL

BI数据分析是目前企业的热门应用,而对企业来说,进行权限控制是必须而且非常重要的,尤其是作为决策用的企业报表。在BI解决方案中,权限控制又分为2种:一种是报表级权限控制,这类型权限控制没有什么好讲的,报表系统都本身就支持了。另一种比较复杂的就是数据级权限控制,所谓的数据级权限控制,就是用户只能看自己权限范围内的数据以及这些数据的统计结果。比如一个大型公司的华南区销售主管就不能看到华北区的销售数据和

2012-05-29 10:11:53 2938

转载 C#通过AMO对象模型浏览SQL SERVER 2005 SSAS角色一例

用过SSAS的朋友都使用Visual Studio Business Intelligence Development Studio(BIDS)去创建以及管理所创建的Cube。但是如果只是想查看Cube下的某个角色包含的用户以及权限,我们只能一遍遍的打开BIDS,忍受它的慢动作。更有甚者,如果要比较两个Cube下所有角色及用户是否一致,手工操作更是会让人头大。现在,利用Microsoft提供的

2012-05-29 09:49:26 995

转载 Project REAL 分析服务技术探讨

概述这份白皮书提供了一个关于分析服务(Analysis Services)设计和在Project REAL中的最佳实践的技术讨论。它深入的讨论了每一类对象的细节,例如数据源、数据源视图、维度、层次、属性、度量组、分割表等等。并指出如何在关系型数据库分割表的基础上创建一个能自动创建度量组分割表的SQL Server 2005集成服务程序包。内容目录关于Project Real绪论

2012-05-23 17:33:35 2334

转载 项目经理面试

准备面试的方法   书、杂志、组织和研讨会   本文的参考目录中列出了许多能得到有效的管理实践信息的地方。去寻找管理方面的书籍,包括技术管理和商业管理两个方面。阅读管理大师,例如:Peter Drucker,C. A. Gallagher和A. Maslow写的书和文章。他们提供了在任何领域都使用的管理知识。信息管理大师例如:Tom DeMarco, M. Page-Jones, Ed

2012-04-20 11:16:25 1157

转载 MDX语法学习(一)filter与iif的使用

MDX语法学习(一)filter与iif的使用标签: MDX sqlserver filter iif 维度当我们建好立方体之后,就可以使用MDX语法大展拳脚,下面我们以一个简单的例子逐步展开先介绍一下我们的立方体,通过这个例子来学习filter与iif的使用。 我们首先谈需求 需求一:得到2009年5月,产品BM00000001的各城市年累计处方量需求分析:

2012-04-18 14:55:27 2295

转载 SSIS学习之数据挖掘

12.1  SSIS介绍SSIS首先是在1997年的SQL Server 7.0中引入的,当时它的名称为数据转换服务(DTS)。SSIS属于ETL产品家族,ETL代表提取(Extraction)、转换(Transformation)和加载(Loading)。现在,越来越多的企业都有数据仓库。ETL是将来自OLTP数据库的数据定期加载到数据仓库中必不可少的工具。在SQL Server的前两个

2012-03-02 15:25:40 3439

转载 如何从优化SQL入手提高数据仓库的ETL效率

1        引言      数据仓库建设中的ETL(Extract, Transform, Load)是数据抽取、转换和装载到模型的过程,整个过程基本是通过控制用SQL语句编写的存储过程和函数的方式来实现对数据的直接操作,SQL语句的效率将直接影响到数据仓库后台的性能。目前,国内的大中型企业基本都具有四年以上计算机信息系统应用经验,积累了大量可分析的业务数据,这些信息系统中的数据

2012-03-02 15:17:27 772

转载 SSAS 设计最佳实践

Data Source Design Best Practices / 数据源设计最佳实践Do use only supported OLEDB providers in a Data Source 在数据源中仅仅使用被支持的OLEDB提供程序。Analysis Service在设计和测试的时候都是以特定的OLE DB提供程序作为基准的。虽然其他的OLE DB提供程序也可以

2012-03-02 15:10:31 3176

转载 Analysis Services 查询性能十大最佳实践

Analysis Services 查询性能十大最佳实践作者:Carl Rabeler在针对 SQL Server 2005 Analysis Services 实例进行 MDX 查询时,要想获得最佳性能,关键要做到以下几点:合理的多维数据集设计、有效的多维表达式 (MDX) 以及充足的硬件资源。本文列出了 Microsoft SQL Server 开发小组推荐的十个最常用、最有效的

2012-03-02 15:08:50 1263

转载 用 MDX 创建时间命名集总结 SSAS

用 MDX 创建时间命名集总结 SSAS在数据分析中,大多数分析都和时间有关。时间条件经常是反复使用的,如昨天、上周、最近三个月等等。为了便于快速地进行时间筛选,可以在多维分析模型中,创建一个时间命名集。 创建时间命名集的首要问题是确定当前时间。一种方法是判断度量值的非空见下面的语句,通过 Not IsEmpty 进行判断。最后一个有度量值的定为昨天

2012-03-02 14:44:15 2106

转载 Analysis Services中的命名集(Named Sets)

命名集是SSAS中非常有用的一个元素,和Calculated Members(计算成员)一样能够简化我们的很多工作并且之间还有些许的联系。那么什么是Named Sets呢,简单的说就是分配了名字的成员和元组集。我们通过定义Named Sets来使得用户更方便的构建自己的查询,并帮助开发人员编写具有高可读性的代码。Regular Named Sets让我们通过例子来看看如

2012-03-02 14:31:39 1100

转载 SSAS中命名集(SET)的使用

之前工作中使用Excel Services展示OLAP报表时,日期(报表要求展示最近三天)需要每天去更新Excel,非常麻烦,而且还经常忘记更新。 后来,终于找到了解决方法:在命名集中添加SET计算来替代日期的筛选。CREATE SET CURRENTCUBE.[最近一天] AS TAIL(NONEMPTY([Time].[日期].MEMBERS),1);CREATE SET CU

2012-03-02 14:25:55 1651

转载 使用http连接到Analysis services

习惯上都是通过localhost或者IP来访问服务器端的Cube,Provider=MSOLAP;Data Source=localhost(127.0.0.1);Initial Catalog=FoodMart 2000。当需要客户端通过http协议来访问Analysis Services时,需要对服务端做适当的配置。    SQL Server Analysis Service通过

2012-02-24 16:53:30 2531

转载 财务管理名词解释(二,共二)

第8章 固定资产投资管理 105.现金流入量:现金流入了量是指投资项目增加的现金收入额或现金支出节约额,包括:(1)收现销售收入。即每年实现的全部现销收入。(2)固定资产残值变现收入以及出售时的税赋损益。如果固定资产报废时残值收入大于税法规定的数额,就应上缴所得税,形成一项现金流出量,反之则可抵减所得税,形成现金流入量。(3)垫支流动资金的收回。主要指项目完全终止时因不再发生新的替代投资而收回

2012-02-23 15:05:30 2553

转载 财务管理名词解释(一,共二)

第1章 财务管理概述1.财务:财务泛指财务活动和财务关系;企业财务是指企业再生产过程中的资金运动,它体现着企业和各方面的经济关系。2.财务活动:是指企业再生产过程中的资金运动,即筹集、运用和分配资金的活动。3.财务关系:是指企业在组织资金运动过程中与有关各方所发生的经济利益关系。4.财务管理:是指基于企业再生产过程中客观存在的财务活动和财务关系而产生的,它是利用价值形式对企业再生产

2012-02-23 15:04:50 2046

转载 ERP-非财务人员的财务培训教(五)------资本结构筹划

一、融资渠道  二、融筹资管理                                第五部分 资本结构筹划一、融资渠道l         银行借款优点:不影响企业的营运资本,不给企业的现金带来压力,扩大负债经营使得在一定的获利能力下能够给股东带来更高的回报率.缺点:给企业的 运作带来一定的负债压力,虽然银行借款的利率要比股东的回报率

2012-02-23 14:57:46 2238

转载 ERP-非财务人员的财务培训教(四)------公司/部门的成本与费用控制

一、损益表、资产负责表二、成本分类 ----成本习性三、成本核算模式四、成本控制原则第四部分 公司/部门的成本与费用控制 一、损益表、资产负责表 项目Items产品销售收入Sales revenues产品销售成本Cost of goods sold

2012-02-23 14:56:42 977

MDX指南(中文版)

MDX中文版指南,包括常用函数的说明,mdx的常见应用实例

2011-08-02

arcplan BI解决方案(监控预警、决策分析)

arcplan BI解决方案(监控预警、决策分析)

2011-08-02

arcplan_Enterprise_基础培训

arcplan_Enterprise_基础培训,简单的入门资料

2011-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除