自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 大数据环境下数据仓库的实践(五)—— ETL之落地层同步

准确地来说,在大数据里很多时候是ELTL,但是我们仍然保留历史的称呼用ETL来描述从抽数到提供应用之间的所有数据处理步骤。ETL的第一步总是避不开从业务源系统抽取数据到落地层(Staging)。实践中,大部分时候大厂都用ODS来命名,歪果仁通常称为STG,这里只是叫法不同,作用是一样的——一次读取以缓冲对源系统数据的访问。EL工具市面上比较常用的是sqoop和dataX,也有通过binlog消...

2019-07-02 11:43:47 833

原创 大数据环境下数据仓库的实践(四)—— 主题域的划分及任务和工作流的组织方式

主题域的划分由于数据仓库跨部门,所以必然存在某些数据关系密切,而某些数据相互比较独立。于是相关的一组数据往往被划成一个个主题域。主题域是为了更好地组织数据仓库。我们以一个普通的买卖为例,这里的主题域可以划分为:卖家(商家)、买家(客户)、商品、交易等。每个域下面还可以根据业务的复杂程度设置自己的子域,例如交易域下还可以设置正向交易、逆向交易(退款)。主题域和维度的迷惑主题域和维度经常容易被...

2019-06-07 11:10:51 4128

原创 大数据环境下数据仓库的实践(三)—— 数据仓库的组成部分

数据仓库从全局来看会涉及到四大块:业务源系统、ETL系统、数据应用层、数据消费层。业务源系统数据仓库中数据的来源是各个业务源系统。严格说来业务源系统不属于数据仓库的范畴。但是如果业务系统模型设计不好,对后续的数据处理将极为不利,甚至会极大的增加数据仓库建设的投入成本。现状往往是业务系统的设计人员水平参差不齐,业务系统设计千奇百怪,甚至缺乏第三范式的考量,缺乏基本的审计字段(cre...

2019-05-26 19:16:38 1035

原创 大数据环境下数据仓库的实践(二)—— Hadoop基础

Hadoop生态链已经成为如今大数据实际意义上的实现。因此在Hadoop生态下建设数据仓库需要了解一些Hadoop的基本原理。这会对我们将来为什么这么设计数据仓库提供一些解答。Hadoop最基础的两块是它的分布式文件存储(HDFS)和MapReduce计算模型(MR)。通过大数据界的"Hello World"——统计一篇文章中每个单词出现的次数,这样一个案例来跟踪一下Hadoop是怎么做的。...

2019-05-24 23:41:52 343

原创 大数据环境下数据仓库的实践(一)—— 绪论

关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能(Business Intelligence)的核心部分。在数据仓库诞生之初,它只被设计成针对管理层所需要的决策支持系统,并不对业务方(这里指各应用系统)提供数据支持。然而在大数据环境的背景下,当Hadoop生态已然成为大数据现实意义上的载体,以Hive为基础的数据仓库已经不能仅仅只提供决策支持的需求了——它需要同时满足部...

2019-05-24 06:32:16 300

原创 服务运营及客户成功提要

服务运营及客户成功提要

2022-04-12 20:23:58 304

原创 经济学词汇笔记

边际效用——物以稀为贵:指一个新增单位的物品或服务所带来的主观满足。人们在消费一种商品时,每增加一个单位,增加的效用就递减,最后一个消费单位的效用最小。

2020-09-17 13:12:36 157

原创 Hive SQL中不同数据类型比较时隐性转换的坑

不同数据类型比较先来看一段SQL。表dean_test中字段a的类型是整型INT,字段b的类型是字符串/字符型STRING/VARCHAR。select * from dean_test where a = b这就是不同数据类型比较。现实中发现不少数据类型不匹配的比较能很兼容地进行隐性类型转换。但是,隐性类型转换的一个大前提应该是不能丢失精度!换句话说,显性转换和隐性转换的结果必须是一致...

2019-07-11 16:57:30 2600

原创 AttributeError: module 'sklearn' has no attribute 'linear_model'

AttributeError: module ‘sklearn’ has no attribute ‘linear_model’将import sklearn改成from sklearn.linear_model import LinearRegression同时,后续代码由sklearn.linear_model.LinearRegression()调整为LinearReg...

2019-06-24 17:54:47 2734

原创 Mac安装之Web

安装工具nvm安装nvm(node version manager)是一个node版本管理工具,可以在本地同时维护多份node环境。直接安装:cURLcurl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.34.0/install.sh | bash或者 wgetwget -qO- https://raw.githubuser...

2019-06-10 17:46:24 188

原创 一台新的Mac

安装常用工具安装开发工具配置开发工具

2019-06-08 20:30:40 209

原创 Kylin权威指南没说清楚的事情——读《Kylin权威指南》后的一些思考和笔记

1. 引言读《Kylin权威指南》后的一些思考和笔记。2. 关于维度2.1 维度表太大怎么办?维度表会被加载到内存里,但前提是小于300M。互联网公司往往会有大维表,比如用户表,这时候正常构建会失败。对于这种类型的维表,早期有建议在Hive中事先把维度做到事实表里,现在只需要在Model的Dimension里把“Skip snapshot for this lookup ta...

2019-05-20 23:34:51 560

原创 关于参数theta为什么和边界boundary正相交

先上个Ng老师的图。这里绿线表示boundary,蓝色箭头theta为什么跟绿线是正相交呢?我们从几何图形上来解释一下。从图中我们知道theta'*X > 0的时候,y = 1 是上图红色的叉叉theta'*X < 0的时候,y = 0 是上图蓝色的圈圈那么theta'*X在什么时候是正的,什么时候是负的呢?theta'*X在几何意义上可以理解为向量X在向量theta'上的投影p*||...

2018-05-15 13:14:28 3600 7

原创 java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

spark启动报错

2017-01-06 11:03:44 17346

原创 内存寻址 笔记

logical address逻辑地址(segment + offset) -> [segment unit分段单元] -> virtual address虚拟地址 -> [paging unit分页单元] -> physical address物理地址memory arbiter内存仲裁器分段寻址方式分页寻址方式控制寄存器高速缓存

2016-12-11 10:41:27 382

原创 Linux基础概念

操作系统, OS

2016-11-30 17:14:22 339

原创 用Workbench迁移MySQL小数据库

我之前用阿里云的RDS服务器,到期了,不打算续了。所以迁移到自己安装的MySQL。阿里官方的RDS备份文件恢复到自建数据库又要安装新的解压工具,又要上传备份到服务器,感觉很是麻烦。我平常用MySQL的Workbench客户端,我们就来看一下有没有合适的傻瓜式方法:一开始我看到Server菜单下的Data Export和Data Import。导出没问题,导入的时候却会告诉你

2016-05-31 21:49:23 3068

原创 Informatica Notes

InstallationThe domain configuration and the Model repository cannot be in the same database schema.

2012-04-23 14:29:48 449

原创 informatica里关于通过repository数据库直接进行检查的语句

用来检查批量某个参数缺省值,长度等属性的脚本:select t2.subj_name,t1.mapping_name,t0.pv_name,t0.pv_default from opb_map_parmvar t0,opb_mapping t1,opb_subject t2 WH

2011-07-13 14:07:07 1363

原创 Informatica Best Practeces for ICC

      ICC的意思我总是记不住。老外好像蛮喜欢搞这些概念性的东西,叫的名字一个比一个好听。我只谈论一下我对ICC粗浅的理解。      所谓整合的东西,在这里就是提供了一些标准。包括命名规则等等。      mapping里其实是不提倡override任何东西的。尤其是sql override这种其实很好用的尴尬功能。因为写sql真的很方便,但sql是基于特定数据库的。出于将来对不同数据库迁

2011-06-28 16:49:00 822

转载 Steve Jobs' Outstanding Stanford Commencement Speech from 2005

Steve Jobs' Outstanding Stanford Commencement Speech from 2005

2011-02-24 15:32:00 733

原创 记录被另一个用户锁

<br />1. 查询被锁进程:<br />SELECT   A.OWNER,       <br />                  A.OBJECT_NAME,       <br />                  B.XIDUSN,       <br />                  B.XIDSLOT,       <br />                  B.XIDSQN,       <br />                  B.SESSION_ID,      

2011-01-18 15:21:00 411

原创 数据仓库工具箱——维度建模(Dimensional Modeling)摘要(三)

几乎每一段都是一条维度模型设计的方法、建议或准则。

2011-01-04 11:31:00 1361

原创 卸载SQL Server 2008,不断要求重启电脑

<br />在添加删除程序里卸载SQL Server 2008时,无论是否刚重新启动过,都要求重启“a computer restart is required sql server” 以至于无法继续。<br />Solution: delete all values under "HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Control/Session Manager/PendingFileRenameOperations",然后re-run一下,restar

2010-12-16 16:20:00 5891 1

原创 维度建模技巧总结

全局架构上:一套全局的metadata管理框架。ODS的考量可以容后,架构在数据源系统之后或者数据仓库内的一个特殊组成部分。 Dimension Table(占10%空间):主键使用代理键(surrogate key)。非范式化,扁平化层级关系。存储可

2010-12-08 16:06:00 1280

原创 数据仓库工具箱——维度建模(Dimensional Modeling)摘要(二)

几乎每一段都是一条维度模型设计的方法、建议或准则。

2010-12-06 16:57:00 1937

原创 数据仓库工具箱——维度建模(Dimensional Modeling)摘要(一)

文章本身就是《数据仓库工具箱——维度建模的完全指南(第二版)》(The Data Warehouse Toolkit. Second Edition)的摘要,只希望能尽量简洁和易读……第一部分主要介绍数据仓库的框架和几个基本概念。

2010-11-28 10:21:00 2991

原创 Informatica Bug

<br />使用工具:PowerCenter Designer<br />版本:Designer Version 8.6.1 HotFix10 01 24 412 (R179 D88)<br />平台:Citrix Web Interface<br />Bug:<br />1、Mappings->Parameters and Variables...和Union [Group Ports]里Port Name粘贴未双击时,显示已改变,但偶尔失效。<br />2、Union [Group Ports]连线后顺

2010-11-25 16:20:00 741

转载 牛逼顿的一生

3月28号是牛顿的忌日,但是知道的人很少,我们毕竟更关心沈殿霞和张国荣。其实牛顿老师在科学圈里曾经很有权势,被女王封了爵位成了贵族,人称牛爵爷,官至皇家造币局局长兼皇家学会会长。如果阿尔伯特没有辞了以色列总统的话和他有一拼。       说他有权势并不仅是官大,主要是贡献大。如果17世纪就有诺贝尔奖的话,牛顿老师至少能连续垄断4届物理学奖(分光计;力学体系的构建;反射望远镜;万有引力),同时为

2010-10-22 15:17:00 605

转载 比尔盖茨和乔布斯的35年恩怨情仇

三十多年前,那还只是一小群几乎同龄的理科书呆子的玩具,而史蒂夫·乔布斯和比尔·盖茨便是这个世界里的两位海盗...    2010年,史蒂夫·乔布斯和比尔·盖茨都55岁了。  1975年,全球第一台个人计算机Altair横空出世,到现在,仅仅才过去了35年。仿佛就在一瞬间,个人电脑已经突变为年销量高达三亿个、年产值超过2000亿美元的庞大产业。很难想象,就在三十多年前,那还只是一小群几乎同龄的理科书呆子的玩具,而史蒂夫·乔布斯和比尔·盖茨便是这个世界里的两位海盗。  现如今,史蒂夫·乔布斯已成为一代人的文化偶

2010-10-22 15:14:00 1654

转载 "CMN_1552: Error accessing lookup cache." when running a PowerCenter session with large lookup tables

Problem DescriptionThe session crashes and generates a core file when building the lookup cache for lookup tables that have large amounts of data.  The error is seen when the lookup table contains millions of records.CMN_1552: Error accessing lookup cache.

2010-10-22 09:45:00 7625

原创 Informatica Incremental load Strategy

ETL, incremental load, version_number

2010-09-03 12:31:00 887

原创 copy a reusable transformation as non-reusable transformation

Informatica TransformationReusableNon-reusable

2010-09-01 13:06:00 395

转载 Kimball University: The 10 Essential Rules of Dimensional Modeling

Follow the rules to ensure granular data, flexibility and a future-proofed information resource. Break the rules and you'll confuse users and run into data warehousing brick walls.

2010-08-03 16:06:00 587

原创 Target-> Generate/Execute SQL 灰色被屏蔽,不可用(Greyed Out)

<br />Informatica 8.6<br />点击target - > create 随便创建一个target之后就能用了。这个像是informatica的bug~~~

2010-08-03 14:29:00 808

原创 REP_61082

<br />[REP_61082] AdminConsole's code page (MS Windows Latin 1 (ANSI), superset of Latin1) is not one-way compatible to repository xxxx...<br />通过修改注册表:设置HKEY_LOCAL_MACHINE-->SYSTEM-->CurrentControlSet-->Control-->Nls-->CodePage-->ACP 的值为20127<br />restart

2010-08-03 14:27:00 2973 2

原创 OBIEE

<br />Initialization Block:<br />SELECT LANG_ID <br />FROM D1_LANG <br />WHERE LANG_ID = 'VALUEOF(NQ_SESSION.WEBLANGUAGE)'<br /> <br />Here "NQ_SESSION.WEBLANGUAGE" is the system variable. What else exists in NQ_SESSION?<br /> 

2010-07-29 11:21:00 86

原创 关于管理

<br />关于销售:<br />现在的销售真是越来越不专业了。卖衣服、卖钻石、卖汽车、卖电脑等等等等,其实销售人员都是快餐文化出来的。<br />那天我去老凤祥,那个卖钻戒的居然不晓得钻石上有编码的事情。这样的人怎么卖得出好业绩呢?!更别提她把I-J成色的说成D成色的事情了,不够专业都让顾客怀疑到她的诚信问题了。我就说,D成色还能卖那么便宜?<br />诚然这样的销售人员比较便宜,但是既然做一行,就要有起码的敬业,要有一定的专业知识,要能忽悠到客户。这不仅仅是对公司负责,同样也是对自身提高销售量的一个先决

2010-07-05 14:48:00 355

原创 ORA-12514: TNS:listener does not currently know of service requested in connect descriptor

Cause:The listener received a request to establish a connection to a database or other service. The connect descriptor received by the listener specified a service name for a service (usually a database service) that either has not yet dynamically register

2010-06-18 10:53:00 1586

原创 开源网站

sourceforge http://www.sourceforge.netjava.net http://www.java.netwww.eclipse.orgwww.opensource.orghttp://strutstestcase.sourceforge.net (StrutsTestCase 是基于Junit的一个方便测试struts框架的测试框架)Lomboz http:

2010-05-26 15:43:00 730

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除