Tech_Hog-CSDN博客

转载揭秘腾讯大数据之平台综述篇

摘要：腾讯业务产品线众多，拥有海量的活跃用户，每天线上产生的数据超乎想象。特别是随着传统业务增长放缓，以及移动互联网时代的精细化运营，如何从大数据中获取高价值，已经成为大家关心的焦点问题。4月12日，在腾讯分享日的大数据分论坛上腾讯首次对外展现了自己的大数据平台，受到外界的普遍关注，后续我们将持续为大家分享腾讯大数据的方方面面。本篇为综述篇，针对整体情况做概要性的介绍，后续将会有更详细

2014-08-14 17:24:43 1767

原创 Hadoop的HDFS和Map/Reduce

HDFSHDFS是一个具有高度容错性的分布式文件系统，适合部署在廉价的机器上，它具有以下几个特点：1）适合存储非常大的文件2）适合流式数据读取，即适合“只写一次，读多次”的数据处理模式3）适合部署在廉价的机器上但HDFS不适合以下场景（任何东西都要分两面看，只有适合自己业务的技术才是真正的好技术）：1）不适合存储大量的小文件，因为受Namenode内

2014-08-14 15:53:36 1526

转载腾讯大规模Hadoop集群实践

摘要：TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面，介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据

2014-08-14 14:35:07 1369

转载 hive基本用法汇总（部分）

看到的文章，总结的很好，转载一下：原文http://www.jiacheo.org/blog/1261，创建表?123456CREATETABLEpage_view(viewTimeINT, userid BIGINT,page_url STRING, referrer

2014-05-29 13:55:54 1322

转载 vi及缩进设置

vi编辑器是所有Unix及Linux系统下标准的编辑器，它的强大不逊色于任何最新的文本编辑器，这里只是简单地介绍一下它的用法和一小部分指令。由于对Unix及Linux系统的任何版本，vi编辑器是完全相同的，因此您可以在其他任何介绍vi的地方进一步了解它。Vi也是Linux中最基本的文本编辑器，学会它后，您将在Linux的世界里畅行无阻。1、vi的基本概念　　基本上vi可以分为三种状

2014-05-29 10:41:36 1376

转载 git常用操作教程

不敢说这是git常用操作最全的教程，这是本人再前人的基础上加上应用了三年多git总结的，应该是比较全的，后续我还会把git 常见的错误总结出来。git基本工作流程git支持很多种不同的工作流程，我们采用的是与SVN接近的模拟中央服务器流程。即，有一个公用的代码库放在服务器上，开发者从这个共享的服务器克隆后，在本地开发，然后提交到服务器，并且从服务器获取其他用户提交的内容。

2014-05-28 12:25:32 897

原创 python各种模块的使用

Pexpect模块：http://www.ibm.com/developerworks/cn/linux/l-cn-pexpect1/ConfigParser模块：http://blog.chinaunix.net/uid-25890465-id-3312861.htmllogging模块：http://kenby.iteye.com/blog/1162698threading模块

2014-05-21 17:42:42 1209

转载 Hadoop MapReduce 二次排序原理及其应用

目录[-]1、首先说一下工作原理： 2、二次排序 3、具体步骤： 1 自定义key。 2 由于key是自定义的，所以还需要自定义一下类： 4 代码：5 测试需求：6 测试数据与结果：7 原理图（点击查看大图）：8、推荐阅读：9、REF:关于二次排序主要涉及到这么几个东西：在0.20.0 以前使用的是setPar

2014-05-10 15:15:04 1072

原创 python 实现Hadoop的partitioner和二次排序

Hadoop Streaming 是一个工具，代替编写Java的实现类，而利用可执行程序来完成map-reduce过程工作流程　：　InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles理解 :　1 输入文件，可以是指定远程文件系统内的文件夹下的 *2 通过集群自己分解到各个PC

2014-05-10 15:11:04 3645

转载 hadoop作业调优参数整理及原理

摘要：1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间

2014-04-22 11:12:12 1051

原创《hadoop实战》笔记2

编写MapReduce基础程序MapReduce程序框架计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的Hadoop流式API用于提升性能的Combiner高阶MapReduce编程实战细则手册管理Hadoop

2014-02-15 15:28:52 1487

原创《hadoop实战》笔记1—分布式编程框架

1. hadoop作为一个数据处理框架，由于大数据量的移动很困难，hadoop采用的机制为将代码发送到集群环境中去，因为集群中有数据和计算（运行）环境，即代码向集群迁移2. SQL处理结构化数据，hadoop针对文本这类非结构化数据；SQL数据库向上扩展（增加单台机性能）时成本高，hadoop向外扩展（增加多台一般商用机）hadoop用键/值对（MapReduce实现）代替SQL数据库

2014-02-14 22:20:06 1508

原创一线和准一线城市比较知名的互联网公司

深圳互联网公司：腾讯、迅雷、芒果网、珍爱网、本地宝、深圳之窗、互联在线、黎明网络北京互联网公司：百度、搜狐、新浪、当当、优酷、搜房、焦点房地产、360奇虎、雅虎中国、新华网、中华网、和讯网、天极网、人民网、硅谷动力、中国万网、大洋网、榕树下、ChinaByte、中商网、慧聪网、中关村在线、IT168、拉手网、兰亭集势、凡客诚品、豆瓣网、58同城网、赶集网、去哪儿网、csdn、网易、有道

2014-02-08 13:33:23 3050

原创 Hadoop中的Bloom Filter布隆过滤器介绍

布隆过滤器布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制矢量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。基本概念如果想判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定。链

2014-01-19 11:03:52 4737

原创 hadoop新手学习线路指南

声明：全部来源于网络，仅供参考hadoop使用场景大数据量存储：分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout

2014-01-17 16:24:44 3306 4

原创数据分析相关知识梳理总结

持续更新本篇博客主要收集和数据挖掘机器学习相关的数据分析统计分析大数据分析类的知识点，并加入自己在实践过程中在某些案例上的自我理解。主成分分析、因子分析和聚类分析主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分，要尽可能多地保留原始变量的信息，且彼此不相关。因子分析是研究如何以最少的信息丢失，将众多

2014-01-16 17:21:22 3004

原创 hadoop各种问题收录（学习笔记）

hadoop各种问题收录（学习笔记）

2014-01-14 11:28:28 2696

原创初学hadoop的一些学习记录

倒排索引简介倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式：· 一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列表。· 一个单词的水平

2014-01-05 09:49:01 3092 2

原创从VMware虚拟机安装到hadoop集群环境配置详细说明

从VMware虚拟机安装到到hadoop集群环境配置详细说明

2014-01-02 14:24:50 18808

转载 Oracle中dual表的用途介绍

dual是一个虚拟表，用来构成select的语法规则，oracle保证dual里面永远只有一条记录。我们可以用它来做很多事情，如下：　　1、查看当前用户，可以在 SQL Plus中执行下面语句 select user from dual;　　2、用来调用系统函数　　select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') from dual

2016-03-22 11:43:14 803

转载 Oracle表空间、段、区和块简述

在Oracle学习过程中，存储结构，表段区块可能是每个初学者都要涉及到的概念。表空间、段、分区和数据块分别表示了Oracle进行数据存储的不同层次和结构。了解清楚这几个结构，有助于我们奠定一个稳固的学习基础，而且对于理解Oracle工作原理也有重要作用。本文采用从小到大，逐步拓展的方式介绍四个结构，并且与Schema、数据文件的区别进行对比。数据块（Block）

2016-03-17 15:08:47 974

转载 Oracle 分区表

--==================-- Oracle 分区表--================== 一、分区表：随着表的不断增大，对于新纪录的增加、查找、删除等(DML)的维护也更加困难。对于数据库中的超大型表，可通过把它的数据分成若干个小表，从而简化数据库的管理活动。对于每一个简化后的小表，我们称为一个单个的分区。对于分区的访

2016-03-17 11:34:53 799

转载 Data Guard模式切换

Data Guard模式切换概念a、最大性能(maximize performance): 这是Data Guard默认的保护模式。primay上的事务commit前不需要从standby上收到反馈信息，该模式在primary故障时可能丢失数据，但standby对primary的性能影响最小。b、最大可用(maximize availability):

2016-03-08 10:27:49 726

转载应该在VMware平台还是物理机平台上运行Oracle RAC？

Oracle真正应用集群(Oracle Real Application Cluster，RAC)和VMware现在都是非常热门的技术产品，但是它们是不是适合一起使用呢?　　根据TechTarget网站的一份调查显示，这两项技术在用户中的认同度和普及率都有所增长。此外，VMware还是针对Oracle产品最受欢迎的虚拟化平台。然而，目前还有网友在讨论，VMware平台运行Oracle

2016-03-02 14:54:14 5212

转载超越RAC！DB2 pureScale关键特性解析

数据库作为企业应用系统的核心，在IT系统中一直扮演着相当重要的角色，尤其是某些核心数据关系着企业的命脉。然而，随着企业业务量的不断增长，系统的访问量和数据流量也快速增长，使得单一设备根本无法承担如此大的处理能力和计算强度。多服务器的群集数据库系统应运而生。　　群集数据库解决了在单处理机系统时代CPU对数据库系统造成的瓶颈问题，通过简单的增加数据库服务器即可组建大型数据库系统。群集数据库

2016-03-01 19:34:41 1650

转载 Kettle调度和监控

Kettle调度和监控的理论知识介绍，具体内容如下：1 调度在这个指导文档中，主介绍两种类型Kettle任务和转换的调度方式。Ø 操作系统级别的调度器：对于ETL来说，调度不是独一无二的。这是操作系统能够提供标准调度的一般性需要，如UNIX衍生系统上的Cron以及Windows系统上的任务调度器。这些调度器能够拥戴调度Kettle命令行程序来运行任务和转

2016-02-25 17:04:27 3982

转载 Kettle总结

网上搜集了一些关于开源数据交换工具Kattle的文章，特收藏如下：文章一：ETL和Kettle简介ETL即数据抽取（Extract）、转换（Transform）、装载（Load）的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声

2016-02-25 14:52:18 5416 1

转载依赖倒转原则

3.1 依赖倒置原则的定义依赖倒置原则（Dependence Inversion Principle，简称DIP）这个名字看着有点别扭，“依赖”还“倒置”，这到底是什么意思？依赖倒置原则的原始定义是：High level modules should not depend upon low level modules. Both should depend upon abstracti

2016-01-26 10:44:55 540

转载 pentaho开源商业智能平台的搭建

pentaho开源商业智能平台的搭建pentaho是世界上最流行的开源商务只能软件。它是一个基于java平台的商业智能(Business Intelligence,BI)套件，之所以说是套件是因为它包括一个web server平台和几个工具软件：报表，分析，图表，数据集成，数据挖掘等，可以说包括了商务智能的方方面面。整个系统的架构如下图：根据官网的介绍，其客户包括有sun，ms

2015-12-07 09:02:21 1841

转载 shell脚本中一些特殊符号

在shell中常用的特殊符号罗列如下： # ; ;; . , / \\ 'string'| ! $ ${} $? $$ $* \"string\"* ** ? : ^ $# $@ `command`{} [] [[]] () (()) || && {xx,yy,zz,...}~ ~+ ~- & \\ + -

2015-11-06 14:36:48 762

转载 InfoSphere DataStage 运行时列扩展（RCP）在 ETL 中的应用

总体阐述随着企业信息化建设的发展，大量企业都在架设基于自身所在行业的特点的商业智能系统，来指导商业运营。设计合理，运营高效的商业智能系统，在企业的经营决策中，越来越起着至关重要的作用。IBM InfoSphere Information Server 作为可扩展的企业信息体系结构基础，可以满足企业对于巨大信息量的需求，使企业在运营中更快的交付使用高质量的业务成果。 IBM Infosphe

2015-10-23 09:53:04 1399

转载 AIX查看CPU及内存参数

AIX下查看CPUAIX操作系统AIX的硬件信息可以通过prtconf命令看到。 1. 查看逻辑CPU个数 #pmcycles -m CPU 0 runs at 4204 MHz CPU 1 runs at 4204 MHz CPU 2 runs at 4204 MHz CPU 3 runs at 4204 MHz CPU 4 runs at 4204

2015-10-21 11:35:05 1050

转载 Oracle 10g RAC TAF介绍

Oracle 10g RAC TAF介绍　　　　Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。Oracle 10g RAC 的

2015-10-16 10:25:08 585

转载网络文件系统nfs文件系统使用

一、NFS简介1、NFS就是Network FileSystem的缩写，它的最大功能就是可以通过网络让不同的机器，不同的操作系统彼此共享文件(sharefiles)——可以通过NFS挂载远程主机的目录，访问该目录就像访问本地目录一样，所以也可以简单的将它看作一个文件服务器(FileServer)。注意：一般而言，使用NFS服务能够方便地使各unix-like系统之间实现共享，但如果

2015-10-15 08:41:16 718

原创求阙守拙

花未全开月未圆，寻花待月思依然。明知花月无情物，若是多情更可怜。春还未到雪还存，望春盼雪消如旧，已知春雪难共存，只是多情更伤悲。花未全开月未圆，花全开之后随之而来的就是凋谢，月圆满之后随之而来的就是亏缺，故世人所谓的花好月圆，在诗人看来并不是最佳状态，最佳状态是花尚未全开、月尚未全圆的时候。这与曾国藩所提出的“求阙守拙”是类似的意思。常人都追求齐全，追求完美

2015-03-16 22:36:53 1922

转载求阙斋记

国藩读《易》至“临”，而喟然叹曰：刚侵而长矣，至于八月有凶，消亦不久也，可畏也哉。天地之气，阳至矣，则退而生阴，阴至矣，则进而生阳。一损一益，自然之理也。[1] 　　物生而有嗜欲，好盈而忘阙。[2]是故体安车驾，则金舆鏓衡[3]不足于乘；目辨五色[4]，则黼黻文章[5]不足于服[6]。由是八音[7]繁会不足于耳[8]，庶羞[9]珍膳[10]不足于味。穷巷瓮牖[11]之夫，骤膺金紫[12]，

2015-03-16 15:51:26 1677

转载花未全开月未圆

花未全开月未圆，寻花待月思依然。明知花月无情物，若是多情更可怜。　　这是一首禅诗，出典于佛教书《蝉宗》，是禅宗推崇的一种人生境界。诗解释的意思是：含苞欲放，尚未盛开的花和等待月亮快要圆的时刻，是让人最所期待和憧憬的，明明眼前看到的花和月是不完美的，但是人依然要想望它，去寻找和期待完美的花和月。可是明明又知道花和月是没有生命情感的物质，倘若你去自作多情是实在可怜啊！这是

2015-03-16 14:30:35 1620

转载真相（truth）最可怕的敌人不是谎言（lie），而是神话（myth）---《唐浩明点评曾国藩家书》书评

写书评，书评名：真相（truth）最可怕的敌人不是谎言（lie），而是神话（myth）　　　　 “自官江吏以来，一二十五年，惟在晋两年公事较简。此外无日不在荆天棘地之中。大抵所办之事，皆非政府意中欲办之事；所用之钱，皆非本省固有之钱；所用之人，皆非心悦诚服之人。总之，不外《中庸》“勉强而行”四字。然所办各事，亦颇有竟睹成功者，真侥幸也。”——张之洞　　　　曾国藩家书的宝贵

2015-03-11 21:36:28 2601

转载白话经典算法系列之六快速排序快速搞定

快速排序由于排序效率在同为O(N*logN)的几种排序方法中效率较高，因此经常被采用，再加上快速排序思想----分治法也确实实用，因此很多软件公司的笔试面试，包括像腾讯，微软等知名IT公司都喜欢考这个，还有大大小的程序方面的考试如软考，考研中也常常出现快速排序的身影。总的说来，要直接默写出快速排序还是有一定难度的，因为本人就自己的理解对快速排序作了下白话解释，希望对大家理解有帮助，达到快速

2014-10-23 19:23:27 820

转载浅谈bitmap算法

久闻《编程珠玑》一书中提出的bitmap算法之大名，只是没有深入的去研究，今天下午有兴致研究一番，才知道其中的玄机奥秘，不亚于KMP算法之巧妙，下面就由浅入深的谈谈bitmap算法。一、bitmap算法思想 32位机器上，一个整形，比如int a; 在内存中占32bit位，可以用对应的32bit位对应十进制的0-31个数，bitmap算法利用这种思想处理大量数据的排序与查

2014-10-19 16:39:32 788