stephanieleong912-CSDN博客

转载百度开源高性能RPC框架 sofa-pbrpc

简介sofa-pbrpc是基于Google Protocol Buffers 实现的RPC网络通信库，在百度公司各部门得到广泛使用，每天支撑上亿次内部调用。sofa-pbrpc基于百度大搜索高并发高负载的业务场景不断打磨，成为一套简单易用的轻量级高性能RPC框架。2014年sofa-pbrpc正式对外开源受到广大开发人员的关注，目前sofa-pbrpc已经在浪潮、金山、乐视等各大互联网公司产品

2016-09-26 19:36:11 16677 1

原创 KMeans原理、调参及应用

一、前言KMeans是数据挖掘十大算法之一中，在数据挖掘实践中，我们也常常将KMeans运用于各种场景，因为它原理简单、易于实现、适合多种数据挖掘情景。二、原理KMeans的原理较为简单：以某种相似性度量为标准，确定样本的结构，即样本属于哪一个簇取决于该样本与哪一个簇的中心点最相似。算法步骤如下：1.决定要将样本分成几个簇，设为K；2.初始化K个簇的中心点；3.遍历每一

2015-09-07 20:39:34 9777

原创 hbase filter作用列表

网上以及hbase相关书籍中有许多关

2014-10-14 17:06:21 2463

原创 scala spark开发模式

工具：scala ide：点击打开链接

2014-10-13 22:43:32 2241

转载 Hadoop MapReduce的shuffle过程

转载自http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html

2014-09-23 15:09:56 696

原创 HBase Coprocessors机制

What we have built is a framework that provides a library and runtime environment for executing user code within the HBase region server and master processes.

2014-09-12 16:57:57 3793 2

转载开源大数据查询分析引擎现状

转自http://www.venustech.com.cn/NewsInfo/531/25567.Html

2014-07-25 09:42:51 1306

原创 pymongo针对字段的一些操作

1.增加字段：collection.update({"_id":1},{"$set":{"new_field":0}}) #红色为查找条件，绿色为新增字段（当document中没有new_field这个字段时，则新增这个字段）2.删除字段：collection.update({"_id":1},{"$unset":{"new_field":1}}) #红色为查找条件，绿色为删除字段3.

2014-03-21 15:20:12 10042

原创 hadoop-2.2.0+hive-0.11.0下整合RHive问题记录

rhive.env()问题：Default RServe List127.0.0.1warning: cant't connect to a Rserver at 127.0.0.1:6311Disconnected HiveServer and HDFS

2014-03-04 16:06:19 3725 2

原创 hadoop2.2.0 unhelthy nodes：log-dirs turned bad

hadoop2.2.0 web interface可用端口：50070，50075，8088（默认）遇到一个mapreduce job运行迟迟不出结果，到8088端口看，发现nodemanager检测到一个unhealthy nodegoogle之，得到如下信息：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoo

2014-03-03 21:00:57 3742 1

YARN由四大部分组成：ResourceManager、NodeManager、Container和ApplicationMaster，其中ResourceManager可看作是上一代Hadoop中的master，将NodeManager看作是slave，ResourceManger中包含两大组件：ApplicationManager和ResourceScheduler，其中ResourceMan

2014-02-19 20:17:33 1889

原创 ubuntu12.04-32bit安装R、RHive

第一部分安装R1.在/etc/apt/source.list文件中添加一个R安装包的入口：sudo vim /etc/apt/source.list在打开的文件中添加一行：deb http://ftp.ctex.org/mirrors/CRAN/bin/linux/ubuntu precise/（此处的precise是针对ubuntu12.04版本，其他对应版本见http://c

2014-02-12 16:59:21 1809

原创 32位ubuntu12.04安装hadoop2.2.0伪分布式

1.VirtualBox下新建虚拟机ubuntu12.04 32bit2.root下安装jdk：apt-get install openjdk-7-jdk3.创建hadoop用户及hadoop组，赋予hadoop超级用户权限：sudo addgroup hadoopsudo adduser --ingroup hadoop hadoopvim /etc/sudoers

2014-01-30 20:38:27 1571

转载 Domain Driven Design

领域驱动设计(Domain Driven Design)参考架构详解摘要本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构，该架构分成了Interfaces、Applications和Domain三层以及包含各类基础设施的Infrastructure。本文会对架构中一些重要组件和问题进行讨论，给出一些分析结论。本文原文连接：http://blo

2014-01-13 12:11:19 793

转载 Service-Oriented Architecture

SOA（service-orientedarchitecture，也叫面向服务的体系结构或面向服务架构）是指为了解决在Internet环境下业务集成的需要，通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。SOA是一个组件模型，它将应用程序的不同功能单元（称为服务）通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的，它应该独立于实现服务的硬件平台、操作系统和

2014-01-13 11:54:24 789

原创学习系统地思考——《第五项修炼》读后感

2013-12-21 17:39:49 4932

原创 hadoop+hive+LAMP开发环境

安装环境神马的最烦人啦！！！新手上路，欢迎大侠们指教~~~~~项目：使用php开发hive的web应用总体架构：本项目的架构可分为两个部分：1.hadoop分布式平台+hive数据仓库；2.经典的LAMP（linux+apache+mysql+php）开发框架；其中1是提供大数据存储以及分布式计算，2是提供开发工具。在本次项目中要求使用php连接hi

2013-12-19 20:43:08 1154

原创 php通过thrift开发hive

在安装好hadoop，hive并且以mysql作为hive的元数据库配置完成的前提下1.下载thrift（apache thrift官网）2.解压：tar -zxvf 压缩包名3.安装依赖库：libevent和libevent-devel4.在thrift路径下执行：./configure【具体见./configure --help】;然后make & make install

2013-12-19 20:39:44 3830

原创 php连接hive各种问题记录

启动hiveserver：1.org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000.

2013-12-19 19:57:19 3506

转载 Hive常用参数配置详细说明

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行） truehive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。 134217

2013-12-07 16:57:47 1016

原创使用mysql作为hive的元数据库

1.hive下载安装2.下载mysql安装3.以root用户进入mysql命令行：mysql -uroot -p（提示输入密码）4.创建hive的元数据库：create database metahive【元数据库名metahive】5.创建hive用户：create user hive@‘%’ identified by ‘hive’（hive@‘%’代表可以远程登录）【mysq

2013-11-28 17:07:24 1906

liangtingac的专栏