自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

转载 百度开源高性能RPC框架 sofa-pbrpc

简介sofa-pbrpc是基于Google Protocol Buffers 实现的RPC网络通信库,在百度公司各部门得到广泛使用,每天支撑上亿次内部调用。sofa-pbrpc基于百度大搜索高并发高负载的业务场景不断打磨,成为一套简单易用的轻量级高性能RPC框架。2014年sofa-pbrpc正式对外开源受到广大开发人员的关注,目前sofa-pbrpc已经在浪潮、金山、乐视等各大互联网公司产品

2016-09-26 19:36:11 16677 1

原创 KMeans原理、调参及应用

一、前言KMeans是数据挖掘十大算法之一中,在数据挖掘实践中,我们也常常将KMeans运用于各种场景,因为它原理简单、易于实现、适合多种数据挖掘情景。二、原理KMeans的原理较为简单:以某种相似性度量为标准,确定样本的结构,即样本属于哪一个簇取决于该样本与哪一个簇的中心点最相似。算法步骤如下:1.决定要将样本分成几个簇,设为K;2.初始化K个簇的中心点;3.遍历每一

2015-09-07 20:39:34 9777

原创 读《The Google File System》

GFS特点:面向大规模数据密集型

2014-11-06 11:18:33 931

原创 hbase filter作用列表

网上以及hbase相关书籍中有许多关

2014-10-14 17:06:21 2463

原创 scala spark开发模式

工具:scala ide:点击打开链接

2014-10-13 22:43:32 2241

转载 Hadoop MapReduce的shuffle过程

转载自http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html

2014-09-23 15:09:56 696

原创 HBase Coprocessors机制

What we have built is a framework that provides a library and runtime environment for executing user code within the HBase region server and master processes.

2014-09-12 16:57:57 3793 2

转载 开源大数据查询分析引擎现状

转自http://www.venustech.com.cn/NewsInfo/531/25567.Html

2014-07-25 09:42:51 1306

原创 pymongo针对字段的一些操作

1.增加字段:collection.update({"_id":1},{"$set":{"new_field":0}}) #红色为查找条件,绿色为新增字段(当document中没有new_field这个字段时,则新增这个字段)2.删除字段:collection.update({"_id":1},{"$unset":{"new_field":1}}) #红色为查找条件,绿色为删除字段3.

2014-03-21 15:20:12 10042

原创 hadoop-2.2.0+hive-0.11.0下整合RHive问题记录

rhive.env()问题:Default RServe List127.0.0.1warning: cant't connect to a Rserver at 127.0.0.1:6311Disconnected HiveServer and HDFS

2014-03-04 16:06:19 3725 2

原创 hadoop2.2.0 unhelthy nodes:log-dirs turned bad

hadoop2.2.0 web interface可用端口:50070,50075,8088(默认)遇到一个mapreduce job运行迟迟不出结果,到8088端口看,发现nodemanager检测到一个unhealthy nodegoogle之,得到如下信息:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoo

2014-03-03 21:00:57 3742 1

原创 YARN工作原理

YARN由四大部分组成:ResourceManager、NodeManager、Container和ApplicationMaster,其中ResourceManager可看作是上一代Hadoop中的master,将NodeManager看作是slave,ResourceManger中包含两大组件:ApplicationManager和ResourceScheduler,其中ResourceMan

2014-02-19 20:17:33 1889

原创 ubuntu12.04-32bit安装R、RHive

第一部分 安装R1.在/etc/apt/source.list文件中添加一个R安装包的入口:sudo vim /etc/apt/source.list在打开的文件中添加一行:deb http://ftp.ctex.org/mirrors/CRAN/bin/linux/ubuntu precise/(此处的precise是针对ubuntu12.04版本,其他对应版本见http://c

2014-02-12 16:59:21 1809

原创 32位ubuntu12.04安装hadoop2.2.0伪分布式

1.VirtualBox下新建虚拟机ubuntu12.04 32bit2.root下安装jdk:apt-get install openjdk-7-jdk3.创建hadoop用户及hadoop组,赋予hadoop超级用户权限:sudo addgroup hadoopsudo adduser --ingroup hadoop hadoopvim /etc/sudoers

2014-01-30 20:38:27 1571

转载 Domain Driven Design

领域驱动设计(Domain Driven Design)参考架构详解摘要本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构,该架构分成了Interfaces、Applications和Domain三层以及包含各类基础设施的Infrastructure。本文会对架构中一些重要组件和问题进行讨论,给出一些分析结论。本文原文连接:http://blo

2014-01-13 12:11:19 793

转载 Service-Oriented Architecture

SOA(service-orientedarchitecture,也叫面向服务的体系结构或面向服务架构)是指为了解决在Internet环境下业务集成的需要,通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。SOA是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台、操作系统和

2014-01-13 11:54:24 789

原创 学习系统地思考——《第五项修炼》读后感

要求:不少于2000字对全书内容的简要总结、对关键内容点的理解心得和主要收获等以署名博客方式发表,题目自拟,正文开始前显要位置注明“中国科学技术大学软件学院”+ 真实姓名 + “原创作品版权所有转载请注明出处”如有引用请使用引号“”括起来并注明参考文献出处中国科学技术大学软件学院梁婷原创作品版权所有转载请注明出处学习系统地思考——《第五项修炼》读后感

2013-12-21 17:39:49 4932

原创 hadoop+hive+LAMP开发环境

安装环境神马的最烦人啦!!!新手上路,欢迎大侠们指教~~~~~项目:使用php开发hive的web应用总体架构:本项目的架构可分为两个部分:1.hadoop分布式平台+hive数据仓库;2.经典的LAMP(linux+apache+mysql+php)开发框架;其中1是提供大数据存储以及分布式计算,2是提供开发工具。在本次项目中要求使用php连接hi

2013-12-19 20:43:08 1154

原创 php通过thrift开发hive

在安装好hadoop,hive并且以mysql作为hive的元数据库配置完成的前提下1.下载thrift(apache thrift官网)2.解压:tar -zxvf 压缩包名3.安装依赖库:libevent和libevent-devel4.在thrift路径下执行:./configure【具体见./configure --help】;然后make & make install

2013-12-19 20:39:44 3830

原创 php连接hive各种问题记录

启动hiveserver:1.org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000.

2013-12-19 19:57:19 3506

转载 Hive常用参数配置详细说明

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) truehive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。 134217

2013-12-07 16:57:47 1016

原创 使用mysql作为hive的元数据库

1.hive下载安装2.下载mysql安装3.以root用户进入mysql命令行:mysql -uroot -p(提示输入密码)4.创建hive的元数据库:create database metahive【元数据库名metahive】5.创建hive用户:create user hive@‘%’ identified by ‘hive’(hive@‘%’代表可以远程登录)【mysq

2013-11-28 17:07:24 1906

coq induction练习(1~2星)答案

形式化方法coq induction练习(1~2星)答案

2014-04-03

coq basic练习(1~2星)答案

形式化方法作业之coq basic练习(1~2星)答案

2014-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除