自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Mr_Lyang的博客

The Nature Is A General Turing Machine

  • 博客(15)
  • 收藏
  • 关注

原创 Java Virtual Machine和 Garbage Collector初探

在进入正文之前,我想先回答两个问题:什么是Java Virtual Machine?JVM(java虚拟机)是java语言的一个重要组件,重要到如果没有JVM的存在,那么java程序就无法正常运行。它代表着Java的运行时环境。我们知道java编译器会将java源码文件(.java文件)编译成.class文件,这并不是本地可执行文件,而是一个特定格式的字节码(bytecode)。它将会由JVM负责加

2017-02-28 20:13:13 839

翻译 HBase架构初探

HBase架构初探

2017-02-22 17:02:08 703

原创 Apache Sqoop使用

前言: 使用sqoop之前,一定要注意版本兼容性。所以在安装或者在使用Sqoop之前一定要关注下这块的内容,以免由于不兼容导致并非指令无法使用等情况。比如:我的HBase为1.2.1,hadoop为2.7.2,zookeeper为3.4.8,sqoop为:1.4.6,我在使用sqoop往HBase导入数据时,就不能使用–hbase-create-table指令,因为sqoop-1.4.6会使用0.

2016-10-23 10:44:47 845

原创 Apache Phoenix使用

1、创建关联视图如何使用Apache Phoenix创建对已存在HBase的关联视图?首先创建HBase表,创建时尽量让所有的命名都是大写字母。例如:create table 'PERSON_INFORMATION','INFO'使用Put命令写入一些输入到table中,例如: put 'PERSON_INFORMATION',1,'INFO:ID',1 put 'PERSON_INFOR

2016-10-20 15:51:14 1334 1

原创 HBase数据导入方法总结(续)

引言本文将接着上一篇博文继续介绍剩下的几种HBase数据导入方法。分别是:MapReduce Job(TableReducer)Importtsv(unbulk load)bulk load(Importtsv | MapReduce Job)Sqoop下面依次介绍这些方法: 1.MapReduce Job(TableReducer)借助编程MapReduce Job进行HBase数据导

2016-07-17 22:08:42 1965

原创 HBase数据导入方法总结(第一部分)

引言HBase作为Apache软件基金会的一个顶级项目,目前在业界有着广泛的使用。HBase是Google BigTable的开源实现,运行在HDFS文件系统之上,为Hadoop提供类似于BigTable的分布式数据存放服务。在Eric Brewer的CAP理论中,HBase属于CP类型的系统,即保证了系统的一致性和对分区容忍性,具体可以自行google CAP理论。最近在做一个大数据项目,需要将原

2016-07-15 16:27:45 5807

原创 python学习第三章(字典dict)

python字典结构及其相关使用方法

2016-07-04 20:17:33 761

原创 python深浅拷贝探究

Python深浅拷贝初探

2016-07-04 14:00:12 554

原创 python学习第二章(使用字符串)

本章主要介绍字符串的使用,第一章已经部分介绍了字符串以及一些字符串特性和方法.下面对其进行一些补充.1 基本字符串操作同第一章,主要包括索引,分片,乘法,判断成员资格,计算长度等.但是需要注意,字符串是不可改变的对象,故而通过切片或者索引对字符串值的修改都是非法的. 2 字符串格式化字符串格式化通过格式化操作符%实现.%左侧放置一个格式化的字符串,其中会包含若干的格式化说明符,右侧则放置希望格式化

2016-06-24 15:20:03 636

原创 python学习第一章补充(sort,sorted,tuple)

1 sort和sotedsort:作为作为序列的方法,可以实现对序列的排序.默认参数下,sort会对序列的元素按照升序来排列.sort还有三个可选参数cmp,key,reverse.cmp是代表用户可以自定义序列元素比较的函数,当然系统也有内置函数cmp,可以用.key与cmp一样也是代表一个函数,表示它的作用是给每个元素一个键值,然后所有元素根据键值排序,比如如果你想让序列按照元素的长度排序,那么

2016-06-24 15:18:53 2080

原创 python学习第一章(数字,字符串,列表等)

1.1 数字 +,-,*,/与其他语言一样,没什么好说的.不过python也有自己的一些特性,例如: ‘**’:计算幂乘方; ‘//’:a//b=int(a/b),即除法取整 ‘%’:取模运算 需要注意的是,在python中变量是不需要类型声明的,python解释器会自动根据上下文,解析出变量的类型,不过变量定义的时候必须赋初值,例如:>>>a=[]#[]代表null,默认初值有意思的是

2016-06-23 14:28:05 668

原创 数据挖掘、机器学习、大数据比赛罗列

最近自己想参加一些如题类型的比赛,却发现找不到。自己知道的比赛平台要么已经截止报名,要么就是快结束了,内心真是一万匹马在奔腾。好不容易选了个阿里音乐预测的比赛,花了两天时间初步实现了一种方法,提交结果还不错,至少能进二期,却发现由于自己没看比赛规则,需要那啥实名验证,而被直接淘汰。想想就心酸。看来有必要整理一下目前我已知的比赛列表,供自己平时多关注关注它们。国外:1、kaggle:https://w

2016-06-09 14:40:38 23094 2

原创 Reservior Sampling(蓄水池采样) in Data Streams

引言在统计学习里面,采样通常分为两类,unbiased Sample(无偏采样)和biased Sample(无偏采样)。本文介绍的蓄水次采样就是一种无偏采样算法。它的特点是在对不知道样本总体个数或者样本总体个数太大,大到无法全部存放在内存中的情况下,可以保证每个样本被选取的概率是一样的,为K/N,其中K为“蓄水池”的大小,N为当前数据流中包含的样本个数。 算法描述假设有一个数据流,其中包含的样本

2016-05-30 18:39:27 1796

原创 信息论及其若干结论和部分证明过程

首先在介绍信息论之前,有必要提一下信息论之父,克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月30日-2001年2月26日)。他是美国著名的数学家、电子工程师、密码学家。1948年,香农发表了划时代的论文-《A Mathematical Theory of Communication》,奠定了现代信息论的基础。引言问题:给定两个离散分布,如何衡量他们之间的相似度?连

2016-05-16 21:46:27 1810

原创 linux vim下查找、替换指令

vim中查找和替换指令是在进行文本处理、编程时常有的指令,熟练地使用这些快捷指令可以让我们的工作达到事半功倍的效果。废话不多说,直接进入正题。查找指令1、vim中查找分为向上查找’?’和向下查找’/’。例如: :/abc 表示从当前位置开始向下查找abc或者*abc*(*代表任意长度的字符) :?abc 表示从当前位置开始向上查找abc或者*abc* 当然如果你想继续查找是否还有a

2016-05-14 17:32:21 3536

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除