Mr_Lyang-CSDN博客

原创 Java Virtual Machine和 Garbage Collector初探

在进入正文之前，我想先回答两个问题：什么是Java Virtual Machine？JVM(java虚拟机)是java语言的一个重要组件，重要到如果没有JVM的存在，那么java程序就无法正常运行。它代表着Java的运行时环境。我们知道java编译器会将java源码文件（.java文件）编译成.class文件，这并不是本地可执行文件，而是一个特定格式的字节码（bytecode）。它将会由JVM负责加

2017-02-28 20:13:13 839

翻译 HBase架构初探

HBase架构初探

2017-02-22 17:02:08 703

原创 Apache Sqoop使用

前言：使用sqoop之前，一定要注意版本兼容性。所以在安装或者在使用Sqoop之前一定要关注下这块的内容，以免由于不兼容导致并非指令无法使用等情况。比如：我的HBase为1.2.1，hadoop为2.7.2，zookeeper为3.4.8，sqoop为：1.4.6，我在使用sqoop往HBase导入数据时，就不能使用–hbase-create-table指令，因为sqoop-1.4.6会使用0.

2016-10-23 10:44:47 845

原创 Apache Phoenix使用

1、创建关联视图如何使用Apache Phoenix创建对已存在HBase的关联视图？首先创建HBase表，创建时尽量让所有的命名都是大写字母。例如：create table 'PERSON_INFORMATION','INFO'使用Put命令写入一些输入到table中,例如： put 'PERSON_INFORMATION'，1，'INFO:ID',1 put 'PERSON_INFOR

2016-10-20 15:51:14 1334 1

原创 HBase数据导入方法总结（续）

引言本文将接着上一篇博文继续介绍剩下的几种HBase数据导入方法。分别是：MapReduce Job(TableReducer)Importtsv(unbulk load)bulk load(Importtsv | MapReduce Job)Sqoop下面依次介绍这些方法： 1.MapReduce Job(TableReducer)借助编程MapReduce Job进行HBase数据导

2016-07-17 22:08:42 1965

原创 HBase数据导入方法总结（第一部分）

引言HBase作为Apache软件基金会的一个顶级项目，目前在业界有着广泛的使用。HBase是Google BigTable的开源实现，运行在HDFS文件系统之上，为Hadoop提供类似于BigTable的分布式数据存放服务。在Eric Brewer的CAP理论中，HBase属于CP类型的系统，即保证了系统的一致性和对分区容忍性，具体可以自行google CAP理论。最近在做一个大数据项目，需要将原

2016-07-15 16:27:45 5807

原创 python学习第三章(字典dict)

python字典结构及其相关使用方法

2016-07-04 20:17:33 761

原创 python深浅拷贝探究

Python深浅拷贝初探

2016-07-04 14:00:12 554

原创 python学习第二章(使用字符串)

本章主要介绍字符串的使用,第一章已经部分介绍了字符串以及一些字符串特性和方法.下面对其进行一些补充.1 基本字符串操作同第一章,主要包括索引,分片,乘法,判断成员资格,计算长度等.但是需要注意,字符串是不可改变的对象,故而通过切片或者索引对字符串值的修改都是非法的. 2 字符串格式化字符串格式化通过格式化操作符%实现.%左侧放置一个格式化的字符串,其中会包含若干的格式化说明符,右侧则放置希望格式化

2016-06-24 15:20:03 636

原创 python学习第一章补充(sort,sorted,tuple)

1 sort和sotedsort:作为作为序列的方法,可以实现对序列的排序.默认参数下,sort会对序列的元素按照升序来排列.sort还有三个可选参数cmp,key,reverse.cmp是代表用户可以自定义序列元素比较的函数,当然系统也有内置函数cmp,可以用.key与cmp一样也是代表一个函数,表示它的作用是给每个元素一个键值,然后所有元素根据键值排序,比如如果你想让序列按照元素的长度排序,那么

2016-06-24 15:18:53 2080

原创 python学习第一章(数字,字符串,列表等)

1.1 数字 +,-,*,/与其他语言一样,没什么好说的.不过python也有自己的一些特性,例如: ‘**’:计算幂乘方; ‘//’:a//b=int(a/b),即除法取整 ‘%’:取模运算需要注意的是,在python中变量是不需要类型声明的,python解释器会自动根据上下文,解析出变量的类型,不过变量定义的时候必须赋初值,例如:>>>a=[]#[]代表null,默认初值有意思的是

2016-06-23 14:28:05 668

原创数据挖掘、机器学习、大数据比赛罗列

最近自己想参加一些如题类型的比赛，却发现找不到。自己知道的比赛平台要么已经截止报名，要么就是快结束了，内心真是一万匹马在奔腾。好不容易选了个阿里音乐预测的比赛，花了两天时间初步实现了一种方法，提交结果还不错，至少能进二期，却发现由于自己没看比赛规则，需要那啥实名验证，而被直接淘汰。想想就心酸。看来有必要整理一下目前我已知的比赛列表，供自己平时多关注关注它们。国外：1、kaggle:https://w

2016-06-09 14:40:38 23094 2

原创 Reservior Sampling(蓄水池采样) in Data Streams

引言在统计学习里面，采样通常分为两类，unbiased Sample(无偏采样)和biased Sample(无偏采样)。本文介绍的蓄水次采样就是一种无偏采样算法。它的特点是在对不知道样本总体个数或者样本总体个数太大，大到无法全部存放在内存中的情况下，可以保证每个样本被选取的概率是一样的，为K/N，其中K为“蓄水池”的大小，N为当前数据流中包含的样本个数。算法描述假设有一个数据流，其中包含的样本

2016-05-30 18:39:27 1796

原创信息论及其若干结论和部分证明过程

首先在介绍信息论之前，有必要提一下信息论之父，克劳德·艾尔伍德·香农（Claude Elwood Shannon，1916年4月30日－2001年2月26日）。他是美国著名的数学家、电子工程师、密码学家。1948年，香农发表了划时代的论文-《A Mathematical Theory of Communication》，奠定了现代信息论的基础。引言问题：给定两个离散分布，如何衡量他们之间的相似度？连

2016-05-16 21:46:27 1810

原创 linux vim下查找、替换指令

vim中查找和替换指令是在进行文本处理、编程时常有的指令，熟练地使用这些快捷指令可以让我们的工作达到事半功倍的效果。废话不多说，直接进入正题。查找指令1、vim中查找分为向上查找’？’和向下查找’/’。例如： :/abc 表示从当前位置开始向下查找abc或者*abc*（*代表任意长度的字符） :?abc 表示从当前位置开始向上查找abc或者*abc* 当然如果你想继续查找是否还有a

2016-05-14 17:32:21 3536

Mr_Lyang的博客