自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(53)
  • 收藏
  • 关注

原创 Faker--伪造数据利器

背景无意中发现了数据伪造利器faker,想到之前为了做数据,一直在那狂敲乱造,想想也是醉了。有了faker,瞬间觉得相见恨晚。使用借助eclipse+maven.JavaFaker maven数据仓库 com.github.javafaker javafaker 0.12eclipse创建maven工程package com.m

2017-01-05 23:10:55 3900 1

原创 云相关思维导图

晚上补了一下云相关的基础知识,最近迷上了思维导图,觉得这种方式逻辑性比较强,便于记忆。输出内容如下

2016-12-16 00:03:56 3747

原创 python--Fibonacii序列

背景Python看了一段时间了,对yield还是了解不透彻。原来自定的函数里,含有yield的话,就变成了generator了,直接调用函数的话,是没有反应的。最后看一个视频的时候看到演示里面使用type()查看的到了是generator。才知道是怎么回事了。对象是使用Fibonacii数列。代码如下:# -*- encoding = utf-8 -*-import

2016-10-03 12:33:12 815

原创 Python---石头剪子布

背景学以致用,这一直是对自己的要求,技术自叹不如人,还是好好搬砖吧。对于【石头剪子布】的游戏,大家肯定不陌生,之前住在一起的小伙伴,每次决定谁去给大家带饭的时候,就选的是石头剪子布,为了防止作弊,我们用的是微信里的【石头剪子布】。实现需求如下:1:可连续玩2:人机大战环境:os: windows10 python:3.4.3代码

2016-09-28 22:32:09 1886

原创 Python dict()追加数据

背景为了举一反三,多种方式尝试解决问题。问题将列表[11, 22, 33, 44, 55, 66, 77, 88, 99]按大于66的存储在k1里,其余的存储在k2里。本次的环境是在windows7下,我的python是python3.4.3方法1:也是接触python开始最先想到的,中规中矩的做法# -*- encoding = utf-8 -*-

2016-09-27 17:35:24 116548

原创 关于python的calendar包打印日历

背景最近又开始捡起之前看得python,calendar这个之前没有看到这,今早看到了,想进一步学习一下。我的python版本3.4.3.场景1:没有什么特殊需求,直接输出日历。代码如下:# -*- encoding = utf-8 -*-import calendarprint ("Below is year 2016 calendar: ")for i i

2016-09-23 11:46:33 4730

原创 邮箱软件配置

背景最近自己的私人邮件比较多,经常使用web网页去登录觉得很麻烦,在自己家的电脑上,还要打开网页,那就更觉得麻烦了。准备安装一个邮箱客户端。现象使用web网页登陆没问题,但使用Firefox跟Becky设置好后,登录提示密码或用户不正确。#我的邮箱是163的原因最后登录网页,查看了163邮箱里的配置,如下所示,进入后仔细阅读,发现有一话:请使用授权码登录第三

2016-09-21 09:13:42 598

原创 复习linux命令-[awk,comm,cut]

背景虽然经常用linux命令,但都是自己平常知道的,也是经常用的最简单的那几个,难度系数不高。几乎每天都在重复的那种,对于一个经常是用linux系统的人来说,永远是德雷福斯模型中的:高手中的新手。有必要每天刺激自己,技术人员的10000小时的弦要紧绷。试水早上去看了一下,遇到一个看似简单,但动手去做的时候,还是思考了一下,如果这是面试官提出来的话,短时间不能给出思路跟结论的话,

2016-09-19 14:27:30 757

原创 初见spark streaming之JavaNetWorkWordCount

背景  接触了一点spark,看到网上关于实时处理系统的博文也是铺天盖地,觉得还是有比要了解一下,作为时下比较热门的大数据,还是要多看多听多用。对象 spark streaming JavaNetworkWordCount.java运行例 代码链接:https://github.com/apache/spark/blob/master/examples/src/main/j

2016-08-23 11:23:57 2822 3

原创 使用find命令进行查询拷贝

背景查询*.jar的时候,想将其拷贝到指定的目录下,如果使用之前的命令,一般都是先找到jar文件的位置,然后使用cp命令去复制。但这样做的效率很低,突然想起了很久之前面试的一次面试,面试官让我用1条命令查找删除指定的有规律的文件,当时使用的是find / -name *** | xagr rm -rf ,但被面试官指出这个2条命令,中间使用了管道来连接,实质还是2条命令。最后面试官问我知不知道

2016-07-04 14:09:22 1696

原创 自动下载安装presto-cli

背景最新比较懒,没有坚持写读书笔记。下午被同事纠结于一个简单的问题,突然想到,既然这么纠结这个简单的不能再简单的事情,我随性直接脚本化,看看还有什么大招要放。起因搭建presto环境的时候,在client端,当时下载的物件直接赋权限就使用了,因为只是一个测试,就没有注意一些细节。即改名字。mv presto-cli-0.147-executable.jar pres

2016-06-21 15:41:38 1783

原创 Hive-1.2.1使用问题集

背景  Hive是Hadoop生态区中为数不多支持SQL的一个SQLengine,但支持的程度不是100%,比如,建模时要用到的limit offset,查看了Hive的手册,里面是不支持的。问题1.在使用Hive的期间,遇到最多的,也是之前一直没有解决的,耗时最长的,就是beeline链接的问题了。现象 ./bin/beeline -u jdbc:hive2://162.

2016-06-07 15:42:45 10141

原创 zeppelin-0.5.6+Hadoop-2.5.2+Hive-1.2.1环境构筑及测试

背景没有用什么高大上的BI工具,一直在控制台操作,遂想看看作为分析师以及用户的话,什么样的结果展现形式比较明了。选了之前接触过的zeppelin.角色分工

2016-06-01 14:48:11 4169 2

原创 presto-0.147+postgresql-9.5.3+msql-5.0.7+hadoop-2.5.2+hive-1.2.1环境构筑以及测试

背景每个支持SQL的数据库,都有一个强大的SQL引擎。而对于SQL引擎,基本都是大同小异的,负责SQL文法解析,语意分析,指定查询树,优化查询树,再到最终的执行,客户端返回结果。而presto的也跟一般的是一样的。架构如下:准备1.postgresql-9.5.32.mysql-5.0.73.hadoop-2.5.24.hive-1.2.15.pre

2016-05-20 18:04:26 2752 2

原创 初试python+postgresql+linux6.4

背景看了几天python,但转眼就忘了,觉得还是有必要去小试牛刀,安装了最新的postgresql9.5.3。下载了postgresql 的python连接文件。准备psycopg2-2.6.1.tar.gz安装1.解压   tar -zxvf psycopg2-2.6.1.tar.gz2.安装   python setup.py install

2016-05-16 20:04:01 1510

原创 hadoop-2.5.2+Oozie-4.1.0环境构筑和简单测试

背景对于Oozie的理解,我现在也是停留在它是一个job调度系统。至于在有Oozie的情况下,相比之下hadoop的性能是否会有很大的提升,官网中没有给出数据对比,无法直观的看到差异。但相比较没有oozie的hadoop,oozie可以指定workflow,这样在指定的时间段内,根据时间可以触发job,对于经常重复需要运行的作业,还是有很大的方便性。以下是oozie官网给出的定义:

2016-05-12 10:40:29 1372

原创 apache sqoop1.99.3+hadoop2.5.2+mysql5.0.7环境构筑以及数据导入导出

概要 为了调查hadoop生态圈里的制品,特地的了解了一下RDBMS和hdfs之间数据的导入和导出工具,并且调查了一些其他同类的产品,得出来的结论是:都是基于sqoop做的二次开发或者说是webUI包装,实质还是用的sqoop。比如pentaho的PDI,Oracle的ODI,都是基于此,另外,Hortnetwork公司的sandbox,Hue公司的Hue webUI,coulder的coul

2016-05-11 10:47:26 2344 4

原创 编译oozie-4.1.0之中遇到的问题汇总

背景2016年4月的第三周,我一直在调查Falcon这个数据管理平台,但却在调查的过程中发现,当自己在Firefox中输入http://localhost:15443/public后,在接下来的设置中,需要用到Oozie。鉴于之前编译falcon的经验来看,还是自行编译Oozie源码为好。为此,就遇到了各种各样曾经困扰自己的问题,现在问题解决了,为了梳理自己过去一周自己的思路,打算将遇到的问题

2016-04-24 01:04:51 2744

原创 maven编译zepplin源码_win10

背景吃完饭,玩了会游戏,感觉没有意思,想给自己找些事情做。组内另一个小组在研修Apache Zepplin,看了一些,官网有binary文件,自己想再学习一下maven,就选它作为折腾的对象了。Apache Zepplin是一个基于web的文本,可以分析数据。是一个数据可视化操作的tool.英文:A web-based notebook that enables inter

2016-04-18 19:51:19 1986 2

原创 Maven编译apache falcon_win10

背景白天上班有虚拟机可以折腾,回到家,房子里的Ubuntu14.10折腾起来比较费劲,好多东西没有预先安装,用到什么的时候在去安装,在者,房子里的广电网络烂到姥姥家了。所以决定试试在win10下折腾一下maven+falcon。事前准备maven3.3.9apache falcon0.9jdk1.7_8安装JDK主要是环境变量的配置以及用ja

2016-04-15 21:05:23 3335 2

原创 【成功】maven编译 apache falcon0.9源码_RedHat6.4

背景最近一直在调查数据分析以及集群的软件,接下来,又开始了BI的调查了,今天就收到邮件,让调查apache falcon。各种环境折腾又开始了。事前准备apache falcon源码  (本次使用的是最新的apache-falcon-0.9-sources.tar.gz)jdk(1.7/1.8)maven(3.X)  apache-maven-3.0.3-bin.tar

2016-04-13 11:12:59 3730 2

原创 数据集成--Informatica PowerCenter

概要随着数据呈现单位级别的递增,从海量的数据中分析出有价值的数据,对未来的事情进行一些预测,显得更能体现出BI的优越性了,但这也同时考验着数据处理ETL的性能和安全。这几天大体调查了一下informatica公司的PowerCenter,在国内市场上使用的挺早的,看到的资料里,最早是2005年就有提到。informatica powercenter与之前调查的Cisco的以及Jbo

2016-04-12 17:43:06 1722

原创 Redis-3.0.7_初步解析redis-cli

概要对redis3.0.7内部的一些处理理解不是很清楚,自己根据代码的调用关系,画出了简易的UML图,粒度把握不全,可能有些地方画得不对,请指摘。今天是从redis client的角度来看redis的。跟一般的CLI工具一样,大体有以下一些处理:初始化client的一些配置接受传入的参数逐个解析参数,跟配置文件不相同的,覆盖conf文件中参数的值client连接到server端

2016-04-12 16:49:56 1134

原创 Redis-3.0.7_ubuntu下编译

liblua.a(loslib.o): In function `os_tmpname':loslib.c:(.text+0x28b): warning: the use of `tmpnam' is dangerous, better use `mkstemp'cc -O2 -Wall -DLUA_ANSI -DENABLE_CJSON_GLOBAL -c -o luac.o luac

2016-04-11 20:30:46 2558 1

原创 Redis——源码分析之redis-server

概要 最近一直尝试去看点心东西,但又没有目标,想到之前计划要看的Redis源码,早上搭建了环境。代码是在Linux redhat6.5下托管着,在vmware下使用eclipse粘贴复制很不方便,遂使用xmanager工具配合eclipse来使用。事前准备xmanagereclipse(for c/c++)安装安装xmanager就是一路next,没有什

2016-04-11 11:38:21 2157

转载 程序员三年一跳,为什么越跳越好?

如今,人们已经放下了对跳槽的偏见,这是一件好事。点击打开链接之前,如果你每几年换一次工作,人们会觉得你的简历上有 “污点”。面试官会觉得你无法胜任一份工作,与同事相处不好,或者你对公司不忠诚,不能承担任务,等等。这种想法很快就被抛之脑后,尤其是千禧一代(1984-1995年 出生)开始走上工作岗位之后,他们希望在工作中不断学习,不断进步。他们与上一代人不同,上一代人的观点是一份工作

2016-04-10 16:17:18 1983

原创 DEBUG——redhat下安装eclipse&debug redis源码

背景今天心血来潮,想看看redis的源码,尝试debug一下,找了半天之前的虚拟机,上面却没有预先安装eclispe,对于GCC的调试又不会,思索之下,还是装个eclipse,虽然本人的JAVA很烂,但调试个C代码还是有信心的。物件因这次是调试C代码的,所以在下载eclipse的时候,选取了跟C相关的版本:eclipse-cpp-luna-SR1a-linux-gtk-x8

2016-04-08 13:41:02 1393

转载 Mongoose使用案例–让JSON数据直接入库MongoDB

为什么用Nodejs?为什么用MongoDB?从领域语言和代码简洁之道来看,这是我非常关心的问题。Nodejs基于Javascript,MongoDB脚步同样也是基于Javascript。而且他们的数据存储格式都是JSON,这就是为什么要把他们放在一起的原因了。如果程序前后端能直接处理JSON,我想数据处理过程又可以极大的减化了,代码量又将低少1/5。多么的兴奋啊!让我们来动手验证一下想法

2016-04-07 17:59:25 558

转载 PostgreSQL黑科技大集会

强烈推荐:链接如下PostgreSQL黑科技大集会

2016-04-06 17:33:52 340

转载 Redis——如何阅读 Redis 源码?

PS:不错的帖子,先收藏了原文链接:如何阅读 Redis 源码?在这篇文章中,我将向大家介绍一种我认为比较合理的 Redis 源码阅读顺序,希望可以给对 Redis 有兴趣并打算阅读 Redis 源码的朋友带来一点帮助

2016-04-06 17:22:08 1224

转载 一张图清晰追溯数据库的发展历程(1962-2016年)

"数据库”起源于20世经90年代,当时美国为了战争的需要,把各种情报收集在一起,存储隐藏在计算机内,叫做Data Base(DB)。而当人们追溯数据库的发展历程(1962-2016年)时,会发现新的技术成果总是不断丰富人们的生活,且从来没有减速的趋势!原文链接:一张图清晰追溯数据库的发展历程(1962-2016年)

2016-04-06 16:37:14 1332

转载 Top 10 Algorithms for Coding Interview

歪果人面试题点击打开链接http://www.programcreek.com/2012/11/top-10-algorithms-for-coding-interview/?csdn

2016-04-06 16:33:28 288

原创 HBase——查询延迟的时间分布

查询时间对于HBase的查询而言,大体时间分为zookeeper检查时间WAL Split时间Region重新分布时间WAL Replay时间zookeeper检查时间 影响要素:       zookeeper跟regionserver之间session的timeout时间 关联设置:     1. zookeeper.session.timeout     默认

2016-04-06 09:01:51 4027

原创 HBase——关于Region

RegionRegion是HBase数据管理的基本呢单位。数据的move,数据的balance,数据的split,都是按照region来进行操作的。region中存储这用户的真实数据,而为了管理这些数据,HBase使用了RegionSever来管理region。寻址过程数据寻址的一般过程如下,请参照: zookeeper

2016-04-05 11:23:42 8808 1

原创 bigdata——HBase+zookeeper+Hadoop集群构筑 之 Hbase集群构筑

整体流程物件下载解压conf文件配置启动&停止状态确认物件下载     参考hbase官网解压   tar -zxvf hbase-***.gzconf文件配置1.hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_67export HBASE_MANAGES_ZK=false注意:JDK根据自己的环境配置 

2016-04-01 15:10:29 500

原创 bigdata——HBase+zookeeper+Hadoop集群构筑 之 zookeeper集群构筑

整体流程zookeeper物件下载物件解压zoo.cfg文件作成zoo.cfg文件设定dataDir的 ID作成zookeeper物件zookeeper官网下载,此处使用的是zookeeper-3.5.1-alpha。物件解压直接使用如下命令tar -zxvf zookeeper-****-***.gzzoo.cfg文件作成命令如

2016-04-01 14:51:52 437

原创 bigdata——HBase+zookeeper+Hadoop集群构筑 之 Hadoop YARN集群构筑

最近项目调查闲下来了,有时间让大脑来整体之前做过的调查,为了便于基于存档,遂将其记录下来,希望对后来者有所帮助。背景为了了解Hbase集群下数据的查询以及安全性方面的性能数据,需要搭建HBase集群,简单测试。角色分类+--------------+-------------+---------------------+-----------------+|

2016-04-01 14:26:27 582

转载 不是谁都可以当程序员的

不是谁都可以当程序员的子:爸,我相当程序员。父:哦,那你先买40公斤面粉来!子:啊?为什么?我一个人怎么搬?父:自己想办法。20分钟之内搞定!子:时间也太短了吧!父:还有,不要面粉了。要低筋粉。还有5分钟。子:要求变态多了吧!父:儿啊,我看你党不了程序员。    --------StarKnight译自日推

2016-04-01 13:37:12 727

原创 mongoDB——wiredTiger副本集模型的成员角色

mongoDB的理解,现阶段在串联调查的知识点,以后开始解析代码,从逻辑层面来再次确认理解不正确或者认识不足的地方。Replica-set之前接触过的NoSQL数据库,比如:hbase,hive来说,为了数据的安全性和可扩展性考虑,都是是用master-slave的模型,master节点永远承担这read&write,slave就是冷备份,只有当master发生宕机的情况下,众

2016-04-01 10:16:51 427

转载 大型网站架构知识结构

大型网站架构知识结构知识体系图,很清楚,收藏了。点击打开链接http://lib.csdn.net/base/16/structure软件/内库/中间件技术大型网站架构技术和原理案例分析

2016-04-01 10:08:31 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除