磨刀人-CSDN博客

原创 Faker--伪造数据利器

背景无意中发现了数据伪造利器faker，想到之前为了做数据，一直在那狂敲乱造，想想也是醉了。有了faker，瞬间觉得相见恨晚。使用借助eclipse+maven.JavaFaker maven数据仓库 com.github.javafaker javafaker 0.12eclipse创建maven工程package com.m

2017-01-05 23:10:55 3900 1

原创云相关思维导图

晚上补了一下云相关的基础知识，最近迷上了思维导图，觉得这种方式逻辑性比较强，便于记忆。输出内容如下

2016-12-16 00:03:56 3747

原创 python--Fibonacii序列

背景Python看了一段时间了，对yield还是了解不透彻。原来自定的函数里，含有yield的话，就变成了generator了，直接调用函数的话，是没有反应的。最后看一个视频的时候看到演示里面使用type()查看的到了是generator。才知道是怎么回事了。对象是使用Fibonacii数列。代码如下：# -*- encoding = utf-8 -*-import

2016-10-03 12:33:12 815

原创 Python---石头剪子布

背景学以致用，这一直是对自己的要求，技术自叹不如人，还是好好搬砖吧。对于【石头剪子布】的游戏，大家肯定不陌生，之前住在一起的小伙伴，每次决定谁去给大家带饭的时候，就选的是石头剪子布，为了防止作弊，我们用的是微信里的【石头剪子布】。实现需求如下：1：可连续玩2：人机大战环境：os: windows10 python：3.4.3代码

2016-09-28 22:32:09 1886

原创 Python dict()追加数据

背景为了举一反三，多种方式尝试解决问题。问题将列表[11, 22, 33, 44, 55, 66, 77, 88, 99]按大于66的存储在k1里，其余的存储在k2里。本次的环境是在windows7下，我的python是python3.4.3方法1：也是接触python开始最先想到的，中规中矩的做法# -*- encoding = utf-8 -*-

2016-09-27 17:35:24 116548

原创关于python的calendar包打印日历

背景最近又开始捡起之前看得python，calendar这个之前没有看到这，今早看到了，想进一步学习一下。我的python版本3.4.3.场景1：没有什么特殊需求，直接输出日历。代码如下:# -*- encoding = utf-8 -*-import calendarprint ("Below is year 2016 calendar: ")for i i

2016-09-23 11:46:33 4730

原创邮箱软件配置

背景最近自己的私人邮件比较多，经常使用web网页去登录觉得很麻烦，在自己家的电脑上，还要打开网页，那就更觉得麻烦了。准备安装一个邮箱客户端。现象使用web网页登陆没问题，但使用Firefox跟Becky设置好后，登录提示密码或用户不正确。#我的邮箱是163的原因最后登录网页，查看了163邮箱里的配置，如下所示，进入后仔细阅读，发现有一话：请使用授权码登录第三

2016-09-21 09:13:42 598

原创复习linux命令-[awk,comm,cut]

背景虽然经常用linux命令，但都是自己平常知道的，也是经常用的最简单的那几个，难度系数不高。几乎每天都在重复的那种，对于一个经常是用linux系统的人来说，永远是德雷福斯模型中的：高手中的新手。有必要每天刺激自己，技术人员的10000小时的弦要紧绷。试水早上去看了一下，遇到一个看似简单，但动手去做的时候，还是思考了一下，如果这是面试官提出来的话，短时间不能给出思路跟结论的话，

2016-09-19 14:27:30 757

原创初见spark streaming之JavaNetWorkWordCount

背景接触了一点spark，看到网上关于实时处理系统的博文也是铺天盖地，觉得还是有比要了解一下，作为时下比较热门的大数据，还是要多看多听多用。对象 spark streaming JavaNetworkWordCount.java运行例代码链接：https://github.com/apache/spark/blob/master/examples/src/main/j

2016-08-23 11:23:57 2822 3

原创使用find命令进行查询拷贝

背景查询*.jar的时候，想将其拷贝到指定的目录下，如果使用之前的命令，一般都是先找到jar文件的位置，然后使用cp命令去复制。但这样做的效率很低，突然想起了很久之前面试的一次面试，面试官让我用1条命令查找删除指定的有规律的文件，当时使用的是find / -name *** | xagr rm -rf ，但被面试官指出这个2条命令，中间使用了管道来连接，实质还是2条命令。最后面试官问我知不知道

2016-07-04 14:09:22 1696

原创自动下载安装presto-cli

背景最新比较懒，没有坚持写读书笔记。下午被同事纠结于一个简单的问题，突然想到，既然这么纠结这个简单的不能再简单的事情，我随性直接脚本化，看看还有什么大招要放。起因搭建presto环境的时候，在client端，当时下载的物件直接赋权限就使用了，因为只是一个测试，就没有注意一些细节。即改名字。mv presto-cli-0.147-executable.jar pres

2016-06-21 15:41:38 1783

原创 Hive-1.2.1使用问题集

背景 Hive是Hadoop生态区中为数不多支持SQL的一个SQLengine,但支持的程度不是100%，比如，建模时要用到的limit offset，查看了Hive的手册，里面是不支持的。问题1.在使用Hive的期间，遇到最多的，也是之前一直没有解决的，耗时最长的，就是beeline链接的问题了。现象 ./bin/beeline -u jdbc:hive2://162.

2016-06-07 15:42:45 10141

原创 zeppelin-0.5.6+Hadoop-2.5.2+Hive-1.2.1环境构筑及测试

背景没有用什么高大上的BI工具，一直在控制台操作，遂想看看作为分析师以及用户的话，什么样的结果展现形式比较明了。选了之前接触过的zeppelin.角色分工

2016-06-01 14:48:11 4169 2

原创 presto-0.147+postgresql-9.5.3+msql-5.0.7+hadoop-2.5.2+hive-1.2.1环境构筑以及测试

背景每个支持SQL的数据库，都有一个强大的SQL引擎。而对于SQL引擎，基本都是大同小异的，负责SQL文法解析，语意分析，指定查询树，优化查询树，再到最终的执行，客户端返回结果。而presto的也跟一般的是一样的。架构如下：准备1.postgresql-9.5.32.mysql-5.0.73.hadoop-2.5.24.hive-1.2.15.pre

2016-05-20 18:04:26 2752 2

原创初试python+postgresql+linux6.4

背景看了几天python，但转眼就忘了，觉得还是有必要去小试牛刀，安装了最新的postgresql9.5.3。下载了postgresql 的python连接文件。准备psycopg2-2.6.1.tar.gz安装1.解压 tar -zxvf psycopg2-2.6.1.tar.gz2.安装 python setup.py install

2016-05-16 20:04:01 1510

原创 hadoop-2.5.2+Oozie-4.1.0环境构筑和简单测试

背景对于Oozie的理解，我现在也是停留在它是一个job调度系统。至于在有Oozie的情况下，相比之下hadoop的性能是否会有很大的提升，官网中没有给出数据对比，无法直观的看到差异。但相比较没有oozie的hadoop，oozie可以指定workflow，这样在指定的时间段内，根据时间可以触发job，对于经常重复需要运行的作业，还是有很大的方便性。以下是oozie官网给出的定义：

2016-05-12 10:40:29 1372

原创 apache sqoop1.99.3+hadoop2.5.2+mysql5.0.7环境构筑以及数据导入导出

概要为了调查hadoop生态圈里的制品，特地的了解了一下RDBMS和hdfs之间数据的导入和导出工具，并且调查了一些其他同类的产品，得出来的结论是：都是基于sqoop做的二次开发或者说是webUI包装，实质还是用的sqoop。比如pentaho的PDI，Oracle的ODI，都是基于此，另外，Hortnetwork公司的sandbox，Hue公司的Hue webUI，coulder的coul

2016-05-11 10:47:26 2344 4

原创编译oozie-4.1.0之中遇到的问题汇总

背景2016年4月的第三周，我一直在调查Falcon这个数据管理平台，但却在调查的过程中发现，当自己在Firefox中输入http://localhost:15443/public后，在接下来的设置中，需要用到Oozie。鉴于之前编译falcon的经验来看，还是自行编译Oozie源码为好。为此，就遇到了各种各样曾经困扰自己的问题，现在问题解决了，为了梳理自己过去一周自己的思路，打算将遇到的问题

2016-04-24 01:04:51 2744

原创 maven编译zepplin源码_win10

背景吃完饭，玩了会游戏，感觉没有意思，想给自己找些事情做。组内另一个小组在研修Apache Zepplin，看了一些，官网有binary文件，自己想再学习一下maven，就选它作为折腾的对象了。Apache Zepplin是一个基于web的文本，可以分析数据。是一个数据可视化操作的tool.英文：A web-based notebook that enables inter

2016-04-18 19:51:19 1986 2

原创 Maven编译apache falcon_win10

背景白天上班有虚拟机可以折腾，回到家，房子里的Ubuntu14.10折腾起来比较费劲，好多东西没有预先安装，用到什么的时候在去安装，在者，房子里的广电网络烂到姥姥家了。所以决定试试在win10下折腾一下maven+falcon。事前准备maven3.3.9apache falcon0.9jdk1.7_8安装JDK主要是环境变量的配置以及用ja

2016-04-15 21:05:23 3335 2

原创【成功】maven编译 apache falcon0.9源码_RedHat6.4

背景最近一直在调查数据分析以及集群的软件，接下来，又开始了BI的调查了，今天就收到邮件，让调查apache falcon。各种环境折腾又开始了。事前准备apache falcon源码（本次使用的是最新的apache-falcon-0.9-sources.tar.gz）jdk(1.7/1.8)maven(3.X) apache-maven-3.0.3-bin.tar

2016-04-13 11:12:59 3730 2

原创数据集成--Informatica PowerCenter

概要随着数据呈现单位级别的递增，从海量的数据中分析出有价值的数据，对未来的事情进行一些预测，显得更能体现出BI的优越性了，但这也同时考验着数据处理ETL的性能和安全。这几天大体调查了一下informatica公司的PowerCenter，在国内市场上使用的挺早的，看到的资料里，最早是2005年就有提到。informatica powercenter与之前调查的Cisco的以及Jbo

2016-04-12 17:43:06 1722

原创 Redis-3.0.7_初步解析redis-cli

概要对redis3.0.7内部的一些处理理解不是很清楚，自己根据代码的调用关系，画出了简易的UML图，粒度把握不全，可能有些地方画得不对，请指摘。今天是从redis client的角度来看redis的。跟一般的CLI工具一样，大体有以下一些处理：初始化client的一些配置接受传入的参数逐个解析参数，跟配置文件不相同的，覆盖conf文件中参数的值client连接到server端

2016-04-12 16:49:56 1134

原创 Redis-3.0.7_ubuntu下编译

liblua.a(loslib.o): In function `os_tmpname':loslib.c:(.text+0x28b): warning: the use of `tmpnam' is dangerous, better use `mkstemp'cc -O2 -Wall -DLUA_ANSI -DENABLE_CJSON_GLOBAL -c -o luac.o luac

2016-04-11 20:30:46 2558 1

原创 Redis——源码分析之redis-server

概要最近一直尝试去看点心东西，但又没有目标，想到之前计划要看的Redis源码，早上搭建了环境。代码是在Linux redhat6.5下托管着，在vmware下使用eclipse粘贴复制很不方便，遂使用xmanager工具配合eclipse来使用。事前准备xmanagereclipse(for c/c++)安装安装xmanager就是一路next，没有什

2016-04-11 11:38:21 2157

转载程序员三年一跳，为什么越跳越好？

如今，人们已经放下了对跳槽的偏见，这是一件好事。点击打开链接之前，如果你每几年换一次工作，人们会觉得你的简历上有 “污点”。面试官会觉得你无法胜任一份工作，与同事相处不好，或者你对公司不忠诚，不能承担任务，等等。这种想法很快就被抛之脑后，尤其是千禧一代（1984-1995年出生）开始走上工作岗位之后，他们希望在工作中不断学习，不断进步。他们与上一代人不同，上一代人的观点是一份工作

2016-04-10 16:17:18 1983

原创 DEBUG——redhat下安装eclipse&debug redis源码

背景今天心血来潮，想看看redis的源码，尝试debug一下，找了半天之前的虚拟机，上面却没有预先安装eclispe，对于GCC的调试又不会，思索之下，还是装个eclipse，虽然本人的JAVA很烂，但调试个C代码还是有信心的。物件因这次是调试C代码的，所以在下载eclipse的时候，选取了跟C相关的版本：eclipse-cpp-luna-SR1a-linux-gtk-x8

2016-04-08 13:41:02 1393

转载 Mongoose使用案例–让JSON数据直接入库MongoDB

为什么用Nodejs？为什么用MongoDB？从领域语言和代码简洁之道来看，这是我非常关心的问题。Nodejs基于Javascript，MongoDB脚步同样也是基于Javascript。而且他们的数据存储格式都是JSON，这就是为什么要把他们放在一起的原因了。如果程序前后端能直接处理JSON，我想数据处理过程又可以极大的减化了，代码量又将低少1/5。多么的兴奋啊！让我们来动手验证一下想法

2016-04-07 17:59:25 558

转载 PostgreSQL黑科技大集会

强烈推荐：链接如下PostgreSQL黑科技大集会

2016-04-06 17:33:52 340

转载 Redis——如何阅读 Redis 源码？

PS:不错的帖子，先收藏了原文链接：如何阅读 Redis 源码？在这篇文章中，我将向大家介绍一种我认为比较合理的 Redis 源码阅读顺序，希望可以给对 Redis 有兴趣并打算阅读 Redis 源码的朋友带来一点帮助

2016-04-06 17:22:08 1224

转载一张图清晰追溯数据库的发展历程（1962-2016年）

"数据库”起源于20世经90年代，当时美国为了战争的需要，把各种情报收集在一起，存储隐藏在计算机内，叫做Data Base(DB)。而当人们追溯数据库的发展历程（1962-2016年）时，会发现新的技术成果总是不断丰富人们的生活，且从来没有减速的趋势！原文链接：一张图清晰追溯数据库的发展历程（1962-2016年）

2016-04-06 16:37:14 1332

转载 Top 10 Algorithms for Coding Interview

歪果人面试题点击打开链接http://www.programcreek.com/2012/11/top-10-algorithms-for-coding-interview/?csdn

2016-04-06 16:33:28 288

原创 HBase——查询延迟的时间分布

查询时间对于HBase的查询而言，大体时间分为zookeeper检查时间WAL Split时间Region重新分布时间WAL Replay时间zookeeper检查时间影响要素： zookeeper跟regionserver之间session的timeout时间关联设置： 1. zookeeper.session.timeout 默认

2016-04-06 09:01:51 4027

原创 HBase——关于Region

RegionRegion是HBase数据管理的基本呢单位。数据的move,数据的balance，数据的split，都是按照region来进行操作的。region中存储这用户的真实数据，而为了管理这些数据，HBase使用了RegionSever来管理region。寻址过程数据寻址的一般过程如下，请参照： zookeeper

2016-04-05 11:23:42 8808 1

原创 bigdata——HBase+zookeeper+Hadoop集群构筑之 Hbase集群构筑

整体流程物件下载解压conf文件配置启动&停止状态确认物件下载参考hbase官网解压 tar -zxvf hbase-***.gzconf文件配置1.hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_67export HBASE_MANAGES_ZK=false注意：JDK根据自己的环境配置

2016-04-01 15:10:29 500

原创 bigdata——HBase+zookeeper+Hadoop集群构筑之 zookeeper集群构筑

整体流程zookeeper物件下载物件解压zoo.cfg文件作成zoo.cfg文件设定dataDir的 ID作成zookeeper物件zookeeper官网下载，此处使用的是zookeeper-3.5.1-alpha。物件解压直接使用如下命令tar -zxvf zookeeper-****-***.gzzoo.cfg文件作成命令如

2016-04-01 14:51:52 437

原创 bigdata——HBase+zookeeper+Hadoop集群构筑之 Hadoop YARN集群构筑

最近项目调查闲下来了，有时间让大脑来整体之前做过的调查，为了便于基于存档，遂将其记录下来，希望对后来者有所帮助。背景为了了解Hbase集群下数据的查询以及安全性方面的性能数据，需要搭建HBase集群，简单测试。角色分类+--------------+-------------+---------------------+-----------------+|

2016-04-01 14:26:27 582

转载不是谁都可以当程序员的

不是谁都可以当程序员的子：爸，我相当程序员。父：哦，那你先买40公斤面粉来！子：啊？为什么？我一个人怎么搬？父：自己想办法。20分钟之内搞定！子：时间也太短了吧！父：还有，不要面粉了。要低筋粉。还有5分钟。子：要求变态多了吧！父：儿啊，我看你党不了程序员。 --------StarKnight译自日推

2016-04-01 13:37:12 727

原创 mongoDB——wiredTiger副本集模型的成员角色

mongoDB的理解，现阶段在串联调查的知识点，以后开始解析代码，从逻辑层面来再次确认理解不正确或者认识不足的地方。Replica-set之前接触过的NoSQL数据库，比如：hbase，hive来说，为了数据的安全性和可扩展性考虑，都是是用master-slave的模型，master节点永远承担这read&write，slave就是冷备份，只有当master发生宕机的情况下，众

2016-04-01 10:16:51 427

转载大型网站架构知识结构

大型网站架构知识结构知识体系图，很清楚，收藏了。点击打开链接http://lib.csdn.net/base/16/structure软件/内库/中间件技术大型网站架构技术和原理案例分析

2016-04-01 10:08:31 301

空空如也

空空如也