- 博客(20)
- 收藏
- 关注
原创 Azkaban Quick Start
在开始之前这里使用 Web server + Executor 的模式,不使用Solo server下载地址环境搭建配置数据库注:目前Azkaban2仅支持MySQL作为数据存储仓库。安装MySQL可参考: MySQL Documentation Site。配置数据库为Azkaban创建一个数据库,如:mysq
2015-12-08 23:19:53 689
原创 Hive数据迁移
简介基于全表导出和全表导入。流程为Source Hive -> Source HDFS Cluster -> Destination HDFS Cluster -> Destination Hive(Source端)群集操作1. 创建导出临时目录这里定为hdfs://tmp/hive-export/假设这里导出的数据库名为
2015-12-08 23:18:30 672
原创 Flume日志采集系统的安装和部署
由Cloudera 公司开发,然后贡献给了apache现已经成为apache下面的一级开源项目。基本介绍:按照flume的官方文档,flume是一种分布式的,可靠的,有效收集,聚集和移动大量的日志数据的可用服务。它的架构基于数据流的简单且灵活,具有很好的鲁棒性和容错可调的可靠性机制和多故障转移和恢复机制。它使用了一个简单的可扩展的数据模型,允许在线分析应用。适用范围:业界主要用flume来
2015-12-08 23:15:51 1715
原创 GoogleVis包生成的网页没有图像的解决办法
在参照这个网址:http://bbs.pinggu.org/thread-2882927-1-1.html 制作googleVis的地图的时候,发现plot打开的网页没有任何图像,无奈网上都没说怎么解决,只好翻墙到googlecode找答案,解决办法如下:这是因为FLASH导致的,进入http://www.macromedia.com/support/documentation/e
2015-07-05 19:14:32 1044 1
原创 R语言学习之dplyr包
dplyr包被称为是十大R语言必学包之一,下面简单介绍包内的常用函数,参考来自dplyr包文档:1.filter(df, condition1, condition2,..., .dots)过滤函数,df为目标数据框,下面我都用df指代目标数据框,就不再赘述,后面跟的都是过滤条件,最后面那个.dots是一个类似于传递柯里化函数的东西,可以单独讲一篇了。。这里就不展开了,后面的每一个函数都可
2015-05-19 21:51:00 6576
原创 LCS(最大公共序列) scala版本
这个算法也是学习自七月算法,也请教了醉清风网友,非常感谢他的指点。通过构建矩阵的方式匹配。具体如下,整体与Java或C++版本在写法上没有本质区别,主要是熟悉了二元数组以及循环等。这个写法还有可以改进的地方,不过由于暂时没时间改了,等往后闲下来再修改(比如跟之前贴的算法一样,写成隐式转换,比如while循环写入def,还可以尝试用其他方式构造矩阵,比如列表数组、数组向量等)object LCS
2015-05-17 11:01:10 1043
原创 SVM算法的理解
距离上次看SVM算法已经快过了半个月了,今天再次看到,温故知新后决定把自己的理解写出来。不过由于本人文笔不佳,所以想到什么写什么,等有空了再整理。看到觉得混乱的还请见谅。 刚刚看SVM的时候,只能明白支持向量机之所以叫支持向量机是因为支持向量,后面懂得了w的内容是什么、几何距离的意义、低维映射到高维的作用、核函数、SMO、随机梯度下降。SVM算法相对其他机器学习算法,内容涉及要广的多,很多
2015-05-17 00:04:11 660
原创 和最大的非空子数组(scala版本)
给定一个整数数组,求它的子数组(连续)里面最大的和是多少算法思路来自于:http://www.julyedu.com/video/play/id/19 中思路四,代码相对迭代算法简单很多,思路也容易理解,我谨将C++算法转换成scala算法,其他思路请到七月算法中查看,如有错误请指正。object test{ val a = Array(1,-2,3,-20,-5,4,5,4,5)
2015-05-11 12:13:09 457
转载 用scala实现wordcount
这个算法来源于QQ群里一位叫醉清风的网友,对于怎么读取文件生成votes这个序列这里就不写了,主要是介绍count思路,使用groupBy函数聚集,然后使用两个map获得需要的统计量。object wordCountByScala extends App { val votes = Seq(("scala", 1), ("java", 4), ("scala", 10), ("scala
2015-05-11 11:32:34 656
原创 查找数组中唯一的一个数字,scala版本
/*Given an array of integers, every element appears twice except for one. Find that single one.Note: Your algorithm should have a linear runtime complexity. Could you implement it without using ext
2015-05-10 23:41:32 681
原创 交换*号到第一位的partition算法和不改变数字位置的算法 scala版本
下面算法想法来自七月算法上的视频:http://www.julyedu.com/video/play/id/28交换*号到第一位的partition算法:case class SortNum[T](str: String) { //因为字符串在scala里面是常量,一旦改变会生成一个新的字符串而不是在原本上更新,所以需要构建一个映射的数组 var strArray = str.toBu
2015-05-10 19:42:50 440
转载 谷歌高管遇难后他妹妹写的通告
谷歌高管,Dan Fredinburg在尼泊尔地震引发的喜马拉雅山雪崩中不幸遇难后,他的妹妹在他的Twitter上告知所有喜欢Dan的人这一不幸的消息。Dan的生活非常精彩,曾到世界各个地方探险,雪崩事故停止了这位勇敢、阳光、不断发掘生命真谛的冒险家。下面附上他最后一条Twitter,来自他妹妹,写的非常好,这也是我把它摆到博客中的原因之一: This is Dans little sis
2015-05-05 20:02:33 540
原创 Spark 1.3与hadoop2.6在64位最小安装的CentOS 7中的部署
Spark 1.3与hadoop2.6部署在CentOS 7的操作
2015-05-02 13:47:18 923
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人