自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (7)
  • 收藏
  • 关注

原创 Spark各类算法的应用场景

SparkMlib是Spark项目的其中一个模块,包含了当前比较热门的机器学习算法,这些算法API主要分成两种。ML和MLIB。本文对官方文档中描述的一些算法和工具进行了简单的介绍。ML主要针对DataFrame,MLIB则面向RDD,算法的种类基本一致,我个人比较偏向于ML,结构化的数据更易操作一些。Classification      分类算法包括逻辑回归,决策树已经

2017-01-23 10:22:40 5486

原创 如何在spark-streaming中获取通过kafka传递的flume信息header

默认模式下,Spark-streaming只能拿到flume tail到的文字,但是某些情况下我们希望spark也能处理一些header中的内容。譬如说上述配置文件中在tail的同时,我们还向header中添加了timestamp以及host信息。那么如何将header传递给spark呢?

2016-12-27 16:58:57 3965 3

原创 Spark submit deploy_mode cluster 中的第三方JAR包

本文介绍了一个种解决spark在cluster模式下提交作业无法添加第三方JAR包并引起class not found 异常的解决方案

2016-12-26 15:30:33 5934 1

原创 利用gradle shadowjar构建包含依赖的JAR包

利用gradle shadow构建包含依赖的JAR包

2016-12-26 15:24:33 26257 2

原创 Apche Phoenix,Spark的绝配搭档

Spark相信大家不会陌生,翻开有关大数据的报刊杂志,大家都在讨论Spark.也会有不少公司依靠Spark构建数据仓库。但我今天介绍的是另一款软件Apache Phoenix.那么它是用来解决什么问题的呢?为什么说它和Spark是绝配的搭档?作为一个数据仓库,繁琐的数据处理只是其中的一环,这也正是Spark擅长的,但是还有一环大家似乎都不怎么关注,就是数据处理的结果以及数据详单的查询。现在业内普遍的

2016-07-20 15:16:43 6128

原创 android maven can not find appt

尼玛的 各种BUG啊  maven-android 各种BUG啊1.can not find appt          原因是sdk目录变了  把build-tools/17.0.0 下的文件 copy到 platform-tools 下少什么copy什么 2.还是can no find appt      原因是少了 ia32-libs, 这什么玩意 

2013-07-12 15:28:53 876

原创 JENKINS bad_recordmac svn 插件

最近搭建Jenkins 遇到三个BUG1.对于HTTPS的SVN 始终报错 bad_recordmac  什么的    解决办法: 换成JDK1.72.SVN始终显示没有权限.即使认证成功    删除掉你${user.home}/.subversion3.SVN的可选插件始终空白    你可以选择等一会...貌似查询更新插件的HTTP

2013-06-10 17:49:24 1134

原创 Spring MVC 单元测试

作为WEB开发人员在开发过程中总是需要测试各种请求 常规的方法则是启动WEB服务器 测试 出错 停掉WEB 改代码 重启WEB 测试 大量的时间都浪费在WEB服务器的启动上今天给大家介绍一种不用启动WEB 直接采用单元测试的方法来测试请求是否准确 该方法基于SpringMVC 与 Spring Test 框架如果大家对SpringMVC的基本知识不了解,请先百度一下.

2013-05-14 18:26:44 36601 18

原创 Spring Mongodb集成

1.先上配置文件:<beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context="http://www.springframework.org/schema/context" xmlns:mongo="

2013-03-25 15:48:48 8781 7

原创 使用concurrent 重写生产者 消费者

场景:学生来食堂吃馒头                  1.食堂位置有限,只有10个座位,其中3个座位是厨师大叔的,其他7个座位是学生的。学生共有100个。         2.食堂的大框只能容下10个馒头。         3.大叔在学生来之前会事先准备好10个馒头。         4.大叔只做300个馒头,然后把位子让给学生吃饭。         5.学生吃3个馒头

2013-03-25 15:32:14 963

原创 CDH4 HA集群安装搭建手册

CDH4 HA搭建手册V1.2 一、           机器情况ocdata1710.1.253.27ocdata1810.1.253.28ocdata1910.1.253.29 我们有两台NAMENODE机器 分别部署在ocdata19和ocdata18上我们有两

2013-03-13 12:53:04 5534

原创 联接HIVE SERVER客户端的三种方式

在Hive/bin 目录下输入./hive --service hiveserver 代表hive启动了服务器模式。和普通模式不同的是,这时hive同时启动了一个名为thrift的服务器。你不用去研究这个服务器的原理,认为他是一个传递信息的人就好,你可以通过他向hive发送命令,然后hive再把命令送给hadoop。1.命令行模式:   ./hive -h127

2013-02-28 16:09:11 11088

原创 关于HIVE的SELECT count(*) 优化

刚刚下载了一份HIVE的最新源码。印象最深的是HIVE将表的大小作为了元数据保存在了关系数据库中。譬如在老版本中执行如下的语句:from base insert overwrite table user select * ;你会发现日志的末尾会有 “999 ROWD LOADED INTO TABLE USER” 的字样代表有999条目记录保存在了user表

2013-02-28 16:07:59 8947 2

原创 HIVE:No suitable driver found for jdbc:mysql://localhost:3306/hive

搭建HIVE的过程中遇到了如上问题:表面上看是缺少适合的驱动程序,但是我的HIVE/LIB下的确是有相应的JAR包的。GOOGLE了一下The value property should not contain any spaces or carriage returns. It should appear all on one line.也就是说PROPERTY元素中不要

2013-02-28 16:07:07 4094 1

原创 HIVE针对反斜杠的正则替换问题

最近收到一份需求:有两张表 one  和  two . 两张表都有一个字段name,现在要求从one 导入到two 中。要求是           name字段有可能为空 ,在HIVE中默认是用"\N"来表示空,也就是ONE表在HDFS上文件包含"\N"。           同时表ONE的NAME字段中有可能包含"\r"的转行符。

2013-02-28 15:31:21 16680 1

HBASE权威指南

HBASE权威指南

2013-05-20

实战Nginx:取代Apache的高性能Web服务器

实战Nginx:取代Apache的高性能Web服务器

2013-05-13

mongodb 权威指南

mongodb 权威指南

2013-05-06

mahout in action

mahout in action 英文版

2013-04-22

Hadoop实战中文版

Hadoop实战中文版

2013-03-14

Hadoop 权威指南

Hadoop 权威指南

2013-03-14

FREEMAKER官方中文文档

FREEMAKER官方中文文档 很全很全很全全

2011-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除