a95473004-CSDN博客

原创 Spark各类算法的应用场景

SparkMlib是Spark项目的其中一个模块，包含了当前比较热门的机器学习算法，这些算法API主要分成两种。ML和MLIB。本文对官方文档中描述的一些算法和工具进行了简单的介绍。ML主要针对DataFrame,MLIB则面向RDD，算法的种类基本一致，我个人比较偏向于ML，结构化的数据更易操作一些。Classification 分类算法包括逻辑回归，决策树已经

2017-01-23 10:22:40 5486

原创如何在spark-streaming中获取通过kafka传递的flume信息header

默认模式下，Spark-streaming只能拿到flume tail到的文字，但是某些情况下我们希望spark也能处理一些header中的内容。譬如说上述配置文件中在tail的同时，我们还向header中添加了timestamp以及host信息。那么如何将header传递给spark呢？

2016-12-27 16:58:57 3965 3

原创 Spark submit deploy_mode cluster 中的第三方JAR包

本文介绍了一个种解决spark在cluster模式下提交作业无法添加第三方JAR包并引起class not found 异常的解决方案

2016-12-26 15:30:33 5934 1

原创利用gradle shadowjar构建包含依赖的JAR包

利用gradle shadow构建包含依赖的JAR包

2016-12-26 15:24:33 26257 2

Spark相信大家不会陌生，翻开有关大数据的报刊杂志，大家都在讨论Spark.也会有不少公司依靠Spark构建数据仓库。但我今天介绍的是另一款软件Apache Phoenix.那么它是用来解决什么问题的呢？为什么说它和Spark是绝配的搭档？作为一个数据仓库，繁琐的数据处理只是其中的一环，这也正是Spark擅长的，但是还有一环大家似乎都不怎么关注，就是数据处理的结果以及数据详单的查询。现在业内普遍的

2016-07-20 15:16:43 6128

原创 android maven can not find appt

尼玛的各种BUG啊 maven-android 各种BUG啊1.can not find appt 原因是sdk目录变了把build-tools/17.0.0 下的文件 copy到 platform-tools 下少什么copy什么 2.还是can no find appt 原因是少了 ia32-libs, 这什么玩意

2013-07-12 15:28:53 876

原创 JENKINS bad_recordmac svn 插件

最近搭建Jenkins 遇到三个BUG1.对于HTTPS的SVN 始终报错 bad_recordmac 什么的解决办法: 换成JDK1.72.SVN始终显示没有权限.即使认证成功删除掉你${user.home}/.subversion3.SVN的可选插件始终空白你可以选择等一会...貌似查询更新插件的HTTP

2013-06-10 17:49:24 1134

原创 Spring MVC 单元测试

作为WEB开发人员在开发过程中总是需要测试各种请求常规的方法则是启动WEB服务器测试出错停掉WEB 改代码重启WEB 测试大量的时间都浪费在WEB服务器的启动上今天给大家介绍一种不用启动WEB 直接采用单元测试的方法来测试请求是否准确该方法基于SpringMVC 与 Spring Test 框架如果大家对SpringMVC的基本知识不了解,请先百度一下.

2013-05-14 18:26:44 36601 18

原创 Spring Mongodb集成

1.先上配置文件：<beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context="http://www.springframework.org/schema/context" xmlns:mongo="

2013-03-25 15:48:48 8781 7

原创使用concurrent 重写生产者消费者

场景：学生来食堂吃馒头 1.食堂位置有限，只有10个座位，其中3个座位是厨师大叔的，其他7个座位是学生的。学生共有100个。 2.食堂的大框只能容下10个馒头。 3.大叔在学生来之前会事先准备好10个馒头。 4.大叔只做300个馒头，然后把位子让给学生吃饭。 5.学生吃3个馒头

2013-03-25 15:32:14 963

原创 CDH4 HA集群安装搭建手册

CDH4 HA搭建手册V1.2 一、机器情况ocdata1710.1.253.27ocdata1810.1.253.28ocdata1910.1.253.29 我们有两台NAMENODE机器分别部署在ocdata19和ocdata18上我们有两

2013-03-13 12:53:04 5534

原创联接HIVE SERVER客户端的三种方式

在Hive/bin 目录下输入./hive --service hiveserver 代表hive启动了服务器模式。和普通模式不同的是，这时hive同时启动了一个名为thrift的服务器。你不用去研究这个服务器的原理，认为他是一个传递信息的人就好，你可以通过他向hive发送命令，然后hive再把命令送给hadoop。1.命令行模式： ./hive -h127

2013-02-28 16:09:11 11088

原创关于HIVE的SELECT count(*) 优化

刚刚下载了一份HIVE的最新源码。印象最深的是HIVE将表的大小作为了元数据保存在了关系数据库中。譬如在老版本中执行如下的语句：from base insert overwrite table user select * ;你会发现日志的末尾会有 “999 ROWD LOADED INTO TABLE USER” 的字样代表有999条目记录保存在了user表

2013-02-28 16:07:59 8947 2

原创 HIVE：No suitable driver found for jdbc:mysql://localhost:3306/hive

搭建HIVE的过程中遇到了如上问题：表面上看是缺少适合的驱动程序，但是我的HIVE/LIB下的确是有相应的JAR包的。GOOGLE了一下The value property should not contain any spaces or carriage returns. It should appear all on one line.也就是说PROPERTY元素中不要

2013-02-28 16:07:07 4094 1