lisery_nj-CSDN博客

原创编译spark使cdh支持sparksql

我的大数据集群环境为cdh5.11.1，在该环境中spark的版本为spark-1.6.0。CDH从5.5开始Spark distro不带Thrift Server分布式SQL引擎、以及spark-sql脚本。Thrift Server是Spark异构数据大融合愿景重要入口之一，spark-sql脚本是测试SQL利器，但CDH优先推自家impala, SparkSQL虽然不是Spark的主要功能...

2019-01-08 11:16:29 3491

原创 kettle-java代码执行hive相关ktr时报错： database type with plugin id [HIVE2] couldn‘t be found!

1.在java项目中执行hive相关的ktr: KettleEnvironment.init(); TransMeta transMeta = new TransMeta("C:\\Users\\lixiang\\Desktop\\hivetorizhi.ktr"); // 设置执行模式 TransExecutionConfiguration config = new T...

2018-08-13 16:47:30 6367 11

原创 kettle-linux环境下部署kettle，执行kitchen.sh文件报错后安装 libwebkitgtk，提示没有可用软件包libwebkitgtk。

提示：本环境为centos7.2mini.建议在纯净环境上部署，不然会提示某些依赖包已安装过或者版本过高的问题。执行./kitchen.sh报错信息：[root@lx01 data-integration]# ./kitchen.sh #######################################################################...

2018-07-12 15:56:19 33357 34

原创 kafka-cdh5.11环境中集成部署kafka

1.准备cdh集群搭建成功，且部署好zookeeper.因为kafka在CDH上要求用CDH上的Zookeeper管理而不是Kafka自带的Zookeeper管理。集群：cdh01 192.168.50.248cdh02 192.168.50.249cdh03 192.168.50.247不同版本的cdh支持不同版本的kafka.根据官方的文档：能够安装的ka...

2019-03-25 17:10:06 1004 2

转载 hadoop-Hadoop 2.x与3.x 22点比较：3.x将节省大量存储空间

Hadoop 2.x与3.x 22点比较：3.x将节省大量存储空间问题导读1.Hadoop3.x通过什么方式来容错？2.Hadoop3.x存储开销减少了多少？3.Hadoop3.x MR API是否兼容hadoop1.x？一、目的在这篇文章中，我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能，Hadoop3中兼容的Ha...

2019-03-22 16:33:34 449

转载 Spark-Spark函数详解RDD转换与操作

1.RDD简介RDD：弹性分布式数据集，是一种特殊集合‚ 支持多种来源‚ 有容错机制‚ 可以被缓存‚ 支持并行操作，一个RDD代表一个分区里的数据集。RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作； At...

2019-03-06 16:03:00 840

转载 Spark-combineByKey

1.前言combineByKey是使用Spark无法避免的一个方法，总会在有意或无意，直接或间接的调用到它。从它的字面上就可以知道，它有聚合的作用，对于这点不想做过多的解释，原因很简单，因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。combineByKey是一个高度抽象的聚合函数，可以用于数据的聚合和分组，由它牵出的shuffle也是...

2019-03-06 11:25:45 312

转载 Scala-case match语法使用

scala中的case语法与java中的switch语法类似，但比switch更强大：例子一正则匹配：val Pattern="(s.*)".r val v1="spark"; val r=v1 match { case Pattern(v1)=> "begin s*" case "1"=> "1" case

2019-03-04 15:19:41 823

原创 java-Math ceil()、floor()、round()三个函数的区别

Math.ceil()、Math.floor()和Math.round()这三个方法分别遵循下列舍入规则：1. Math.ceil()返回大于等于参数x的最小整数,即对浮点数向上取整.实例： println(Math.ceil(0)) println(Math.ceil(0.4)) println(Math.ceil(0.5)) println(Mat...

2019-02-28 15:33:59 351

转载 Spark-reduceByKey和groupByKey

大数据处理中有一个典型的例子WordCount,类似与Hello World的作用，map阶段主要是将单词转换为(word,1)的形式，在reduce阶段则是将Key值相同的1累加求和，最终得到的结果就是单词的count数。假设map的结果为(word,(m,n))如果按照key值将对应的列累加起来呢？比如经过map的数据集是这样的("happy",1,3),("hello",2,6),("hap...

2019-02-27 15:04:45 405

原创 Spark-reduce和reduceByKey

1.reducereduce(binary_function)reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。val c = sc.parallelize(1 to 5)c.reduce((x, y) => x + y)结果为：15流...

2019-02-27 14:59:57 1143

转载 Spark-Spark任务中job,stage,task之间的关系

1. 什么是jobJob简单讲就是提交给spark的任务。2. 什么是stageStage是每一个job处理过程要分为的几个阶段。3什么是taskTask是每一个job处理过程要分几为几次任务。Task是任务运行的最小单位。最终是要以task为单位运行在executor中。3. Job和stage和task之间有什么关系Job----> 一个或多个stage---&gt...

2019-02-26 15:32:29 722

转载 Flink-Flink及主流流框架比较

引言随着大数据时代的来临，大数据产品层出不穷。我们最近也对一款业内非常火的大数据产品 - Apache Flink做了调研，今天与大家分享一下。Apache Flink(以下简称flink) 是一个旨在提供‘一站式’ 的分布式开源数据处理框架。是不是听起来很像spark？没错，两者都希望提供一个统一功能的计算平台给用户。虽然目标非常类似，但是flink在实现上和spark存在着很大的区别，fl...

2019-02-26 10:48:11 828

转载 java-java中String类为什么要设计成不可变的

1.什么是不可变？String不可变很简单，如下图，给一个已有字符串“abcd”第二次赋值成"abced",不是在原内存地址上修改数据，而是重新指向一个新对象，新地址。2.String为什么不可变？翻开JDK源码，java.lang.String类起手前三行，是这样写的：public final class String implements java.io.Seri...

2019-02-22 15:06:15 134 2

原创大神博文

商业实战系列 https://blog.csdn.net/shenshouniu/article/details/83719129#commentBoxcdh 大神 https://cloud.tencent.com/developer/user/1522219 https://blog.csdn.net/silentwolfyh/article/categ...

2019-02-20 09:58:11 199

转载机器学习-带你搞懂朴素贝叶斯分类算法

带你搞懂朴素贝叶斯分类算法你搞懂朴素贝叶斯分类算贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法，希望有利于他人理解。1 分类问题综述对于分类问题，其实谁都不会陌生，日常生活中我们每天都进行着分类过程。例如...

2018-11-08 11:23:02 201

转载机器学习-数学之美番外篇：平凡而又神奇的贝叶斯方法

0. 前言这是一篇关于贝叶斯方法的科普文，我会尽量少用公式，多用平白的语言叙述，多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架，文中你会看到很多有趣的应用。1. 历史托马斯·贝叶斯（Thomas Bayes）同学的详细生平在这里。以下摘一段 wikipedia 上的简介：所谓的贝叶斯方法源于他生前为解决一个“逆...

2018-11-07 15:58:06 277

转载机器学习-机器学习十大算法

在机器学习的世界中，有一种被称为“无免费午餐”的定理。它意在说明没有哪种算法能够完美地解决每个问题，特别是对于监督学习问题。例如，神经网络不会总是比决策树要好，反之亦然。往往是有许多因素在起作用（如：数据集的大小、结构），共同决定了最后的结果。因此，我们应该针对具体的问题尝试许多不同的算法，并选取一部分数据作为“测试集”来评估性能，最后选择性能最好的算法。当然，我们选取的算法必须要适合我们的问题...

2018-10-31 15:20:51 524

原创 spark-机器学习算法库

Spark之所以在机器学习方面具有得天独厚的优势，有以下几点原因：（1）机器学习算法一般都有很多个步骤迭代计算的过程，机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止，迭代时如果使用Hadoop的MapReduce计算框架，每次计算都要读/写磁盘以及任务的启动等工作，这回导致非常大的I/O和CPU消耗。而Spark基于内存的计算模型天生就擅长迭代计算，多个步骤计算直接在内存中...

2018-10-31 15:16:16 4229

原创 spark-测试cdh集群中spark是否正常运行

1.本地模式[root@cdh01 ~]# spark-submit --master local --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH-5.11.1-1.cdh5.11.1.p0.4/lib/spark/lib/spark-examples.jar 1018/10/29 14:39:08...

2018-10-29 15:03:09 2102

原创 spark-使用cloudera manager部署的spark测试运行mllib的例子

1.测试cdh集群中spark是否正常运行[root@cdh01 ~]# spark-submit --master local --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH-5.11.1-1.cdh5.11.1.p0.4/lib/spark/lib/spark-examples.jar 1018...

2018-10-29 14:35:38 1468

原创其他-google浏览器启动以后提示：您的个人资料来自新版google chrome 浏览器,因此无法使用

启动google浏览器，每次都会弹出提示：解决办法：win+R ,输入%USERPROFILE%\AppData\Local\Google\Chrome\User Data\Default将该路径下的Web Data文件删除，重启即可...

2018-09-30 11:08:36 26612

转载 spark-RDD基础

1.RDD概念什么是RDD?RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。RDD属性...

2018-09-07 16:31:06 198

原创 spark-一个简单的例子--使用spark统计单词数

1.java版本// 创建一个Java版本的Spark ContextSparkConf conf = new SparkConf().setAppName("wordCount");JavaSparkContext sc = new JavaSparkContext(conf);// 读取我们的输入数据JavaRDD<String> input = sc.textFil...

2018-09-07 15:36:03 1660

转载 spark-spark核心概念简介

每个 Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。驱动器程序包含应用的 main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连接。shell 启动时已经自动创建了一个 SparkCon...

2018-09-07 15:02:40 729

原创 spark-spark是什么

Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能够在内存中进行计算，因而更快...

2018-09-07 13:59:01 4724

原创 spark-spark集群部署

1.scala部署解压scalatar –zxvf scala-2.12.0.tgz配置环境变量vi /etc/profileexport SCALA_HOME=/usr/tools/scala-2.12.0export PATH=$PATH:$SCALA_HOME/bin使环境变量生效source /etc/profile检查安装成功： scala ...

2018-09-07 13:54:46 119

原创 scala-scala部署

1.上传scala部署包至虚拟机，解压缩解压scalatar –zxvf scala-2.11.8.tgz配置环境变量vi /etc/profileexport SCALA_HOME=/usr/tools/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin是环境变量生效source /etc/profile检查安装成功：...

2018-08-27 19:04:58 525

原创 hadoop-hadoop部署完成，启动集群后，NodeManager未启动， NodeManager from hd01 doesn't satisfy minimum allocations

hadoop部署过程结束，执行start-all.sh后，NodeManager为启动，相关日志为：2018-08-27 16:14:11,228 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManagerorg.apache.hadoop.yarn.exceptions...

2018-08-27 16:34:17 1131 6

原创 hadoop-hadoop2.9.0集群部署

1.准备工作3个节点以及角色分配：192.168.50.235 hd01 master192.168.50.236 hd02 slaver192.168.50.237 hd03 slaver2.将安装包上传至主节点解压缩：添加环境变量，并使其生效：vi /etc/profile#javaexport J...

2018-08-27 16:27:16 420

原创其他-疑问记录

1.http 带有Authorization验证2.linux vim 中wq 与x的区别3.scala-scala中map与flatmap的区别4.spark-rdd与dataframe dataset的区别5.spark无环图DAG6.大数据数据检查点

2018-08-08 16:23:23 156

原创 kettle-在java项目中远程kettle集群执行ktr文件

1.新建java项目，jdk设置为1.8（本人使用的kettle版本为7.1）。2.添加所需的jar，如下图，并build path,，jar包的来源是kettle安装包lib下。3.新建执行类KettleUtil.javapackage com.kettle;import org.pentaho.di.core.KettleEnvironment;import o...

2018-08-08 11:01:32 5594 3

原创 kettle-集群模式启动，报错：Unable to start blueprint container for bundle pentaho-big-data-impl-vfs-hdfs

问题未解决，不用往下看了[root@lx01 data-integration]# ./carte.sh 192.168.50.232 8080Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.015:11:41,466 INFO ...

2018-07-24 15:28:01 8583 6

原创 kettle-java代码执行转换并获取步骤度量

1.windows部署成功kettle并能成功运行。如果没有成功详见kettle windows部署方法2.在eclipse中新建一个java项目或者maven项目，jdk配置为1.8.3.将下图中的jar包从kettle安装路径下lib目录copy到项目中，并build path4.执行运行4.1.运行ktr文件注意：本次要运行ktr文件涉及到postgresql一次同时...

2018-07-23 10:16:18 3488 1

原创 kettle-linux中执行hive的ktr报错：Error connecting to database: using class org.apache.hive.jdbc.HiveDriver

1.将windows环境中产生的ktr文件上传到linux环境中执行[root@lx02 data-integration]# ./pan.sh -file=/opt/cm/hadoop/pdi-ce-7.1.0.0-12/data-integration/workspace/hivetorizhi.ktr >> /opt/cm/hadoop/pdi-ce-7.1.0.0-12/...

2018-07-19 17:35:31 11056

原创 kettle-linux环境单机版部署并测试执行

1.linux环境下jdk部署linux环境新建存放安装包的路径:[root@lx01 ~]# mkdir -p /opt/cm/hadoop 上传jdk的压缩包至该路径：解压压缩包:[root@lx01 hadoop]# ll总用量 181192-rw-r--r--. 1 root root 185540433 7月 12 11:23 jdk-8u131-linux-x64.tar.gz...

2018-07-12 14:36:07 5607 1

原创 kettle-windows环境部署

1.java环境kettle环境需要jdk1.8，操作步骤是执行jdk-8**-windows-x64.exe安装包，安装教程自行搜索，然后在计算机-属性-高级系统设置-环境变量，用户变量中添加JAVA_HOME=java安装路径（bin目录的上一目录，切记），系统变量中path的末尾添加";%JAVA_HOME%\bin\"（切记前面带单引号），添加CLASSPATH项，值为%JAVA_HOME...

2018-07-12 11:10:25 2617

原创 kettle-部署包下载

1.下载kettlekettle7.1版本以下的下载路径：点击打开链接kettle8.0版本的下载路径：点击打开链接选择prd-ce-8.0.0.0-28.zip即可下载kettle8.1版本的下载路径：点击打开链接选择pdi-ce-8.1.0.0-365.zip即可下载各个版本的安装包，均太大，请慎重下载。...

2018-07-12 11:05:14 5411

原创 kettle-创建资源库

1.资源库的介绍 kettle资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。资源库有两种形式：一、Kettle database repository，即保存在各种常见的数据库资源库类型，用户通过用户名/密码来访问资源库中的资...

2018-06-25 16:51:30 11526

原创 kettle-新建资源库connect资源库灰色解决

kettle部署成功以后，新建资源库时，选项是灰色的。解决办法：将系统的ie浏览器升级至9或者以上。 connect成功：

2018-06-25 15:23:57 7512 2

kettle执行hive相关ktr时报错： database type with plugin id [HIVE2] couldn't be found!

java代码执行hive相关ktr时报错： database type with plugin id [HIVE2] couldn't be found! 解决：kettle-core-7.1.0.0-12.jar适配hive后的包。具体步骤请查看https://blog.csdn.net/m0_37618809/article/details/81632342

2019-04-02

spark经过maven编译后的spark-assembly包

cdh环境中的spark不支持sparksql,现必须用到sparksql编译spark源码获取spark-assembly包替换即可完成

2019-01-02

linux环境下部署kettle，执行kitchen.sh文件报错后提示安装 libwebkitgtk 所需rpm包

kettle-linux环境下部署kettle，执行kitchen.sh文件报错后安装 libwebkitgtk，提示没有可用软件包libwebkitgtk 详细流程：https://blog.csdn.net/m0_37618809/article/details/81015492#commentBox

2018-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人