自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 kettlle的windows集群的搭建

Windows上kettle集群搭建(三台)10.0.130.101(master) 10.0.130.101(slave) 10.0.130.101(slave)1.解压kettle包到本地文件夹2.首先确认本机是否有tomcat运行,因为kettle集群的master默认采用8080端口,这和tomcat的默认端口是冲突的,当然可以进行端口修改,自定义使用端口3.打开kettle的安装目录,进入到data-integration->pwd目录,找到carte-config-master-

2020-10-17 09:59:06 267

原创 SparkSQL基于Hbase自定义数据源

package object hbase {//类型的封装(spark和hbase)abstract class SchemaField extends Serializable//spark的schema封装case class RegisterSchemaField(fieldName:String , fieldType:String) extends SchemaField with Serializable//hbase的schema封装case class HbaseSchemaFi

2020-09-09 17:27:01 370

原创 sparkStreaming监控的两种方式

注意:里面用到的一些特殊类或者接口请看我的离线监控就能找到import com.cartravel.loggings.Loggingimport com.cartravel.tools.{PropertiesUtil, SparkMetricsUtils}import org.apache.spark.rdd.RDDimport org.joda.time.DateTimeimport org.json4s.DefaultFormatsimport org.json4s.jackson.Json

2020-09-09 13:56:05 1204

原创 spark基于源码进行离线任务监控

import javax.mail.Authenticator;import javax.mail.Message.RecipientType;import javax.mail.PasswordAuthentication;import javax.mail.Session;import javax.mail.Transport;import javax.mail.internet.InternetAddress;import javax.mail.internet.MimeMessage;

2020-09-09 10:31:24 328 1

原创 手动管理kafka的偏移量

package com.cartravel.kafkaimport java.lang.Longimport kafka.utils.{ZKGroupTopicDirs, ZkUtils}import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord, KafkaConsumer, NoOffsetForPartitionException}import org.apache.kafka.common.TopicPar

2020-09-09 09:09:50 551

原创 spark读取多目录生成parquet文件

package mcd.etl.cosmosimport java.io.Fileimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject scalaMegreData {def main(args: Array[String]): Unit = {val conf = new SparkConf().setMaster(“local[*]”).setAppName(“scalaMegreDat

2020-08-17 11:30:33 723

原创 spark读取hdfs上的多目录parquet文件

package mcd.etl.cosmosimport java.io.{File, PrintWriter}import java.net.URIimport org.apache.hadoop.conf.{Configurable, Configuration}import org.apache.hadoop.fs.Pathimport org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SparkSessio

2020-08-17 11:29:06 1597

原创 KNN算法简单操作 和 KNN的决策边界

KNN(属于监督学习)中几个需要考虑的问题:(1)怎样把一个物体表示成一个向量(2)怎样标记好每一个物体的标签(3)怎么计算两物体之间的距离/相似度(4)怎样选择合适的k注:第一个的数据来源于sklearn这学习库中from sklearn import datasets #使用自带数据集from sklearn.model_selection import train_test_...

2019-12-13 13:54:20 2071

原创 使用python语言编写的快速排序和冒泡排序

一:快速排序def qsort(my_list):if len(my_list) <= 1: return my_listreturn qsort([left_list for left_list in my_list[1:] if left_list < my_list[0]]) + my_list[0:1] + qsort([right_list for right_li...

2019-11-29 15:30:15 269

原创 python中装饰器的使用以及传参

def args_is_str(function_name):def wapper(a):t = type(a)if not isinstance(t(),str):print(“参数错误”)else:function_name(a)return wapper@args_is_strdef function_demo2(args):print(args)function_d...

2019-11-29 15:22:34 106

原创 centos7启动jenkins的问题

启动命令:systemctl start jenkins报错:Job for jenkins.service failed because the control process exited with error code. See “systemctl status jenkins.service” and “journalctl -xe” for details.在执行:[cento...

2019-11-13 13:51:00 2856

原创 spark-sql读取hdfs上的文件保存到redis中,这里是redis以集群模式为主

package sparkSqlimport org.apache.spark.SparkConfimport java.utilimport java.util.Propertiesimport org.apache.commons.math3.linear.SparseFieldVectorimport org.apache.commons.pool2.impl.GenericObj...

2019-10-09 10:29:22 1099

原创 spark集成springboot

关于springboot与spark集成 问题:就是我当时spark作业想要用spark-submint去提交,但是我spark的作业结果是要展示到前端页面上,当时不知道怎么去做,就针对这个问题让...

2019-09-26 18:02:44 1099

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除