自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mthinking

日常

  • 博客(136)
  • 资源 (1)
  • 收藏
  • 关注

原创 curl 操作 Elasticsearch

_cat系列命令_cat系列命令提供了一系列查询elasticsearch集群状态的接口。你可以通过执行下面请求,获取所有_cat系列操作 curl -XGET localhost:9200/_cat=^.^=/_cat/allocation/_cat/shards/_cat/shards/{index}/_cat/master/_cat/nodes/_cat/indices/_cat/indices/{index}/_cat/segments/_cat/segments/{inde

2022-01-14 18:36:17 1119

原创 CDH最新maven仓库地址

CDH最新maven仓库地址 <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository>

2021-11-24 13:59:45 1309

原创 2021-09-02

oracle 修改数据库编码修改数据库编码步骤查看当前数据库编码,来源于props$,这是表示数据库的字符集SQL> select * from nls_database_parameters where parameter ='NLS_CHARACTERSET';PARAMETER--------------------VALUE--------------------NLS_CHARACTERSETAL32UTF8查看oracle客户端编码SQL> select * f

2021-09-02 16:11:41 137

原创 CDH 安装hadoop Datanode启动失败

启动WARN晚上11点09:05.570分 WARN NativeCodeLoader Unable to load native-hadoop library for your platform… using builtin-java classes where applicable晚上11点09:05.892分 WARN EventStorePublisherWithRetry Fai...

2020-04-26 23:44:20 979 3

原创 ElasticSearch异常ElasticSearch异常 too_long_frame_exc4096 reason:An HTTP line is larger than 4096 bytes

记录一次ES查询异常由于我们项目的数据量比较大,这样如果把所有的数据都存储在一个ES索引,在ES数据清理时会有点麻烦,而且效率低下,所以改为每天一个索引,这样就有了很多索引。这就造成了我们按区间批量查询的时候,后传很多索引名称,也就出现了too_long_frame_exception异常。解决办法:设置ES参数(具体大小根据自己实际情况设置):http.max_initial_line...

2020-04-13 11:18:42 2279 1

原创 spark maven项目加入scala

POM文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...

2019-12-31 15:49:37 206

原创 Azkaban two-server模式安装

下载git地址git clone命令:git clone https://github.com/azkaban/azkaban.git编译下载完成后,在azkaban目录下,执行命令: ./gradlew build -x testcopy编译后的文件创建文件夹:mkdir -p /soft/azkabancd 到刚才编译Git下载的目录,执行下面命令copy压缩文件:cp -...

2019-12-09 11:11:04 214

原创 Spark 广播变量和计数器

spark广播变量 将外部变量发送到executor中使用。注意事项1、不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。2、 广播变量只能在Driver端定义,不能在Executor端定义。3、 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。4、如果executor端用到了Driver的变量,如果不使用广播变量在Executor有多少ta...

2019-12-05 15:23:12 978

原创 es初学

es关键词 索引:含有相同属性的文档集合 必须是英文字母小写,且不含中划线 类型: 索引可以定义一个或多个类型,文档必须属于一个类型 文档:文档是可以被索引的基本数据单位,是ES中的最小存储单位 分片:每个索引都有多个分片,每个分片是一个Lucene索引 ES索引默认5个分片,分片指定后不可以修改,备份数可以修改。 备份:拷...

2019-11-28 21:00:14 420

原创 CDH相关大数据文件包下载地址-

下载CDH包地址:http://archive.cloudera.com/cdh5/cdh/5/kafka下载地址:http://archive.cloudera.com/kafka/kafka/zookeeper下载地址:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.14.4.tar.gz注:可根据...

2019-09-28 19:54:16 524

原创 crontab 配置使用

cron服务  cron是一个linux下 的定时执行工具,可以在无需人工干预的情况下运行作业。  service crond start //启动服务  service crond stop //关闭服务  service crond restart//重启服务  service crond reload //重新载入配置  service crond stat...

2019-08-21 23:16:31 751

原创 Spring boot 配置多数据源并使用连接池管理 - mysql - hive

1、搭建springboot项目,项目目录如下:2.部分配置源码如下,不想自己配置的小伙伴可以直接去github下载,github地址:github项目地址:yml配置:spring: datasource: #使用druid连接池 type: com.alibaba.druid.pool.DruidDataSource# 自定义的主数据源配置信息prim...

2019-08-11 22:52:54 4364

原创 git 子分支强制覆盖master分支

1 把本地的 develop 分支强制(-f)推送到远程 master但是上面操作,本地的 master 分支还是旧的,通常来说应该在本地做好修改再去 push 到远端,所以我推荐如下操作git push origin develop:master -f2 切换到旧的分支git checkout master3 将本地的旧分支 master 重置成 develop...

2019-08-01 23:34:25 1378 2

原创 Nginx 服务器搭建

Nginx 安装1.准备服务器:5台(可改变数目)2.下载Nginx:nginx-1.17.0.tar.gz(可自由选择版本)下载地址:http://nginx.org/en/download.html3.选择一台服务器,解压Nginx##解压文件到soft文件夹下tar -xzvf nginx-1.17.0.tar.gz -C /soft/4.安装:a).安装g+...

2019-06-01 11:12:15 162

原创 Spark master HA 高可用模式

standalone和mesos集群部署情况: 使用zk连接多个mast er并存储state(只对standalone和mesos有用),master主要负责调度。[配置][spark/conf/spark-env.sh]export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspar...

2019-05-07 16:42:11 774

原创 Spark 集群

Spark集群部署模式 1.local 2.standalone 3.mesos 4.yarnSpark闭包处理 分区列表,function,dep Option(分区类, Pair[Key,Value]),首选位置。 运行job时,spark将rdd打碎变换成task,每个task由一个executor执行。执行 之前,spark会进...

2019-05-07 15:33:23 219

原创 Spark 机器学习

机器学习 1.监督学习 有训练数据集。规范数据。合规数据。产生推断函数.然后对新数据应用函数。 director actor edit Label 2.非监督学习 没有训练数据。 分组。 3.推荐 协同过滤. 猜测你喜欢. 电商。Spar...

2019-05-07 14:56:42 730

原创 Spark streaming中的容错

如果executor故障,所有未被处理的数据都会丢失,解决办法可以通过wal(hbase,hdfs/WALs)方式 将数据预先写入到hdfs或者s3. 如果Driver故障,driver程序就会停止,所有executor都是丢失连接,停止计算过程。解决办法需要配置和编程。 1.配置Driver程序自动重启,使用特定的clustermanager实现。 2.重启时...

2019-05-07 14:48:14 195

原创 Spark Spark Streaming集成kafka

1.启动kafka集群 a.启动zk b.启动kafka 2.引入pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-str...

2019-05-07 14:38:46 103

原创 Sqoop 1.4.7安装与配置

sqoop 安装1下载下载地址:http://www.apache.org/dyn/closer.lua/sqoop/1.4.72.解压tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /soft/3.配置a)环境变量export SQOOP_HOME=/soft/sqoopexport PATH=$PATH:$...

2019-05-06 00:07:46 1626

原创 Sqoop 1.99.7安装与配置

sqoop: RDBMS和hdfs之间进行数据的export/import,工具Sqoop安装1.下载 下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/2.解压tar -xzvf sqoop-1.99.7-bin-hadoop200.tar.gz -C /soft/3.配置环境变量...

2019-05-05 17:24:09 350

原创 Kafka 集群启动、停止脚本

1.配置ssh免密码登录。 参考链接:https://blog.csdn.net/mao502010435/article/details/865735892.编写启动脚本创建启动脚本文件:start-kafkas.sh编写脚本:#!/bin/shfor host in s202 s203 s204do ssh $host "source /etc/p...

2019-05-04 16:54:10 1281

原创 Zookeeper 集群启动、停止脚本

1.配置ssh免密码登录。 参考链接:https://blog.csdn.net/mao502010435/article/details/865735892.编写启动脚本创建启动脚本文件:start-zkservers.sh#!/bin/shfor i in s201 s202 s203do echo "======================== ...

2019-05-04 16:48:47 1278

原创 Spark Streaming 集成kafka

1.启动kafka集群2.引入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> ...

2019-05-04 14:34:44 213

原创 Spark Streaming Dstream Receiver

1.介绍 是spark core的扩展,针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka,flume,tcpsocket,使用高级函数(map reduce filter ,join , windows), 处理的数据可以推送到database,hdfs,针对数据流处理可以应用到机器学习和图计算中。 内部...

2019-05-04 13:20:11 172

原创 Spark 分布式SQL引擎,ThriftServer

1.准备: 分发 [/soft/hadoop/etc/hadoop/] core-site.xml hdfs-site.xml [/soft/hive/conf/] hive-site.xml 三个文件到所有worker节点的spark/conf目录下 2.启动spark...

2019-05-03 22:48:28 226

原创 Spark 整合hive

1.hive的类库需要在spark worker节点。 默认spark中包含了hive类库 2.复制core-site.xml(hdfs) + hdfs-site.xml(hdfs) + hive-site.xml(hive)三个文件 到spark/conf下。 cp /soft/hive/conf/hive-site.xml /soft...

2019-05-03 22:11:09 218

原创 Spark JDBC操作mysql

package com.mao.scala.java;import org.apache.spark.SparkConf;import org.apache.spark.sql.*;import java.util.Properties;/** * spark jdbc操作mysql */public class SQLJDBCJava { public static...

2019-05-03 22:07:32 727

原创 Spark SQL

Hive //hadoop mr sql pheonix //hbase之上构建sql交互过程 该模块能在spark运行sql语句。 DataFrame //收据框.表. SparkSQL //SQL | DataFrame API. 使用类似SQL方式访问hadoop,...

2019-05-03 21:59:59 1112

原创 Spark RDD持久化

spark上下文package com.mao.scalaimport org.apache.spark.{SparkConf, SparkContext}object WordCountDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf(); conf.setAppN...

2019-05-03 20:39:30 174

原创 Spark API

[SparkContext] 连接到spark集群,入口点. [HadoopRDD] 读取hadoop上的数据, [MapPartitionsRDD] 针对父RDD的每个分区提供了函数构成的新类型RDD. [PairRDDFunctions] 对偶RDD函数类。 可用于KV类型RDD的附加...

2019-05-03 14:46:29 287

原创 Spark 集成hadoop ha

spark集成hadoop ha1.复制core-site.xml + hdfs-site.xml到spark/conf目录下xcall cp /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/xcall cp /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/2...

2019-04-30 18:05:01 614

原创 Spark RDD

RDD : Resilient Distributed Dataset,弹性分布式数据集 是spark的基本数据结构,是不可变数据集。RDD中的数据集进行逻辑分区,每个分区可以单独在集群节点进行计算。可以包含任何java,scala,python和自定义类型。 RDD是只读的记录分区集合。RDD具有容错机制。 创建RDD方式,一、并行化一个现有集合。 had...

2019-04-30 17:26:49 287

原创 Spark scala 文件编译后找不到问题

在Pom文件中添加如下插件解决: <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <plugin> <groupId>org.apache....

2019-04-30 16:46:00 440

原创 Spark 脚本分析

[start-all.sh] sbin/spark-config.sh sbin/spark-master.sh //启动master进程 sbin/spark-slaves.sh //启动worker进程 [start-master.sh] sbin/spark-config.sh ...

2019-04-29 16:26:37 121

原创 Spark 集群模式

Spark 集群搭建 a)复制spark目录到其他主机 b)配置其他主机的所有环境变量 [/etc/profile] SPARK_HOME PATH c)配置master节点的slaves [/soft/spark/conf/slaves] ...

2019-04-29 16:25:42 291

原创 Spark 实现word count

API [SparkContext] Spark程序的入口点,封装了整个spark运行环境的信息。 代表到Spark集群的连接,可以创建RDD、累加器和广播变量. 每个JVM只能激活一个SparkContext对象,在创建sc之前需要stop掉active的sc。 [RDD] resilient dist...

2019-04-29 16:18:47 2666

原创 Spark 安装

Spark:Lightning-fast cluster computing。 快如闪电的集群计算。 大规模快速通用的计算引擎。 速度: 比hadoop 100x,磁盘计算快10x 使用: java / Scala /R /python 提供80+算子(操作符),容易构建并行应用。 通用: 组合SQL ,流计算 +...

2019-04-29 15:35:11 134

原创 Scala 学习笔记

scala:java语言的脚本化REPL :read + evaluate + print + loop //读 求值 打印 循环val //常量var //变量typeinfer //类型推断安装scala解释程序1.下载 下载地址:https://www.scala-lang.org...

2019-04-29 09:19:22 247

原创 Storm 整合Kafka、Hbase

通过storm将kafka生产者发送的消息保存到Hbasepom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"...

2019-04-28 09:59:08 204

springbootmysqlHive.zip

springboot项目,使用durid连接池,管理mysql多数据源,hive连接

2019-08-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除