一只小菜鸟(*￣︶￣)-CSDN博客

原创 curl 操作 Elasticsearch

_cat系列命令_cat系列命令提供了一系列查询elasticsearch集群状态的接口。你可以通过执行下面请求，获取所有_cat系列操作 curl -XGET localhost:9200/_cat=^.^=/_cat/allocation/_cat/shards/_cat/shards/{index}/_cat/master/_cat/nodes/_cat/indices/_cat/indices/{index}/_cat/segments/_cat/segments/{inde

2022-01-14 18:36:17 1119

原创 CDH最新maven仓库地址

CDH最新maven仓库地址 <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository>

2021-11-24 13:59:45 1309

原创 2021-09-02

oracle 修改数据库编码修改数据库编码步骤查看当前数据库编码，来源于props$，这是表示数据库的字符集SQL> select * from nls_database_parameters where parameter ='NLS_CHARACTERSET';PARAMETER--------------------VALUE--------------------NLS_CHARACTERSETAL32UTF8查看oracle客户端编码SQL> select * f

2021-09-02 16:11:41 137

原创 CDH 安装hadoop Datanode启动失败

启动WARN晚上11点09:05.570分 WARN NativeCodeLoader Unable to load native-hadoop library for your platform… using builtin-java classes where applicable晚上11点09:05.892分 WARN EventStorePublisherWithRetry Fai...

2020-04-26 23:44:20 979 3

原创 ElasticSearch异常ElasticSearch异常 too_long_frame_exc4096 reason：An HTTP line is larger than 4096 bytes

记录一次ES查询异常由于我们项目的数据量比较大，这样如果把所有的数据都存储在一个ES索引，在ES数据清理时会有点麻烦，而且效率低下，所以改为每天一个索引，这样就有了很多索引。这就造成了我们按区间批量查询的时候，后传很多索引名称，也就出现了too_long_frame_exception异常。解决办法：设置ES参数（具体大小根据自己实际情况设置）：http.max_initial_line...

2020-04-13 11:18:42 2279 1

原创 spark maven项目加入scala

POM文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...

2019-12-31 15:49:37 206

原创 Azkaban two-server模式安装

下载git地址git clone命令：git clone https://github.com/azkaban/azkaban.git编译下载完成后，在azkaban目录下，执行命令： ./gradlew build -x testcopy编译后的文件创建文件夹：mkdir -p /soft/azkabancd 到刚才编译Git下载的目录，执行下面命令copy压缩文件：cp -...

2019-12-09 11:11:04 214

原创 Spark 广播变量和计数器

spark广播变量将外部变量发送到executor中使用。注意事项1、不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor端定义。3、在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。4、如果executor端用到了Driver的变量，如果不使用广播变量在Executor有多少ta...

2019-12-05 15:23:12 978

原创 es初学

es关键词索引：含有相同属性的文档集合必须是英文字母小写，且不含中划线类型: 索引可以定义一个或多个类型，文档必须属于一个类型文档：文档是可以被索引的基本数据单位，是ES中的最小存储单位分片：每个索引都有多个分片，每个分片是一个Lucene索引 ES索引默认5个分片，分片指定后不可以修改，备份数可以修改。备份：拷...

2019-11-28 21:00:14 420

原创 CDH相关大数据文件包下载地址-

下载CDH包地址：http://archive.cloudera.com/cdh5/cdh/5/kafka下载地址：http://archive.cloudera.com/kafka/kafka/zookeeper下载地址：http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.14.4.tar.gz注：可根据...

2019-09-28 19:54:16 524

原创 crontab 配置使用

cron服务　　cron是一个linux下的定时执行工具，可以在无需人工干预的情况下运行作业。　　service crond start //启动服务　　service crond stop //关闭服务　　service crond restart//重启服务　　service crond reload //重新载入配置　　service crond stat...

2019-08-21 23:16:31 751

原创 Spring boot 配置多数据源并使用连接池管理 - mysql - hive

1、搭建springboot项目，项目目录如下：2.部分配置源码如下，不想自己配置的小伙伴可以直接去github下载，github地址：github项目地址：yml配置：spring: datasource: #使用druid连接池 type: com.alibaba.druid.pool.DruidDataSource# 自定义的主数据源配置信息prim...

2019-08-11 22:52:54 4364

原创 git 子分支强制覆盖master分支

1 把本地的 develop 分支强制(-f)推送到远程 master但是上面操作，本地的 master 分支还是旧的，通常来说应该在本地做好修改再去 push 到远端，所以我推荐如下操作git push origin develop:master -f2 切换到旧的分支git checkout master3 将本地的旧分支 master 重置成 develop...

2019-08-01 23:34:25 1378 2

原创 Nginx 服务器搭建

Nginx 安装1.准备服务器：5台（可改变数目）2.下载Nginx:nginx-1.17.0.tar.gz（可自由选择版本）下载地址:http://nginx.org/en/download.html3.选择一台服务器，解压Nginx##解压文件到soft文件夹下tar -xzvf nginx-1.17.0.tar.gz -C /soft/4.安装：a).安装g+...

2019-06-01 11:12:15 162

原创 Spark master HA 高可用模式

standalone和mesos集群部署情况：使用zk连接多个mast er并存储state（只对standalone和mesos有用），master主要负责调度。[配置][spark/conf/spark-env.sh]export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspar...

2019-05-07 16:42:11 774

原创 Spark 集群

Spark集群部署模式 1.local 2.standalone 3.mesos 4.yarnSpark闭包处理分区列表,function,dep Option(分区类, Pair[Key,Value]),首选位置。运行job时，spark将rdd打碎变换成task,每个task由一个executor执行。执行之前，spark会进...

2019-05-07 15:33:23 219

原创 Spark 机器学习

机器学习 1.监督学习有训练数据集。规范数据。合规数据。产生推断函数.然后对新数据应用函数。 director actor edit Label 2.非监督学习没有训练数据。分组。 3.推荐协同过滤. 猜测你喜欢. 电商。Spar...

2019-05-07 14:56:42 730

原创 Spark streaming中的容错

如果executor故障，所有未被处理的数据都会丢失，解决办法可以通过wal(hbase,hdfs/WALs)方式将数据预先写入到hdfs或者s3. 如果Driver故障，driver程序就会停止，所有executor都是丢失连接，停止计算过程。解决办法需要配置和编程。 1.配置Driver程序自动重启，使用特定的clustermanager实现。 2.重启时...

2019-05-07 14:48:14 195

原创 Spark Spark Streaming集成kafka

1.启动kafka集群 a.启动zk b.启动kafka 2.引入pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-str...

2019-05-07 14:38:46 103

原创 Sqoop 1.4.7安装与配置

sqoop 安装1下载下载地址：http://www.apache.org/dyn/closer.lua/sqoop/1.4.72.解压tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /soft/3.配置a)环境变量export SQOOP_HOME=/soft/sqoopexport PATH=$PATH:$...

2019-05-06 00:07:46 1626

原创 Sqoop 1.99.7安装与配置

sqoop: RDBMS和hdfs之间进行数据的export/import,工具Sqoop安装1.下载下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/2.解压tar -xzvf sqoop-1.99.7-bin-hadoop200.tar.gz -C /soft/3.配置环境变量...

2019-05-05 17:24:09 350

原创 Kafka 集群启动、停止脚本

1.配置ssh免密码登录。参考链接：https://blog.csdn.net/mao502010435/article/details/865735892.编写启动脚本创建启动脚本文件：start-kafkas.sh编写脚本：#!/bin/shfor host in s202 s203 s204do ssh $host "source /etc/p...

2019-05-04 16:54:10 1281

原创 Zookeeper 集群启动、停止脚本

1.配置ssh免密码登录。参考链接：https://blog.csdn.net/mao502010435/article/details/865735892.编写启动脚本创建启动脚本文件：start-zkservers.sh#!/bin/shfor i in s201 s202 s203do echo "======================== ...

2019-05-04 16:48:47 1278

原创 Spark Streaming 集成kafka

1.启动kafka集群2.引入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> ...

2019-05-04 14:34:44 213

原创 Spark Streaming Dstream Receiver

1.介绍是spark core的扩展，针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka,flume,tcpsocket,使用高级函数(map reduce filter ,join , windows), 处理的数据可以推送到database,hdfs,针对数据流处理可以应用到机器学习和图计算中。内部...

2019-05-04 13:20:11 172

原创 Spark 分布式SQL引擎，ThriftServer

1.准备：分发 [/soft/hadoop/etc/hadoop/] core-site.xml hdfs-site.xml [/soft/hive/conf/] hive-site.xml 三个文件到所有worker节点的spark/conf目录下 2.启动spark...

2019-05-03 22:48:28 226

原创 Spark 整合hive

1.hive的类库需要在spark worker节点。默认spark中包含了hive类库 2.复制core-site.xml(hdfs) + hdfs-site.xml(hdfs) + hive-site.xml(hive)三个文件到spark/conf下。 cp /soft/hive/conf/hive-site.xml /soft...

2019-05-03 22:11:09 218

原创 Spark JDBC操作mysql

package com.mao.scala.java;import org.apache.spark.SparkConf;import org.apache.spark.sql.*;import java.util.Properties;/** * spark jdbc操作mysql */public class SQLJDBCJava { public static...

2019-05-03 22:07:32 727

原创 Spark SQL

Hive //hadoop mr sql pheonix //hbase之上构建sql交互过程该模块能在spark运行sql语句。 DataFrame //收据框.表. SparkSQL //SQL | DataFrame API. 使用类似SQL方式访问hadoop，...

2019-05-03 21:59:59 1112

原创 Spark RDD持久化

spark上下文package com.mao.scalaimport org.apache.spark.{SparkConf, SparkContext}object WordCountDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf(); conf.setAppN...

2019-05-03 20:39:30 174

原创 Spark API

[SparkContext] 连接到spark集群,入口点. [HadoopRDD] 读取hadoop上的数据， [MapPartitionsRDD] 针对父RDD的每个分区提供了函数构成的新类型RDD. [PairRDDFunctions] 对偶RDD函数类。可用于KV类型RDD的附加...

2019-05-03 14:46:29 287

原创 Spark 集成hadoop ha

spark集成hadoop ha1.复制core-site.xml + hdfs-site.xml到spark/conf目录下xcall cp /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/xcall cp /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/2...

2019-04-30 18:05:01 614

原创 Spark RDD

RDD : Resilient Distributed Dataset,弹性分布式数据集是spark的基本数据结构，是不可变数据集。RDD中的数据集进行逻辑分区，每个分区可以单独在集群节点进行计算。可以包含任何java,scala，python和自定义类型。 RDD是只读的记录分区集合。RDD具有容错机制。创建RDD方式，一、并行化一个现有集合。 had...

2019-04-30 17:26:49 287

原创 Spark scala 文件编译后找不到问题

在Pom文件中添加如下插件解决： <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <plugin> <groupId>org.apache....

2019-04-30 16:46:00 440

原创 Spark 脚本分析

[start-all.sh] sbin/spark-config.sh sbin/spark-master.sh //启动master进程 sbin/spark-slaves.sh //启动worker进程 [start-master.sh] sbin/spark-config.sh ...

2019-04-29 16:26:37 121

原创 Spark 集群模式

Spark 集群搭建 a)复制spark目录到其他主机 b)配置其他主机的所有环境变量 [/etc/profile] SPARK_HOME PATH c)配置master节点的slaves [/soft/spark/conf/slaves] ...

2019-04-29 16:25:42 291

原创 Spark 实现word count

API [SparkContext] Spark程序的入口点，封装了整个spark运行环境的信息。代表到Spark集群的连接，可以创建RDD、累加器和广播变量. 每个JVM只能激活一个SparkContext对象，在创建sc之前需要stop掉active的sc。 [RDD] resilient dist...

2019-04-29 16:18:47 2666

原创 Spark 安装

Spark：Lightning-fast cluster computing。快如闪电的集群计算。大规模快速通用的计算引擎。速度: 比hadoop 100x,磁盘计算快10x 使用: java / Scala /R /python 提供80+算子(操作符)，容易构建并行应用。通用: 组合SQL ，流计算 +...

2019-04-29 15:35:11 134

原创 Scala 学习笔记

scala：java语言的脚本化REPL ：read + evaluate + print + loop //读求值打印循环val //常量var //变量typeinfer //类型推断安装scala解释程序1.下载下载地址：https://www.scala-lang.org...

2019-04-29 09:19:22 247

原创 Storm 整合Kafka、Hbase

通过storm将kafka生产者发送的消息保存到Hbasepom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"...

2019-04-28 09:59:08 204

springbootmysqlHive.zip

空空如也