菜鸟也有梦想啊-CSDN博客

原创 CDH部署Hive、Spark、oozie、hue、sqoop等

hive spark cdh

2022-07-18 10:08:46 1100

原创关于gitlab api的一点使用，以及简单的gitlab工具类

工作中难免需要使用gitlab api来完成某些任务，现在写点这几天对gitlab api的一点使用心得。公司有实时计算平台，上面的文件是保存git中，但是平台需要进行版本控制，也就是需要回滚、对比等操作，单纯的使用git命令，底层调用Linux命令太麻烦，比如需要回滚到某文件的某个commitID，需要使用git log filename拿到commitid，然后git reset 也好，其余git命令也好，完成后也只是在本地完成，还需要push上去，当然，每次操作前也需要先pull...

2020-11-13 17:00:54 2226 2

原创用Python脚本扫码hdfs、oss中是否生成文件并钉钉报警最终版

其实之前的两个都存在一些问题，经过一天的思考，决定还是从数据库中读取到path和topic信息，进行处理，之前的钉钉报警也只是检查了最后一次生成文件的时间是否符合我们的预期，现在进行进一步的完善，得到如下代码并完成这个需求。# -*- coding: utf-8 -*-import sysfrom commands import *import datetimeimport pymysqlimport functoolsimport requestspt = datetime.dat

2020-09-27 20:57:47 209

原创用Python脚本扫码hdfs、oss中是否生成文件并钉钉报警

之前的需求有点变化，需要读取topic后去生成自动运行监测的脚本，因此需要监测两小时的数据，同时出现问题还需要钉钉报警。思路，在数据库中添加一个字段，isMonitor，1表示监控状态，0表示未监控状态。从库中读出所有的topic，将他们按照“，”分割去处理，path直接到代码中写死，因为我们使用的表的格式比较像，当然也可以直接从数据库中读取path# -*- coding: utf-8 -*-import sysfrom commands import *import datetime

2020-09-27 13:23:56 234

原创用Python脚本扫码hdfs、oss中是否生成文件

现在有一个需求，公司每天会将从各个渠道，比如kafka或者sls中的数据和日志定期一小时存放在hdfs或者oss中，但是不能每一次间隔一小时都去使用命令去查看是否生成文件。现在需要写一个脚本去扫描，但是因为数据库表中的topic不是一个，而是一个topic.list，存放的路径也各不相同，但是基本路径时候一致的，因此在建表的时候使用基本路径+标识符去建表，在脚本中将标识符替代。基本路径：hdfs://aaa/bbb/ccc/log/topic_name/pttopic_name就是当前扫描的top

2020-09-24 11:45:25 280

原创 spring boot jpa 中Error executing DDL via JDBC Statement

除了网上的改MySQL方言外，还要注意报错的那张表中的字段是否使用了数据库保留字段，比如：desc，insert这类，同样会报这个错误，解决方法就是将字段名更改，不要使用数据库中的保留字段。

2020-07-27 13:59:54 1060

原创 flinl使用scala读取SLS中的数据过程问题（scala与Java互通问题）

在读取阿里的SLS数据中，得到了类似kafka的数据，在使用scala进行开发过程中，获取文本中字段失败，找不到方法，最终排除发下是SLS原生是Java编写，在处理中使用scala开发过程中要注意scala不是完全可以直接使用Java的基本数据类型，需要引入import scala.collection.JavaConverters._进行转换，使用asScala方法将原生Java改为scala 问题得到解决。一定是import scala.collection.JavaConvert

2020-07-16 16:48:05 170

原创剑指offer：找出数组中的重复的数字Java版

题目：在一个长度为n的数组里的所有数字都在 0~n-1的范围内。数组中某些数字是重复的，但不知道有几个数字是重复的，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。例如：如果输入长度为7的数组{2,3,1,0,2,5,3}，那么对应的输出的是重复的数字2或者3。先说一下简单的做法：思路：将数组排好序，再遍历数组，找到数组中的重复数字即可。使用快排...

2019-07-25 14:47:45 563

原创分别用递归和非递归的方式实现二叉树先序、中序和后序遍历

分析：先序：访问根节点、先序遍历左子树、先序遍历右子树中序：中序遍历左子树，访问根节点，中序遍历右子树后序：后序遍历左子树，后序遍历右子树，访问根节点因此，递归实现就很简单public class test3 { public class Node{ private int value; private Node leftNode; ...

2019-07-22 10:49:46 830

原创在单链表和双链表中删除倒数第K个节点

题目：分别实现两个函数，一个可以删除单链表中倒数第K个节点，另一个可以删除双链表中倒数第K个节点思路：如果链表为空或者K值小于1的情况下，直接返回链表。否则让链表从头往后走，没走一步，K值减一，有一下几种情况链表为1-2-3-4-5，K值为6很显然，链表不存在倒数第六个节点链表为1-2-3-4-5，K值为5倒数第5个节点为1节点...

2019-07-22 09:54:09 542

原创用一个栈实现另外一个栈的排序

题目：一个栈中的类型为整形，现在想将该栈从顶到底按从小到大的顺序排序，只允许申请一个栈除此之外，可以申请新的变量，但是不能申请额外的数据结构，如何完成排序。思路：设计一个cur变量，存放stack栈弹出的当前元素，和辅助栈help的栈顶元素进行比较，若大于辅助栈栈顶元素，则将辅助栈中元素一一弹出，压入stack栈中，若小于辅助栈栈顶元素，则将cur压...

2019-07-22 08:48:55 263 1

原创打印两个有序链表的公共部分

题目：给定两个有序链表的头指针head1和head2，打印两个链表的公共部分思路：因为是有序链表，只需要从俩个链表的头开始判断 1、当head1小于head2的时候，head1向后移动 2、当head1大于head2的时候，head2向后移动 3、当head等于head2的时候，打印，head1和head2都向后移动...

2019-07-21 18:39:23 354

原创由两个栈组成的队列

题目：编写一个类，用两个栈实现队列，支持队列的基本操作（add，poll，peek）思路：* 栈的特点是先进后出，队列的特点是先进先出，因此我们只需要* 定义两个栈，其中一个作为压入栈stackPush,另一个作为弹出栈stackPop* 将数据压入stackPush中，然后全部弹出放入stackPop中，* 比如，将12345放入stackPush...

2019-07-21 18:19:54 151

原创输入一个整数和一棵二元树

输入一个整数和一棵二元树。从树的根结点开始往下访问一直到叶结点所经过的所有结点形成一条路径。打印出和与输入整数相等的所有路径。例如输入整数22 和如下二元树 10 / \ 5 12 / \ 4 7则打印出两条路径：10, 12 和10, 5, 7。使用递归+回溯的方法思路： (1）若根节...

2019-07-19 14:49:59 2662 1

原创 idea使用jdbc连接hive的报错总结

1、java.sql.SQLException: org.apache.thrift.transport.TTransportException: SASL authentication not complete遇到这种错误，首先看看是否还未进行工作已经关闭了连接public void insert() throws Exception{ PreparedStatemen...

2019-06-04 10:51:39 2429

原创查询学生成绩在80之上的学生信息

Java：package cn.spark.sql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkCon...

2019-05-21 20:32:40 2807

原创使用反射的方式将RDD转换为DataFrame

Java：package cn.spark.sql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.functio...

2019-05-18 11:06:35 375

原创 HBASE60010端口无法访问web界面问题

搭建好Hadoop集群以及HBASE之后，只用60010端口无法访问HBASE web界面集群搭建环境配置文件配置完全正确解决方法：HBASE1.0之后端口发生改变现在的端口是 16010...

2019-05-16 22:18:51 8294

翻译 spark宽依赖以及窄依赖

spark宽依赖以及窄依赖

2019-05-15 22:35:31 118

原创 spark取一个班级的排名topN

java：package cn.spark.sparktest;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.ap...

2019-05-15 20:31:03 627

原创 spark取一串字的topN

Java：package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i...

2019-05-15 17:39:06 438

原创自定义实现二次排序

Java：package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS...

2019-05-15 16:50:23 358

原创基于排序机制的Wordcount程序

Java版：package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;...

2019-05-15 09:27:23 535

原创 Spark算子实战action（Scala）

1、reduce算子package cn.spark.study.coreimport org.apache.spark.{SparkConf, SparkContext}object actionOpertion { def main(args: Array[String]): Unit = { reduce() } def reduce(): Unit ...

2019-05-14 19:46:00 300

原创 Spark算子实战action（Java）

1、reduce算子操作package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSpa...

2019-05-14 19:45:46 596

原创 Spark算子实战transforma（Scala）

map算子：将集合中的每个元素乘2package cn.spark.study.coreimport org.apache.spark.{SparkConf, SparkContext}object transformationOpertion { def main(args: Array[String]): Unit = { map() } def map()...

2019-05-13 22:56:06 855

原创 Spark算子实战transforma（Java）

map算子：将集合中的每个元素乘2package cn.spark.sparktest;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark...

2019-05-13 22:53:12 1361

原创使用idea开发Scala的Wordcount程序并提交到spark集群中

开发准备，idea，配置了Scala的win10电脑，因为集群中的spark是1.6版本，所以需要Scala的版本为Scala2.10.5接下来，将spark的包在win10解压，将lib目录下的复制一份到一个不含中文的目录中，jar包会有两个，我们需要的是大的那个。打开idea新建工程，按图选择选择Scala版本，选择2.10.5的，因为之前安装过2.11的，需要选择到2...

2019-05-11 16:05:16 866

原创使用idea开发Java的Wordcount程序并提交到spark集群运行

首先，我们需要确保集群已搭建好，win10安装idea，打开idea，选择创建maven项目然后next，finish。工程打开后再pom.xml中添加依赖，选择启动导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...

2019-05-11 15:39:06 3577

原创大数据学习之路（六）spark

spark什么是spark：spark是一个计算框架 MR是一个批量处理框架，和spark里的spark-core一样spark和MR的比较：Spark相比MR速度快，MR作为一个job，在中间环节中结果是...

2019-05-11 11:41:35 170

原创 CentOS6.5安装spark

安装spark包1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。2、解压缩spark包：tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。3、更改spark目录名：mv spark-1.3.0-bin-hadoop2.4 spark4、设置spark环境变量vi ~/.bashrc...

2019-05-05 22:23:25 670

原创 CentOS6.5安装Scala和kafka

安装Scala2.11.41、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。2、对scala-2.11.4.tgz进行解压缩：tar -zxvf scala-2.11.4.tgz。3、对scala目录进行重命名：mv scala-2.11.4 scala4、配置scala相关的环境变量vi ~/.bashrcexport...

2019-05-05 21:57:39 326

原创 CentOS6.5安装zookeeper

安装zookeeper包1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。2、对zookeeper-3.4.5.tar.gz进行解压缩：tar -zxvf zookeeper-3.4.5.tar.gz。3、对zookeeper目录进行重命名：mv zookeeper-3.4.5 zk。4、配置zookeeper相关的环...

2019-05-05 21:32:22 807

原创 CentOS6.5安装hive

安装hive包1、将apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。2、解压缩hive安装包：tar -zxvf apache-hive-0.13.1-bin.tar.gz。3、重命名hive目录：mv apache-hive-0.13.1-bin hive4、配置hive相关的环境变量vi ~/.ba...

2019-05-05 21:09:18 535 1

原创 CentOS6.5中安装Hadoop

安装Hadoop包1、使用课程提供的hadoop-2.4.1.tar.gz，使用WinSCP上传到CentOS的/usr/local目录下。2、将hadoop包进行解压缩：tar -zxvf hadoop-2.4.1.tar.gz3、对hadoop目录进行重命名：mv hadoop-2.4.1 hadoop4、配置hadoop相关环境变量vi ~/.bashrcexpor...

2019-05-05 20:38:44 729 2

原创 Virtual Box 安装centOS6.5

需要：win7电脑一台，Virtual Box 4.1，CentOS 6.5，SecureCRT，WinSCP安装包会打包在一起在文末附上地址CentOS6.5安装1使用提供的CentOS 6.5镜像即可，CentOS-6.5-i386-minimal.iso。2、创建虚拟机：打开Virtual Box，点击“新建”按钮，点击“下一步”，输入虚拟机名称为spark1，选择操作系统为...

2019-05-04 19:47:40 751 1