自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hello world

在做了...在做了...

  • 博客(112)
  • 资源 (3)
  • 收藏
  • 关注

原创 使用log4j将spark on yarn任务的日志发送到kafka

1.将spark streaming以yarn cluster运行后,查看日志是一件比较麻烦的事情。需要停止任务,再用yarn log命令收集。而这无疑违背了实时程序7-24运行的原则。2.在我搜索解决方法时,发现可以使用kafka-log4j-appender将日志发送到kafka的主题在maven引入依赖 <dependency> <groupId>org.apache.kafka</groupId>

2021-03-04 14:50:38 518 2

原创 Auto.js微信抢红包脚本

launchApp("微信")toastLog("准备抢红包,请将屏幕保持在微信的聊天窗口")device.keepScreenOn()//搜索新红包并点开领取function searchNewRedpacket () { var rp_msg_list = className("android.widget.TextView").id('u1').find(); if (rp_msg_list.length != 0) { log("检测到的红包个数: " + rp_msg_l

2021-02-11 14:28:13 12757 17

原创 java获取本机ip4地址(局域网内地址)

参考了https://www.cnblogs.com/starcrm/p/7071227.html取的局域网内地址,并过滤掉了可能会出现的virbr0地址(192.168.122.1)代码如下 private static String getLocalIp() throws SocketException { Enumeration allNetInterfaces = NetworkInterface.getNetworkInterfaces(); while

2021-02-10 10:18:22 922

原创 java使用dom4j生成xml文件

演示使用dom4j生成xml文件的情景。1.maven依赖<dependency> <groupId>dom4j</groupId> <artifactId>dom4j</artifactId> <version>1.6.1</version></dependency>2.示例 public static void main(String[] args) { // 创建了

2021-02-05 16:56:43 397

原创 从mysql和oracle获取表的字段信息(主键,注释,长度)

-- mysql-- 获取某个数据库下所有表注释,TABLE_SCHEMA即数据库名select table_schema,table_name,table_comment from information_schema.TABLES where TABLE_SCHEMA = ?;-- 例如select table_schema,table_name,table_comment from information_schema.TABLES where TABLE_SCHEMA = 'mydb';

2021-02-05 15:23:46 248

原创 win10使用idea阅读spark源码准备

win10使用idea阅读spark源码准备环境win10 + idea2019.3(scala 2.11.12插件) + maven3.6.0 + spark2.3.21.首先下载源码参考:https://blog.csdn.net/u011464774/article/details/76704785(????)官网下载地址http://spark.apache.org/downloads.html但是那个选择版本和type的下拉箭头,点不动,可能是浏览器适配的问题?????备用下载

2020-11-24 11:41:37 546

原创 kafka处理大消息的相关配置

kafka的设计初衷是迅速处理短消息,比如几k或者几十k,当然更小也不合适,一般认为处理10k大小的消息吞吐量性能最好。但有些情况下,没有办法限制消息的体积或者分割消息,就必须更改kafka的相关配置。kafka消息的最大值首先,kafka的一条消息肯定是有一个最大值的,在kafka的数据存储格式中,有一个4个字节的整数值来描述这条消息的大小,也就是说一条消息最大是2147483647字节,接近2个g。producer端相关参数max.request.sizeInt类型,默认值是1048576,

2020-09-03 17:26:53 5233

原创 kafka配置ssl加密

1.背景:之前的证书过期了,kafka的服务日志一直报Failed authentication with /ip (SSL handshake failed)生产者报的错误PKIX path validation failed: java.security.cert.CertPathValidatorException: timestamp check failed2.重新生成一) 生成认证文件1) 为每个Kafka broker生成SSL密钥和证书。keytool -keystore

2020-09-02 17:52:28 3674 1

转载 集群监控主要指标(load、CPU利用率、磁盘剩余空间、磁盘IO、内存使用)

集群监控大型互联网企业的背后,依靠的是成千上万台服务器日夜不停的运转,以支撑其业务的运转。宕机对于互联网企业来说,代价是沉重的,轻则影响用户体验,重则直接影响交易,导致交易下跌,并且给企业声誉造成不可挽回的损失。对于这些机器对应的开发和运维人员来说,即便是每台机器登陆一次,登陆那么多台机器也够呛,何况还需要进行系统指标的检查。因此,依靠人力是不可能完成24小时不间断监控服务器的任务的。如今,互联网已经深入到人们生活的每个角落,可以想象一下,假如哪一天Google或者Baidu不能搜索,抑或是amazon

2020-08-28 13:23:20 1940

原创 kafka生产者发送消息经常失败,集群报错direct buffer memory,占用cpu达到200%,频繁YGC

背景:kafka测试集群,5台节点问题描述:生产者发送消息失败概率大,尤其是连接建立的时候。查看内存信息,发现cpu占用过高,一直发生gc查找原因:查找kafka服务日志,发现5号节点有如下报错:top命令详解top -d 1jstat -gcutil 23518jmap -heap 23518jstat参数说明:S0C:第一个幸存区的大小  S1C:第二个幸存区的大小  S0U:第一个幸存区的使用大小  S1U:第二个幸存区的使用大小  EC:伊甸园区的大小 

2020-08-27 15:05:13 1806 1

原创 记一次kafka数据爆满的清理记录

kafka服务某个节点最近总是挂掉,今天是挂掉后起来立马挂掉查看server.log有报错记录:shutdown broker because all log dirs in have failed然后查看存储目录确实满了其中某个主题每个分区占了200G以上查看这个主题的配置> bin/kafka-configs.sh --zookeeper localhost:2181 --entity-type topics --entity-name my-topic --describe

2020-08-19 16:14:22 1770

原创 执行stop-dfs.sh后无法停止hadoop集群

提示no namenode to stop no datanode to stop

2020-08-04 13:54:01 813

原创 spark streaming提交yarn运行不成功的记录

spark streaming和kafka搭配使用的时候,往往会因为kafka topic有问题而启动不成功我遇到过的表现有:1.yarn页面不提示异常,看日志log报错20/07/23 14:58:46 ERROR yarn.ApplicationMaster: RECEIVED SIGNAL TERM20/07/23 14:58:46 INFO spark.SparkContext: Invoking stop() from shutdown hook20/07/23 14:58:46 INF

2020-07-28 11:28:28 2280

原创 通过偏移量删除kafka主题中的消息

使用java程序的方法删除kafka的消息

2020-07-13 18:14:15 1090

原创 idea 重命名和全局替换快捷键

idea快捷键,一次性替换要修改的变量的名称,会把所要修改的这个变量的所有引用都同时修改,并且不影响其他可能重名的变量。

2020-07-05 21:41:27 7381 2

原创 spark streaming中updateStateByKey算子的使用介绍

前言在streaming中可以分为有状态运算和无状态运算无状态运算就是每个批次间都彼此隔离,每次都从空开始有状态运算为批次之间提供了管道,管道中保存的信息就是历史状态常见的有状态算子包括updateStateByKey,mapWithState,窗口函数其中updateStateByKey和mapWithState是比较相似的,区别在于无论本批次内有没有key对应的数据,updateStateByKey都会执行一遍运算逻辑,而mapWithState则不会被触发。下面看一下updateState

2020-06-29 10:54:42 291

原创 尝试spark streaming的有状态转化: updateStateByKey和mapWithState

spark streaming有状态转化updateStateByKey示例mapWithState示例

2020-05-27 17:59:56 225

原创 mysql报错:表情符

今天将保存到mysql的时候,报了这个错误java.sql.SQLException: Incorrect string value: '\xF0\x9F\x92\x94' for column 'title' at row 1大概是信息里含有表情符。由于编码格式问题的错误。如果你的mysql版本大于5.5.3,直接将数据库的编码改成utf8mb4就行。另一种方法第一步:修改mysql的配置文件mysql/bin/my.ini, 添加如下内容:[client]default-characte

2020-05-15 16:59:20 156

转载 Spark性能优化指南——高级篇(转载)

数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,

2020-05-12 13:49:31 155

转载 Spark性能优化指南——基础篇(转载)

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合

2020-05-12 13:44:00 155

原创 kafka常用shell命令

kakfa常用命令,kafka服务启动和停止命令,创建topic命令,查看topic列表,查看topic最大偏移量,控制台发送和接收消息,查看某个消费者组的当前偏移量和最大偏移量,未消费数据量

2020-05-11 17:43:45 355

原创 面试题 10.01. 合并排序的数组

给定两个排序后的数组 A 和 B,其中 A 的末端有足够的缓冲空间容纳 B。 编写一个方法,将 B 合并入 A 并排序。初始化 A 和 B 的元素数量分别为 m 和 n。示例:输入:A = [1,2,3,0,0,0], m = 3B = [2,5,6], n = 3输出: [1,2,2,3,5,6]来源:力扣(LeetCode)链接:https://leetcode-c...

2020-03-03 21:59:39 101

原创 剑指offer:面试题39. 数组中出现次数超过一半的数字

数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。你可以假设数组是非空的,并且给定的数组总是存在多数元素。示例 1:输入: [1, 2, 3, 2, 2, 2, 5, 4, 2]输出: 2限制:1 <= 数组长度 <= 50000来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/shu-zu-zhong-c...

2020-03-03 21:54:39 132

原创 Yarn的流程简单图示

Resource Manager:全局资源管理器,一个集群只有一个RM。负责和AM(Application Master)交互,资源调度、资源分配等工作。Application Master:应用程序的管理器,类似项目经理,一个应用程序只有一个AM。负责任务开始时找RM要资源,任务完成时向RM注销自己,释放资源;与NM通信以启动/停止任务;接收NM同步的任务进度信息。Node Manage...

2020-03-03 21:40:58 389

转载 2020大数据开发学习路线

个人认为重要性1>5>6>2>4>7>3>8

2020-02-28 16:38:36 614

原创 剑指offer:面试题07. 重建二叉树

剑指offer:面试题07. 重建二叉树输入某二叉树的前序遍历和中序遍历的结果,请重建该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。 例如,给出前序遍历 preorder = [3,9,20,15,7]中序遍历 inorder = [9,3,15,20,7]返回如下的二叉树: 3 / \ 9 20 / \ ...

2020-02-14 09:52:09 142

原创 面试题04. 二维数组中的查找

剑指offer:面试题04. 二维数组中的查找在一个 n * m 的二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 示例:现有矩阵 matrix 如下:[ [1, 4, 7, 11, 15], [2, 5, 8, 12, 19], [3, ...

2020-02-13 13:09:25 196

原创 leetcode: 59. 螺旋矩阵 II

leetcode: 59. 螺旋矩阵 II给定一个正整数 n,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的正方形矩阵。示例:输入: 3输出:[ [ 1, 2, 3 ], [ 8, 9, 4 ], [ 7, 6, 5 ]]class Solution { public int[][] generateMatrix(int n) { ...

2020-01-14 20:31:16 229

原创 剑指offer:旋转数组的最小数字

剑指offer:旋转数组的最小数字把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素。例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转,该数组的最小值为1。NOTE:给出的所有元素都大于0,若数组大小为0,请返回0。import java.util.*;public class Solution ...

2020-01-14 17:22:01 103

原创 leetcode: 46. 全排列

leetcode: 46. 全排列给定一个没有重复数字的序列,返回其所有可能的全排列。示例:输入: [1,2,3]输出:[ [1,2,3], [1,3,2], [2,1,3], [2,3,1], [3,1,2], [3,2,1]]class Solution { public List<List<Integer>> permu...

2020-01-14 16:09:34 103

原创 剑指offer:用两个栈实现队列

剑指offer:用两个栈实现队列用两个栈来实现一个队列,完成队列的Push和Pop操作。 队列中的元素为int类型。import java.util.Stack;public class Solution { Stack<Integer> stack1 = new Stack<Integer>(); Stack<Integer> stac...

2020-01-14 10:08:50 121

原创 剑指offer:从尾到头打印链表

剑指offer:从尾到头打印链表输入一个链表,按链表从尾到头的顺序返回一个ArrayList。by牛客网讨论区的大佬 使用了递归的思想/*** public class ListNode {* int val;* ListNode next = null;** ListNode(int val) {* t...

2020-01-14 09:55:45 83

原创 剑指offer:重建二叉树

剑指offer:重建二叉树by牛客网输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回/** * Definition for binary tree * public class TreeNode { ...

2020-01-14 09:45:46 82

原创 leetcode: 70. 爬楼梯

leetcode: 70. 爬楼梯假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢?注意:给定 n 是一个正整数。示例 1:输入: 2输出: 2解释: 有两种方法可以爬到楼顶。1. 1 阶 + 1 阶2. 2 阶示例 2:输入: 3输出: 3解释: 有三种方法可以爬到楼顶。1. 1 阶 + 1...

2020-01-08 11:29:40 95

原创 剑指offer:连续子数组的最大和

剑指offer:连续子数组的最大和(牛客网)HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢?例如:{6,-3,-2,7,-15,1,2,2},连续子向量的最大和为8(从第0个开始,到第3个为止)...

2020-01-08 10:51:05 73

原创 leetcode:206.反转链表

206. 反转链表反转一个单链表。示例:输入: 1->2->3->4->5->NULL输出: 5->4->3->2->1->NULL进阶:你可以迭代或递归地反转链表。你能否用两种方法解决这道题?import java.util.*;/** * Definition for singly-linked list. ...

2020-01-08 10:47:39 106

原创 Github推荐--PC端下载bilibili视频

0.环境python 3.7.3win10声明:软件均仅用于学习交流,请勿用于任何商业用途!感谢大家1.项目地址Bilibili_video_download-B站视频下载使用非常简单,直接看作者在项目中的介绍即可2.使用演示只演示GUI的版本(1)首先克隆下来项目git clone https://github.com/Henryhaohao/Bilibili_video_d...

2019-11-24 14:52:42 1763

原创 Github推荐--PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了)

逛Github的时候会遇到一些很好玩的项目今天分享一个可以再PC端实现QQ防撤回功能的项目。(安卓手机有Xposed框架)首先是项目地址:https://github.com/huiyadanli/RevokeMsgPatcher使用方法:下载后解压,会出现RevokeMsgPatcher.exe,直接运行即可选择一个希望防撤回的软件,点击就ok了我已经测试过tim,可以使用美中...

2019-11-09 17:46:55 15416 1

原创 总结map和mapPartitions、foreach和foreachPartition、map和flatMap的区别

版本:spark-2.2.0 && scala-2.11.8map和mapPartitions的区别map是对每一个元素进行操作,mapPartitions是对一个分区?map源码 /** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U:...

2019-11-04 20:44:37 431

原创 c++贪心题目

Input输入数据首先包含一个正整数C,表示有C组测试用例,每组测试用例的第一行是两个整数n和m(0 < n <= 1000, 0 < m <= 1000 ),分别表示经费的金额和大米的种类,然后是m行数据,每行包含2个整数p和h(1 <= p <= 25,1 <= h <= 100),分别表示单价和对应大米的重量。Output...

2019-11-01 18:51:42 735

jar_files.zip

使用kafka-log4j-appender可能会用到的jar包 版本1.0.1

2021-03-04

微信抢红包_v1.0.0.apk

使用auto.js打包的抢红包app 默认音量上键停止运行 私有资源:收1积分

2021-02-11

谷歌三大论文.rar

公共资源 2003年Google在SOSP会议上发表了大数据历史上第一篇公认的革命性论文——《 GFS: The Google File System 》;2004年,Google又发表了另一篇非常重要的论文——《 MapReduce: Simplefied Data Processing on Large Clusters 》;2006年,Google发布了第三篇重要论文——《 BigTable: A Distributed StorageSystem for Structured Data 》

2020-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除