自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 2021-06-04

SHELL中的${},##和%%的使用假设我们定义了一个变量为:file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值:${file#/}:删掉第一个/ 及其左边的字符串:dir1/dir2/dir3/my.file.txt${file##/}:删掉最后一个/ 及其左边的字符串:my.file.txt${file#.}:删掉第一个. 及其左边的字符串:file.txt${file##.}:删掉最后一个. 及其左边的字符串:txt${file%

2021-06-04 15:40:37 91 1

原创 linux磁盘挂满

linux磁盘挂满https://blog.csdn.net/qq_25667815/article/details/107162094

2020-11-25 10:53:46 134

原创 2020-09-02

脚本命令可以运行,但是在crontab命令下无法运行关于脚本手动正常运行,放入CRONTAB无效的问题1.在你的shell里加入环境变量,也就是在#!/bin/bash 下一行写入 source /etc/profile, 但是不推荐2.shell里所有命令使用绝对命令,这一点和第一条原理相同,但是你并不能保证你的所有命令都已经加入到了环境变量3.如果上两条还不能解决,查看上传定时脚本的用户,默认只有root用户才可以修改定时规则4.最后查看一下脚本运行权限,经过这4点,绝大部分此类问题都能解决

2020-09-02 11:23:46 154

转载 Hive常用函数大全(二)(窗口函数、分析函数、增强group)

窗口函数与分析函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),...

2020-03-13 16:28:57 263 1

原创 Flink总述 -- 常见面试总结

Flink的可能面试题Flink中的核心概念和基础篇,包含了Flink的整体介绍、核心概念、算子;Flink进阶篇,包含了Flink中数据传输、容错机制、序列化、数据热点、反压;Flink源码篇,包含了Flink核心代码实现、Job提交流程、数据交换、分布式快照机制、Flink Sql原理。Flink中的核心概念和基础篇Flink提供了诸多高抽象层的API方便与用户编写分布式任务:Da...

2020-03-11 15:16:10 506

原创 Kafka核心总述

Kafka核心总结5.1Kafka消费端的Rebalance我们知道,一个topic能被若干个消费者进行消费,若干个消费者组成一个Consumer Group消费组,一条消息只能被消费组中的一个消费者消费,但是可以被不同消费组中的不同消费者消费。Rebalance是一个消费组的所有消费者就如何消费订阅topic的所有分区达成共识的过程,在Rebalance过程中,所有的Consumer实例都...

2020-03-10 16:10:52 171

原创 Kafka核心总述

Kafka核心总结3.1Kafka副本作用默认由broker端参数default.replication.factor控制的分区设置一个副本,通过修改默认值或在命令行创建topic时指定replication-factor参数控制副本数量。通过增加消息副本的数量可以使消息冗余储存,提高数据可靠性;还可以提高其服务可用性,副本选举机制会使再broker上的leader挂掉,就近原则选举follo...

2020-03-10 15:29:04 157

原创 Kafka核心总述

Kafka核心总结Kafka是目前主流的分布式消息引擎及流处理平台,具有高吞吐、低延迟;可扩展;持久性、可靠性;容错性;高并发的特点。常被企业用来做消息总栈、日志收集、用户活动跟踪、运营指标、实时流处理管道。1.1Kafka体系架构Kafka的设计遵循生产者消费者模式,生产者发送消息到broker中的某一个topic的具体分区,消费者从一个或多个分区中拉取数据进行消费。[外链图片转存失败,...

2020-03-10 10:40:54 139

转载 Java:程序包xxxx不存在

前言有时候我们在导入程序之后,系统会给出错误提示:Java:程序包xxxx不存在,现在我这里有一招,就是使用IDEA自动导入Java程序包,这也是IDEA的一大优点。内容当出现如题所示的错误时候,不用着急,这是因为配置Java的程序包这块出现了错误,同时可能你还没有设置让IDEA自动加载Jar包,才会报出这种错误的。解决方式如下:File—>Setting—>Build,Exe...

2019-05-13 14:25:15 5443 1

转载 hashTable和hashmap和concurrentHashMap的

HashTable底层数组+链表实现,无论key还是value都不能为null,线程安全,实现线程安全的方式是在修改数据时锁住整个HashTable,效率低,ConcurrentHashMap做了相关优化初始size为11,扩容:newsize = olesize2+1计算index的方法:index = (hash & 0x7FFFFFFF) % tab.lengthHashMap底层数...

2018-11-27 11:35:19 149

原创 Spark Streaming和Kafka整合保证数据零丢失

Spark Streaming和Kafka整合保证数据零丢失 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:1、输入的数据来自可靠的数据源和可靠的接收器;  2、应用程序的metadata被application的driver持久化了(checkpointed );  ...

2018-11-13 19:48:15 876 1

原创 机器学习之路03——性能度量

衡量模型泛化能力的怕评价标准错误率与精度查准率(P)、查全率(R)(P-R曲线)与F1查准率(精度):衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献量与检出的文献量的百分比(P=真正例(TP)/(真正例(TP)+假正例(FP)))查全率(召回率):衡量某一检索系统从文献中检出相关文献成功度的一项指标,即检出的相关文献量与检索系统中相关文献量的百分比(真正例(TP)/(真正例(TP...

2018-11-01 21:36:48 324 1

原创 机器学习之路02——模型评估之“交叉验证法(cross )”

先将数据集*D*划分为*k*个大小相似的互斥子集,即*D*=*D~1*∪*D~2*

2018-11-01 19:35:51 596 1

原创 机器学习之路01——模型评估之“留出法(hold-out)”

留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另外一个作为测试集T,即D=S∪T,S∩T=0.在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的评估需要注意的问题:1.训练/测试集的划分要尽可能的保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响2.在给定训练/测试集的样本比例后,仍然存在多种划分方式对初始数据集D进...

2018-11-01 17:54:57 18826 3

原创 Spark性能调优--

《spark》spark性能调优数据倾斜调优1.绝大多数task执行的都非常快,但是个别task执行极慢2.原本能够正常执行的spark作业,突然某天出现oom(内存溢出)异常,观察异常栈,是我们写的业务代码造成的(情况少见)数据倾斜发生的原理在进行shuffle的时候,必须降各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如...

2018-11-01 13:51:19 270 1

原创 浅谈Collection的入门级知识点三:Collection(Set)

菜鸟级的自我成长 三、 Set部分 Set:不允许有重复元素的集合 HashSet:无重复元素的集合,由HashMap实现,不保证元素的顺序,允许使用null元素,非同步的 boolean add(E object) void clear() Object clone() boolean contains(Obj...

2018-08-11 11:33:01 163

原创 浅谈Collection的入门级知识点二:Map

菜鸟级的自我成长 二、 Map部分 Map:public interface Map

2018-08-11 10:58:43 179 1

原创 IO流的基本认识

输入流:InputStream或者Reader 输出流:OutputStream或者Writer1.在实际项目中,所有的IO操作都应该放到子线程中操作,避免堵住主线程 2.File Input Stream在读取文件内容时,如果我们传入文件的路径下的文件不存在,那么执行readFile()方法时回报FileNotFoundException异常 3.FileOutputStream再写入...

2018-08-08 21:01:12 224

原创 浅谈Collection的入门级知识点一:Collection(List)

菜鸟级的自我成长 一、Collection(集合) List部分 Collection:高度抽象出来的集合,是一个接口。public interface Collectionextends Iterable{},添加、删除、清空、遍历、是否为空、获取大小、是否保护某元素等等 List:有序队列,每个元素都有其索引,可以有重复的元素 Set:元素不可重复的集合 Map:映射接口,...

2018-08-06 18:04:39 253

大数据资源宝典

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 [1] 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [2] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

2018-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除