BigDataer_DK-CSDN博客

原创 2021-06-04

SHELL中的${}，##和%%的使用假设我们定义了一个变量为：file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值：${file#/}：删掉第一个/ 及其左边的字符串：dir1/dir2/dir3/my.file.txt${file##/}：删掉最后一个/ 及其左边的字符串：my.file.txt${file#.}：删掉第一个. 及其左边的字符串：file.txt${file##.}：删掉最后一个. 及其左边的字符串：txt${file%

2021-06-04 15:40:37 91 1

原创 linux磁盘挂满

linux磁盘挂满https://blog.csdn.net/qq_25667815/article/details/107162094

2020-11-25 10:53:46 134

原创 2020-09-02

脚本命令可以运行，但是在crontab命令下无法运行关于脚本手动正常运行，放入CRONTAB无效的问题1.在你的shell里加入环境变量，也就是在#!/bin/bash 下一行写入 source /etc/profile, 但是不推荐2.shell里所有命令使用绝对命令，这一点和第一条原理相同，但是你并不能保证你的所有命令都已经加入到了环境变量3.如果上两条还不能解决，查看上传定时脚本的用户，默认只有root用户才可以修改定时规则4.最后查看一下脚本运行权限，经过这4点，绝大部分此类问题都能解决

2020-09-02 11:23:46 154

转载 Hive常用函数大全（二）（窗口函数、分析函数、增强group）

窗口函数与分析函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询窗口函数FIRST_VALUE：取分组内排序后，截止到当前行，第一个值LAST_VALUE：取分组内排序后，截止到当前行，最后一个值LEAD(col,n,DEFAULT) ：用于统计窗口内往下第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），...

2020-03-13 16:28:57 263 1

原创 Flink总述 -- 常见面试总结

Flink的可能面试题Flink中的核心概念和基础篇，包含了Flink的整体介绍、核心概念、算子；Flink进阶篇，包含了Flink中数据传输、容错机制、序列化、数据热点、反压；Flink源码篇，包含了Flink核心代码实现、Job提交流程、数据交换、分布式快照机制、Flink Sql原理。Flink中的核心概念和基础篇Flink提供了诸多高抽象层的API方便与用户编写分布式任务：Da...

2020-03-11 15:16:10 506

原创 Kafka核心总述

Kafka核心总结5.1Kafka消费端的Rebalance我们知道，一个topic能被若干个消费者进行消费，若干个消费者组成一个Consumer Group消费组，一条消息只能被消费组中的一个消费者消费，但是可以被不同消费组中的不同消费者消费。Rebalance是一个消费组的所有消费者就如何消费订阅topic的所有分区达成共识的过程，在Rebalance过程中，所有的Consumer实例都...

2020-03-10 16:10:52 171

原创 Kafka核心总述

Kafka核心总结3.1Kafka副本作用默认由broker端参数default.replication.factor控制的分区设置一个副本，通过修改默认值或在命令行创建topic时指定replication-factor参数控制副本数量。通过增加消息副本的数量可以使消息冗余储存，提高数据可靠性；还可以提高其服务可用性，副本选举机制会使再broker上的leader挂掉，就近原则选举follo...

2020-03-10 15:29:04 157

原创 Kafka核心总述

Kafka核心总结Kafka是目前主流的分布式消息引擎及流处理平台，具有高吞吐、低延迟；可扩展；持久性、可靠性；容错性；高并发的特点。常被企业用来做消息总栈、日志收集、用户活动跟踪、运营指标、实时流处理管道。1.1Kafka体系架构Kafka的设计遵循生产者消费者模式，生产者发送消息到broker中的某一个topic的具体分区，消费者从一个或多个分区中拉取数据进行消费。[外链图片转存失败,...

2020-03-10 10:40:54 139

转载 Java:程序包xxxx不存在

前言有时候我们在导入程序之后，系统会给出错误提示：Java:程序包xxxx不存在，现在我这里有一招，就是使用IDEA自动导入Java程序包，这也是IDEA的一大优点。内容当出现如题所示的错误时候，不用着急，这是因为配置Java的程序包这块出现了错误，同时可能你还没有设置让IDEA自动加载Jar包，才会报出这种错误的。解决方式如下：File—>Setting—>Build,Exe...

2019-05-13 14:25:15 5443 1

转载 hashTable和hashmap和concurrentHashMap的

HashTable底层数组+链表实现，无论key还是value都不能为null，线程安全，实现线程安全的方式是在修改数据时锁住整个HashTable，效率低，ConcurrentHashMap做了相关优化初始size为11，扩容：newsize = olesize2+1计算index的方法：index = (hash & 0x7FFFFFFF) % tab.lengthHashMap底层数...

2018-11-27 11:35:19 149

原创 Spark Streaming和Kafka整合保证数据零丢失

Spark Streaming和Kafka整合保证数据零丢失当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件：1、输入的数据来自可靠的数据源和可靠的接收器；　　2、应用程序的metadata被application的driver持久化了(checkpointed );　　...

2018-11-13 19:48:15 876 1

原创机器学习之路03——性能度量

衡量模型泛化能力的怕评价标准错误率与精度查准率（P）、查全率（R）（P-R曲线）与F1查准率（精度）：衡量某一检索系统的信号噪声比的一种指标，即检出的相关文献量与检出的文献量的百分比（P=真正例（TP）/（真正例（TP）+假正例（FP）））查全率（召回率）：衡量某一检索系统从文献中检出相关文献成功度的一项指标，即检出的相关文献量与检索系统中相关文献量的百分比（真正例（TP）/（真正例（TP...

2018-11-01 21:36:48 324 1

原创机器学习之路02——模型评估之“交叉验证法(cross )”

先将数据集*D*划分为*k*个大小相似的互斥子集，即*D*=*D~1*∪*D~2*

2018-11-01 19:35:51 596 1

原创机器学习之路01——模型评估之“留出法(hold-out)”

留出法(hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另外一个作为测试集T，即D=S∪T,S∩T=0.在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的评估需要注意的问题：1.训练/测试集的划分要尽可能的保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响2.在给定训练/测试集的样本比例后，仍然存在多种划分方式对初始数据集D进...

2018-11-01 17:54:57 18826 3

原创 Spark性能调优--

《spark》spark性能调优数据倾斜调优1.绝大多数task执行的都非常快，但是个别task执行极慢2.原本能够正常执行的spark作业，突然某天出现oom（内存溢出）异常，观察异常栈，是我们写的业务代码造成的（情况少见）数据倾斜发生的原理在进行shuffle的时候，必须降各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如...

2018-11-01 13:51:19 270 1

原创浅谈Collection的入门级知识点三：Collection（Set）

菜鸟级的自我成长三、 Set部分 Set：不允许有重复元素的集合 HashSet：无重复元素的集合，由HashMap实现，不保证元素的顺序，允许使用null元素，非同步的 boolean add(E object) void clear() Object clone() boolean contains(Obj...

2018-08-11 11:33:01 163

原创浅谈Collection的入门级知识点二：Map

菜鸟级的自我成长二、 Map部分 Map：public interface Map

2018-08-11 10:58:43 179 1

原创 IO流的基本认识

输入流：InputStream或者Reader 输出流:OutputStream或者Writer1.在实际项目中，所有的IO操作都应该放到子线程中操作，避免堵住主线程 2.File Input Stream在读取文件内容时，如果我们传入文件的路径下的文件不存在，那么执行readFile（）方法时回报FileNotFoundException异常 3.FileOutputStream再写入...

2018-08-08 21:01:12 224

原创浅谈Collection的入门级知识点一：Collection（List）

菜鸟级的自我成长一、Collection（集合） List部分 Collection：高度抽象出来的集合，是一个接口。public interface Collectionextends Iterable{},添加、删除、清空、遍历、是否为空、获取大小、是否保护某元素等等 List：有序队列，每个元素都有其索引，可以有重复的元素 Set：元素不可重复的集合 Map：映射接口，...

2018-08-06 18:04:39 253

大数据资源宝典

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 [1] 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [2] 中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）

2018-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人