chicken_shit_bro-CSDN博客

原创将shell命令结果直接输出到HDFS上

直接将shell命令结果输出到HDFSecho "hehe" | hdfs dfs -put - /user/root/output.txtHadoop shell命令大全:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html

2021-08-13 16:07:01 452

朴素贝叶斯原理详解1.知识准备2.贝叶斯定理3.贝叶斯定理在分类中的应用3.1条件独立3.2特征取离散值的条件概率3.3特征取连续值的条件概率高斯贝叶斯分类器:多项式贝叶斯分类器:伯努利贝叶斯分类器:4.条件概率的m估计5.逻辑斯特回归与朴素贝叶斯的区别6.API1.知识准备1.贝叶斯分类器要解决的问题:已知某样本中各个属性的取值, 求其属于某label的概率2.先验概率与后验概率先验概率: 根据以往的经验或数据分析得到的概率P(X)后验概率: 根据先验概率得到的是后验概率P(Y|X)3.朴素

2020-10-28 21:44:10 10108 1

原创 Redis跳跃表详解

1.前言自己学跳跃表是因为当初听人说想要找一份高薪工作, Redis跳跃表是要知道的. 当时学的时候也是网上的文章反复看, 花了几个晚上才彻底弄明白, 所以在此记录一下吧, 为了下次面试好回顾2.跳跃表基本概念准备跳跃表是有序集合(zset)的底层实现之一。2.1跳跃表的数据结构跳跃表zskiplist定义在server.h中header; 跳跃表的表头节点tail: 指向跳跃表的表尾节点level: 记录目前跳跃表内, 层数最大的那个节点的层数(表头节点的层数不计算在内. 因为它的层数

2020-10-28 17:55:02 816

原创 Redis面试题相关知识整理

Redis面试题相关知识整理1.Redis的应用场景2.Redis的特点3.Redis对各种数据类型的操作4.Redis的持久化机制5.Redis的缓存穿透/缓存击穿/缓存雪崩问题6.Redis的主从复制架构, sentinel哨兵模式7.memcache与redis的区别8.单线程的redis为什么这么快9.Redis的过期策略以及内存淘汰机制10.Redis为什么是单线程的11.有没有尝试进行多机redis的部署? 如何保证数据一致的?12.对于大量的请求怎么处理13.Redis常见性能问题和解决方案1

2020-10-27 19:30:50 290

原创 HBase的布隆过滤器详解

HBase的布隆过滤器详解1.布隆过滤器的简单介绍2.布隆过滤器的原理分析2.1 哈希表存在的问题2.2 布隆过滤器的原理2.2.1 原理详解2.2.2 布隆过滤器失误率的调节2.2.3 布隆过滤器的完整体3.HBase是如何使用布隆过滤器的3.1 HBase的基本回顾3.2 HBase的块索引机制及存在的问题3.3 HBase布隆过滤器的作用4.大战后的悠闲时光4.1 布隆过滤器的存储在哪?4.2 如何开启布隆过滤器4.3 采用布隆过滤器后, HBase如何get数据4.4 采用ROW还是ROWCOl布隆

2020-08-12 16:13:23 2252

原创谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解

谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解spark.sql.shuffle.partitions和 spark.default.parallelism 的区别spark并行度的理解如何设置spark.sql.shuffle.partitions和spark.default.parallelism的值spark.sql.shuffle.partitions和 spark.default.parallel

2020-08-11 20:18:42 19012 5

原创磁盘的顺序读写与随机读写详解

磁盘的顺序读写与随机读写详解1.磁盘的基本概念2.磁盘的读写方式3.磁盘读取时间4.顺序读写与随机读写5 参考链接1.磁盘的基本概念盘片与盘面 : 一块硬盘一般有多块盘片,盘片分为上下两面,其中有效面称为盘面(一般上下都有效),盘片数一般与磁头数相等.也就是说:磁头数 = 盘面数 = 盘片数*2 磁头 : 磁头切换磁道读写数据时通过机械设备实现的,速度较慢;而磁头切换盘面读写数据是通过电子设备实现的,速度较快,因此磁头一般是先读写完柱面后才开始寻道的(不用切换磁道),这样磁盘读写效率更快. 磁道

2020-07-18 19:52:53 11671 1

原创线性代数相关知识点回顾

线性代数相关知识点回顾矩阵的转置矩阵的逆特征值与特征向量矩阵的秩正交阵相似矩阵与相似对角化特征子空间矩阵的转置(AB)T=BTAT矩阵的逆AB=BA=E,则B=A-1若矩阵A可逆,则|A|不等于0只有方阵才有伴随矩阵特征值与特征向量定义:特征值的性质:特征向量的性质: 第二条:注意线性无关与两两正交的区别矩阵的秩定义:性质:n阶可逆方阵,秩=n可逆矩阵又称为满秩矩阵矩阵的秩等于它行(列)向量组的秩正交阵正交阵一定是满秩矩阵相似矩阵与相似对角化相似矩阵的

2020-05-21 08:34:23 727

原创 GBDT(梯度提升决策树)与GBRT(梯度提升回归树)原理详解

@TOC

2020-05-20 14:20:47 9109

原创梯度与梯度下降法详解

梯度与梯度下降法1 前言2 导数3 导数与偏导数4 导数与方向导数5导数与梯度6 导数与向量7 梯度下降法8 梯度下降法与机器学习9 梯度下降法的缺点10 补充:向量函数求导的问题10.1对标量求导10.2对向量求导1 前言机器学习中的大部分问题都是优化的问题,而绝大部分问题都可以使用梯度下降法处理,那么搞懂什么是梯度,什么是梯度下降法就非常重要了,这是基础中的基础,也是必须掌握的概念.2 导数一张图读懂导数与微分导数定义如下:反映的是函数y=f(x)在某一点沿着x轴的正方向的变化率/变化

2020-05-19 19:36:20 1073

原创 AdBoost算法详解

AdBoost算法详解1 算法简介算法引入: 对于Boosting算法,存在两个问题在每一轮中如何调整训练集,使训练的弱分类器得以进行如何将各个弱分类器联合起来形成强分类器 Boosting框架中的代表算法是AdaBoost算法.1 算法简介属于集成学习中的串行学习方法.AdaBoost自适应提升算法和Boosting考虑的点一样AdaBoost自适应在于:’’关注”被错分的样本,”器重”性能好的弱分类器不同的训练集–>调整样本的权重 “关注”—>增加错分样本权重

2020-05-14 16:56:48 814

原创快速了解Bagging算法

快速了解Bagging算法Boostrap sampling 自助采样Bagging算法Bagging性能Boostrap sampling 自助采样之前已经讲过模型的评估方法中有留一法（将数据集划分为两个互不相交的集合，一个做测试集，一个做训练集）和交叉验证方法（将数据分成k个大小相似互不相交的子集，每次使用k-1个子集做训练集，剩下的一个子集做测试集，以此循环进行k次的训练和测试，最后返回k次测试结果的均值。）。但是上述两种方法中都保留了一部分样本用于测试，所以实际模型所使用的训练集比源数据都要小

2020-05-11 22:16:29 788 1

weixin_43179522的博客

原创将shell命令结果直接输出到HDFS上

原创朴素贝叶斯原理详解(Navie Bayes)

原创 Redis跳跃表详解

原创 Redis面试题相关知识整理

原创 HBase的布隆过滤器详解

原创谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解

原创磁盘的顺序读写与随机读写详解

原创线性代数相关知识点回顾

原创 GBDT(梯度提升决策树)与GBRT(梯度提升回归树)原理详解

原创梯度与梯度下降法详解

原创 AdBoost算法详解

原创快速了解Bagging算法

原创聚类分析与相关算法(Kmeans等)详解

原创偏差(Bias)与方差(Variance)详解

原创 schema约束文档与xml文件详解

原创详细的KNN算法原理步骤

原创数据科学环境Anaconda及其相关组件介绍

原创决策树基本原理与sklearn应用

空空如也

空空如也