学庭-CSDN博客

原创 Spark 提交任务源码解析

Spark 提交任务源码解析spark-submitexec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"spark-class在这里相当于进行bin/java org.apache.spark.deploy.SparkSubmit启动java虚拟机，启动一个进程进程名叫作 SparkSubmitsparksubmit --override def main方法 val su

2021-03-28 22:12:23 243

原创 [scikit-learn] 第二章 Model Section

`sklearn.model_selection` 模块是 Scikit-learn 库中用于模型选择和评估的核心工具集。该模块提供了用于分割数据集、交叉验证、参数调优和性能评估的功能。本贴主要从交叉验证：评估估计器性能、调整估计器的超参数和学习曲线部分进行介绍。

2024-03-20 17:33:47 764

原创 [scikit-learn] 第一章初识scikit-learn及内置数据集介绍

scikit-learn是一个开源的机器学习库，支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。

2024-03-16 15:21:50 1011

原创算法设计与分析_王红梅百元买百鸡问题

算法设计与分析_王红梅百元买百鸡问题。只用一个for循环优化版本

2024-03-12 14:45:44 420

原创 LC 最长公共前缀

编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串""。

2024-01-25 22:32:49 362

原创 LC 对角线遍历

给你一个大小为m x n的矩阵mat，请以对角线遍历的顺序，用一个数组返回这个矩阵中的所有元素。

2024-01-21 15:32:25 423

原创 LC 零矩阵

请编写一种算法，若M × N矩阵中某个元素为0，则将其所在的行与列清零。

2024-01-15 20:39:26 537

原创 LC旋转矩阵

给你一幅由 N × N 矩阵表示的图像，其中每个像素的大小为 4 字节。请你设计一种算法，将图像旋转 90 度。不占用额外内存空间能否做到？

2024-01-14 17:32:44 395

原创 [机器学习]线性回归模型

实验结论：在这个实验中，我们建立了一个单因子线性回归模型，得到x=3.5对应的y值为12，其均方误差（MSE）非常接近于零，而确定系数（R^2）接近于1。这表明我们的模型可以非常好地拟合数据，预测能力非常强。

2023-08-07 08:12:07 700

原创 [数字图像处理]第八章图像压缩

看起来和调色板图象的实现原理差不多，但是应该注意到的是，我们这里的编译表不是事先创建好的，而是根据原始文件数据动态创建的，解码时还要从已编码的数据中还原出原来的编译表。因此，使用人的主观评估来衡量图像的质量通常更为适当。计算机数据处理中，霍夫曼编码使用变长编码表对源符号（如文件中的一个字母）进行编码，其中变长编码表]是通过一种评估来源符号出现机率的方法得到的，出现机率高的字母使用较短的编码，反之出现机率低的则使用较长的编码，这便使编码之后的字符串的平均长度、期望值降低，从而达到无损压缩数据的目的。

2023-07-11 13:43:51 716

原创 [数字图像处理]第六章彩色图像处理

彩色图像处理可分为两个主要领域：全彩色处理和伪彩色处理。在第一类中，通常要求图像用全彩色传感器获取，如彩色电视摄像机或彩色扫描仪。在第二类中，问题是对一种特定的单色灰度或灰度范围赋予一种颜色。到目前为止，多数数字彩色图像处理是在伪彩色层面完成的。

2023-06-22 18:54:55 1037

原创 [数字图像处理]第五章图像复原与重建

图像退化的描述(图像退化及其过程描述)如下: 图像的退化是指图像在形成、传输和记录过程中，由于成像系统、传输介质和设备的不完善，使图像的质量下降(变坏)。其典型表现为：模糊、失真、有噪声。产生原因：成像系统像差、传感器拍摄姿态和扫描非线性、成像设备与物体运动的相对运动、大气湍流、成像和处理过程中引入的噪声等。图像复原就是尽可能恢复退化图像的本来面目，它是沿图像退化的逆过程进行处理，也就是如果我们知道图像是经历了什么样的过程导致退化，就可以按其逆过程来复原图像。因此，图像复原过程流程如下:

2023-06-14 22:24:18 2609

原创 [数字图像处理]第四章频率域滤波

在光学中，莫尔模式指的是在两个近似等间隔的光栅之间产生的差拍模式。该性质的好处是将需要经过翻折、平移、相乘、求和等步骤实现的复杂的卷积运算简化为简单的乘法运算，这也是快速傅里叶变换（FFT）的出现使得该性质得到更广泛应用，同时，该性质对于理解信号的频率域处理方法特别重要，使得信号的空间域处理可以转换到频率域进行处理实现.是IDFT, F(u, v)是输入图像f (x, y)的DFT, H(u, v)是滤波函数(也简称为滤波器，或者滤波传递函数)，g(x, y)是滤波后的(输出)图像。

2023-05-19 02:58:00 735

原创第三章灰度变换与空间滤波

滤波器的中心访问输入图像中的每个像絮，就生成了处理（滤波）后的图像如果在图像像素上执行的是线性操作，则该滤披器称为线性空间滤波器，否则，滤波器就称为非线性空间滤泼器。3 ）沿着斜坡的微分值非零。因为我们处理的是数字量，其值是有限的，故最大灰度级的变化也是有限的，并且变化发生的最短距离是在两相邻像素之间。幂律变换的作用与对数变换的情况相似，用来扩展图像中的暗像素的值，同时压缩更高灰度级的值。其中f(x,y)是输入图像，g(x,y)是输出图像，T是在点(x,y)的领域上定义的关于f的一种算子。

2023-05-08 20:12:24 517

原创数字图像处理笔记第二章数字图像基础

包含一幅或多幅图像的阵列操作是以逐像素为基础执行的。

2023-04-21 01:10:26 311

原创数字图像处理（第三版）绪论笔记

数字图像处理方法的重要性源于两个主要领域：改善图示信息以便人们解释；为存储、传输和表示而对图像数据进行处理，以便于机器自动理解。

2023-04-17 01:03:10 434

原创【接口文档案例】

接口文档案例

2022-02-07 11:24:33 714

原创 [我发现了一个关于linux命令的bug]

Linux命令 date -d last-month 中的bugbug展示date命令的介绍允许的情况下将默认的大写转换为小写，默认的小写转换为大写。格式化输出：输出昨天日期：2秒后输出：传说中的 1234567890 秒：或者输出结果时间格式转换：输出结果apache格式转换：输出结果格式转换后时间游走：输出结果时间加减操作：设定时间：有时需要检查一组命令花费的时间：显示执行时间当你考虑输出带有时间的字符串时，例如（Current time: 2019/05/19）：通常使用的方法：另一种方法：注意如果换

2021-12-31 11:13:45 756

原创 [Spark Sql 执行概览]

Spark Sql 执行概览前言Spark Sql执行全过程Spark Sql 实际转换过程Spark Sql逻辑计划执行sql样例Spark sql物理计划前言 Spark SQL的前身是shark，即“Hive on Spark”。Shark项目最初启动于2011年。当时HIve几乎算是唯一的SQL-on-Hadoop选择方案。Hive将SQL语句翻译为MapReduce，性能受限于MapReduce计算模型，始终无法满足各种交互式sql分析的需求

2021-12-17 14:54:52 1686

原创【Hive、Spark Sql中为什么说group by是distinct的优化？】

Hive、Spark Sql中为什么说group by是distinct的优化？用LogicalPlan带你一探究竟group bydistinct看图说话用LogicalPlan带你一探究竟无论是Hive还是SparkSql都会生成LogicalPlan，PhysicalPlan只要我们明白了他在底层如何转换如何优化的就能知道group by和distinct有何区别。group bysql: “select name from student group by name”distinct

2021-12-15 17:28:30 2666

翻译 JanusGraph 数据模型

JanusGraph 数据模型JanusGraph以邻接列表格式存储图形，这意味着图形存储为顶点及其邻接列表的集合。顶点的邻接列表包含顶点的所有关联边（和属性）。通过以邻接列表格式存储图形，JanusGraph确保将顶点的所有关联边和属性紧凑地存储在存储后端，从而加快遍历。缺点是每个边必须存储两次—一次用于边的每个端点。此外，JanusGraph按排序键定义的顺序和边标签的排序顺序维护每个顶点的邻接列表。排序顺序可以使用以顶点为中心的索引高效地检索相邻列表的子集。JanusGraph在支持Bigta

2021-07-21 18:30:31 356

翻译图形配置示例

图形配置示例本页说明了一些常见的图形配置。有关更多信息，请参阅配置参考和相应存储后端、索引后端的页面。另外，请注意JanusGraph发行版包含conf/目录中的本地配置文件。BerkeleyDBstorage.backend=berkeleyjestorage.directory=/tmp/graphindex.search.backend=elasticsearchindex.search.directory=/tmp/searchindexindex.search.elasticse

2021-06-25 17:42:56 155

原创大数据处理框架概览

第一章大数据处理框架概览1.1 大数据及其带来的挑战大数据概念：具有数据量大、数据类型多样、产生与处理速度快、价值高的“4V”特性。带来的挑战传统数据处理系统难以在可接受的时间范围内对大数据进行高效处理。OLTP（在线事务处理）21世纪70年代的关系型数据库解决了关系型数据的存储与OLTP问题OLAP（在线分析处理）数据仓库解决了数据建模及OLAP问题1.2 大数据处理框架为了高效处理大数据，工业界和学术界提出了很多分布式大数据处理框架。2004年Google在计算机系统领域顶级会

2021-06-16 18:07:16 1175 4

翻译 JanusGraph配置参考大全

配置参考本节是JanusGraph配置选项的权威参考。它包括存储和索引后端的所有选项，这些都是官方JanusGraph发行版的一部分。该表是通过遍历JanusGraph的内部配置管理API中的键和名称空间自动生成的。因此，本页上列出的配置选项与特定的JanusGraph版本同步。如果本文档其他部分中对配置选项的引用与其在本页上的表示形式冲突，请假定此处列出的版本是正确的。可变水平每个配置选项都有一个特定的可变级别，该级别控制在第一次打开数据库后是否可以修改它以及如何修改它。下面的列表描述了可变性级别

2021-06-02 15:43:06 1056 1

翻译 JanusGraph部署方案

部署方案JanusGraph提供了广泛的存储和索引后端选择，使其部署方式具有极大的灵活性。本章提供了一些可能的部署场景，以帮助解决这种灵活性带来的复杂性。在讨论不同的部署场景之前，了解JanusGraph本身和后端的角色非常重要。第一，应用程序仅与JanusGraph直接通信，主要通过发送Gremlin循环来执行。JanusGraph然后与配置好的后端进行通信，以执行所接收的遍历。当JanusGraph以JanusGraph服务器的形式使用时，没有比主JanusGraph服务器更好的了。因此，应用程序可

2021-05-27 09:02:35 481

翻译 JanusGraph服务器

JanusGraph 服务器JanusGraph使用Gremlin服务器引擎作为服务器组件来处理和回答客户机查询。当封装在JanusGraph中时，Gremlin服务器称为JanusGraph服务器。必须手动启动JanusGraph服务器才能使用它。JanusGraph服务器提供了一种方法，可以对托管在其中的一个或多个JanusGraph实例远程执行Gremlin遍历。本节将描述如何使用WebSocket配置，以及如何配置JanusGraph服务器来处理HTTP端点交互。有关如何从不同语言连接到Janu

2021-05-20 15:05:23 237 2

翻译 JanusGraph对于Gremlin查询语言的介绍

Gremlin Query LanguageGremlin是JanusGraph的查询语言，用于从图形中检索数据和修改数据。Gremlin是一种面向路径的语言，它简洁地表达了复杂的图遍历和变异操作。Gremlin是一种函数语言，遍历操作符被链接在一起形成类似路径的表达式。例如，“从赫拉克勒斯出发，遍历到他父亲，然后是他父亲的父亲，并返回祖父的名字。”Gremlin是ApacheTingerpop的一个组件。它是独立于JanuGraph开发的，并且大多数图形数据库都支持它。通过使用Gremlin查询语言在

2021-05-19 14:57:33 710

翻译 JanusGraph配置

配置文件JanusGraph数据库集群由一个或多个JanusGraph实例组成。要打开JanusGraph实例，必须提供一个配置，指定如何设置JanusGraph。JanusGraph配置指定JanusGraph应该使用哪些组件，控制JanusGraph部署的所有操作方面，并提供许多调优选项以从JanusGraph集群获得最大性能。JanusGraph配置至少必须定义JanusGraph应该用作存储后端的持久性引擎。存储后端列出了所有支持的持久性引擎以及如何分别配置它们。如果需要高级图形查询支持（例如

2021-05-17 18:21:09 540 2

翻译 JanusGraph内部架构概述

体系结构概述JanusGraph是一个图形数据库引擎。JanusGraph本身专注于紧凑的图序列化、丰富的图数据建模和高效的查询执行。此外，JanusGraph利用Hadoop进行图形分析和批处理图形处理。JanusGraph为数据持久性、数据索引和客户端访问实现了健壮的模块化接口。JanusGraph的模块化体系结构允许它与多种存储、索引和客户端技术进行互操作；它还简化了扩展JanusGraph以支持新的JanusGraph的过程。JanusGraph和磁盘之间有一个或多个存储和索引适配器。Janus

2021-05-17 17:42:22 228 1

翻译 JanusGraph基本用法

基本用法本节对Gremlin的特性集进行了非常简短的介绍。有关该主题的详细信息，请参阅Gremlin查询语言。本节中的示例广泛使用了一个与JanusGraph一起分发的玩具图，称为诸神之图。这张图如下图所示。抽象数据模型被称为属性图模型，这个特殊的实例描述了罗马万神殿的存在和地点之间的关系。此外，图表中的特殊文本和符号修饰符（例如粗体、下划线等）表示图表中的不同示意图/类型。将诸神之图加载到JanusGraph中下面的示例将打开一个JanusGraph图形实例，并加载上面所示的goods数据集的

2021-05-17 15:11:20 905

原创 SparkSql底层解析运行流程

SparkSql ，一个字符串，是如何在spark集群中被解析运行的呢？本文带你一探究竟。1.断点1 找到解析入口2.进入sql3.执行sessionState.sqlParser.parsePlan(sqlText)sessionState在给定的[[SparkSession]]中保存所有会话特定状态的类。sqlParser 是一个接口其相关实现类如下图所示：parsePlan方法：SparkSqlParser.parsePlan没有找到在其父类AbstractSqlP

2021-04-23 16:34:12 1017 2

原创 QueryExecution

QueryExecution使用Spark执行关系查询的主要工作流。设计为允许开发人员轻松访问查询执行的中间阶段。/** * 使用Spark执行关系查询的主要工作流。设计为允许开发人员轻松访问查询执行的中间阶段。虽然这不是一个公共类，但我们应该避免为了更改函数名而更改函数名，因为许多开发人员使用该特性进行调试。 */class QueryExecution(val sparkSession: SparkSession, val logical: LogicalPlan) { // T

2021-04-21 11:25:25 329

原创 SparkSession.scala

Spark源码之SparkSession，Spark版本号2.2.0//SparkSession 源码/**使用数据集和数据框架API编程Spark的入口点。*在预先创建的环境中（例如命令行、笔记本电脑），使用生成器获取现有会话：* SparkSession.builder().getOrCreate()*构建器也可以用来创建一个新的会话:* SparkSession.builder* .master("local")* .appName("Word Count")*

2021-04-16 18:42:01 805

原创 QueryPlanningTracker.scala

/***一个简单的实用工具，用于跟踪查询规划中的运行时和相关统计信息*我们追踪两个不同的概念:*1阶段：这些是查询规划中的大范围阶段，如下所示，即分析、优化和物理规划（仅规划）。*2规则：这些是我们跟踪的单个催化剂规则。除了时间，我们还跟踪调用的数量和有效调用。*/伴生对象：object QueryPlanningTracker { val PARSING = "parsing" val ANALYSIS = "analysis" val OPTIMIZATION = "opt

2021-04-15 18:59:43 187

原创 Flink Graph

Flink Graph早期，Batch和Stream的图结构和优化方法有很大的区别，所以批处理使用OptimizedPlan来做Batch相关的优化，使用StreamGraph表达流计算的逻辑，最终都转换为JobGraph，实现了流批的统一。流计算应用的Graph转换　　对于流计算应用来说，首先将DataStreamAPI的调用转换为Transformation，然后经过StreamGraph->JobGraph->ExecutionGraph3层转换（Flink内置的数据结构），最后经过

2021-01-26 16:55:55 778

原创 Flink运行框架

Flink集群采用Mater-Slave架构，Master的角色是JobManager，负责集群和作业管理，Slave的角色是TaskManager，负责执行计算任务。除此之外，Flink还提供了客户端来管理集群和提交任务，其中JobManager和TaskManager是集群的进程，Flink客户端是在集群外部执行的进程，不是集群的一部分。1.Flink客户端Flink客户端是Flink提供的CLI命令行工具，用来提交Flink作业到Flink集群，在客户端中负责Stream Graph（流图）和Jo

2021-01-23 11:56:12 154 1

Hive知识点大全Hive.xmind

空空如也