Teeyohuang-CSDN博客

原创 Pyspark学习笔记（五）RDD操作(四)_RDD连接/集合操作

朋友

2022-08-18 00:05:58 1537 1

原创 Pyspark学习笔记（一）---序言及目录

前言提示：自己学习Pyspark时所记录笔记，以便日后回忆1.学习spark时的一些官方API和参考文档################ Spark Python API and Docs ###################Spark Python API Docs i.pyspark packageii.pyspark.sql moduleiii.pyspark.ml package iv.pyspark.streaming module v.pyspark.mllib p..

2022-05-25 21:48:09 468

原创 Pyspark学习笔记（五）RDD操作(三)_键值对RDD转换操作

Pyspark学习笔记专栏系列文章目录Pyspark学习笔记（一）—序言及目录Pyspark学习笔记（二）— spark-submit命令Pyspark学习笔记（三）— SparkContext 与 SparkSessionPyspark学习笔记（四）弹性分布式数据集 RDD（上）Pyspark学习笔记（四）弹性分布式数据集 RDD（下）Pyspark学习笔记（五）RDD操作(一)_RDD转换操作Pyspark学习笔记（五）RDD操作(二)_RDD行动操作Pyspark学习笔记（五）R.

2022-05-24 22:25:33 635

原创 Pyspark学习笔记（五）RDD操作(二)_RDD行动操作

Pyspark学习笔记专栏系列文章目录Pyspark学习笔记（一）—序言及目录Pyspark学习笔记（二）— spark-submit命令Pyspark学习笔记（三）— SparkContext 与 SparkSessionPyspark学习笔记（四）弹性分布式数据集 RDD（上）Pyspark学习笔记（四）弹性分布式数据集 RDD（下）Pyspark学习笔记（五）RDD操作(一)_RDD转换操作Pyspark学习笔记（五）RDD操作(二)_RDD行动操作文章目录Pyspark学习笔记.

2022-03-13 22:10:25 3382

原创 Pyspark学习笔记（五）RDD操作(一)_RDD转换操作

Pyspark学习笔记专栏系列文章目录Pyspark学习笔记（一）—序言及目录Pyspark学习笔记（二）— spark-submit命令Pyspark学习笔记（三）— SparkContext 与 SparkSessionPyspark学习笔记（四）弹性分布式数据集 RDD（上）Pyspark学习笔记（四）弹性分布式数据集 RDD（下）Pyspark学习笔记（五）RDD操作(一)_RDD行动操作文章目录Pyspark学习笔记专栏系列文章目录Pyspark学习笔记（五）RDD操作(一)_.

2022-03-07 22:19:42 2169

原创 Pyspark学习笔记（六）DataFrame简介

Pyspark学习笔记（六）文章目录Pyspark学习笔记（六）前言DataFrame简介一、什么是 DataFrame ？二、RDD 和 DataFrame 和 Dataset三、选择使用DataFrame / RDD 的时机前言本篇博客讲的是DataFrame的基本概念DataFrame简介主要参考文献：A Tale of Three Apache Spark APIs: RDDs vs DataFrames and DatasetsRDDs vs. Dataframes

2021-09-12 21:09:53 626

原创 Pyspark学习笔记（四）弹性分布式数据集 RDD 综述（下）

文章目录前言一、PySpark RDD 持久化①` cache()`②` persist() `③ `unpersist() `二、持久性存储级别`MEMORY_ONLY ``MEMORY_AND_DISK``DISK_ONLY``MEMORY_ONLY_2``MEMORY_AND_DISK_2``DISK_ONLY_2`三、共享变量1.广播变量（只读共享变量）i 广播变量 ( broadcast variable)ii 创建广播变量2.累加器变量（可更新的共享变量）前言本篇主要讲述了如何在执行p.

2021-08-12 20:42:38 529

原创 Pyspark学习笔记（四）弹性分布式数据集 RDD 综述（上）

RDD 基本简介(上)

2021-06-25 20:51:11 846 1

原创 Pyspark学习笔记（三）--- SparkContext 与 SparkSession

Pyspark学习笔记（三）— SparkContext 与 SparkSession文章目录Pyspark学习笔记（三）--- SparkContext 与 SparkSession一、什么是SparkContext？二、什么是 SparkSession三、SparkSession 常用方法一、什么是SparkContext？SparkContext 从 Spark 1.x（JavaSparkContext for Java）开始可用，在 2.0 中引入 SparkSession 之前，它被用

2021-06-25 20:01:05 5481 1

原创 Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

Pyspark学习笔记（二）--- spark-submit命令非交互式应用程序，通过spark-submit命令提交任务,官方讲解如下链接所示http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications,spark-submit脚本位于spark安装目录下的bin文件夹内，该命令利用可重用的模块形式编写脚本，以编程方式提交任务到Spark上去，并可以支持.......

2021-03-17 16:47:14 2225

原创 TensorFlow使用

最近因为工作需要，准备使用TensorFlow框架，因为一直有使用pytorch的经验，所以以为不会很麻烦，但是看了几天官方文档之后，果断弃坑，去TMDSB Tensorflow，模块乱糟糟的像一锅粥，我宁愿去用百度的paddlepaddle。...

2021-03-05 13:16:20 215 1

原创离线安装pytorch

离线安装pytorch核心思想：搭梯子翻出去用网址链接直接用浏览器下载安装包，然后拷贝回linux系统中本地离线安装。首先报一下我自己的参数：Anaconda3，python3.7，CUDA10.1.243，CUDNN7.6.3然后我就在官网上找到适合我的，写这篇博文的时候是1.4版本为stable版本，结合自己的参数选择如下界面：官网的安装指令为：conda i...

2020-05-01 16:20:21 5614

原创深度学习基础知识（〇）--- 目录

本系列涉及深度学习中的一些较为常见的、基础的知识点：点击标题即可跳转到相应的博文页面1. 权重初始化2. 卷积网络与池化操作3. Normalization 操作4. 激活函数5. dropout 操作6. 损失函数7. 优化方法个人水平有限，难免挂一漏万，欢迎赐教指正。...

2020-01-30 23:22:30 687 2

原创深度学习基础知识（七）--- 各种优化方法

深度学习常用的优化方法参考资料：《Deep Learning》、pytorch 文档深度学习中，优化算法的目标函数通常是一个基于训练集的损失函数，优化的目标在于降低训练误差。这意味着用训练集上的经验分布代替真实分布。最小化这种平均训练误差的训练过程，被称为经验风险最小化（empirical risk minimization）1.Stochastic ...

2020-01-30 21:30:06 1601

原创深度学习基础知识（六）--- 损失函数

1.L1损失（绝对损失函数）和 L2 损失（平方损失函数）L1范数损失函数，也被称为最小绝对值偏差（LAD），最小绝对值误差（LAE）。总的说来，它是把目标值（Yi）与估计值（f(xi)）的绝对差值的总和（S）最小化：L2范数损失函数，也被称为最小平方误差（LSE）。总的来说，它是把目标值（Yi）与估计值（f(xi)）的差值的平方和（S）最小化：2. M...

2020-01-30 21:05:27 2066

原创深度学习基础知识（五）--- dropout

dropout 可以看作是一种实用的bagging的方法，即模型平均思想的一种运用。因为模型平均要对训练集有放回的采样，得到多个不同的训练集，再训练多个不同的模型，在测试阶段由多个不同的模型表决或者平均来做出最终预测。但是对于深度神经网络而言，训练多个不同的模型可能不切实际，会耗费大量时间和计算力，dropout 对神经元随机失活，也就是说前传的过程中...

2020-01-19 23:00:49 689

原创深度学习基础知识（四）--- 激活函数

激活函数也就是一些非线性单元，如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。参考文章：https://zhuanlan.zhihu.com/p/251104501.sigmoidsi...

2020-01-18 13:52:14 750

原创深度学习基础知识（三）--- Normalization 规范化操作

本文部分过程和图片来源于以下参考资料参考资料：知乎专栏 - 张俊林 - 深度学习中的Normalization模型 - https://zhuanlan.zhihu.com/p/43200897知乎专栏 - Juliuszh - 详解深度学习中的Normalization，BN/LN/WN - https://zhuanlan.zhihu.com/p/33173246CSDN ...

2019-12-29 20:19:47 4916 3

原创 VOC数据集解析 VOC2007解析

VOC数据是 PASCAL VOC Challenge 用到的数据集，官网：http://host.robots.ox.ac.uk/pascal/VOC/这里以常用的 VOC2007数据集作为代表来讲解一下VOC数据集1.下载数据官网：http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html训练集/验...

2019-12-12 00:31:19 7331 9

原创深度学习基础知识（二）--- 卷积操作与池化操作

这里并不介绍卷积操作具体是如何进行的，关于这点，很多文章都有介绍。本文主要介绍一下为何会广泛使用卷积操作？参考资料：《Deep Learning》https://mooc.study.163.com/learn/2001281004?tid=2001392030#/learn/content?type=detail&id=2001728690卷积运算 ...

2019-12-02 19:53:31 2025 1

原创深度学习基础知识（一）--- 权重初始化

1、为什么需要权重初始化？① 为了使神经网络在合理的时间内收敛② 为了尽量避免在深度神经网络的正向（前向）传播过程中层激活函数的输出梯度出现爆炸或消失。2、如何进行初始化？①如果将每个隐藏单元的参数都初始化为0那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值，并传递至输出层。在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使用基于梯度的优化算法迭...

2019-12-01 23:23:58 5573

原创安装CUDA10和CUDNN760

安装CUDA101.去官网下载想要的cudahttps://developer.nvidia.com/cuda-toolkit-archive2.选中一个下载包，按照自己电脑的情况选相应的选项，注意最后一行我选的是deb(network)方式安装，因为如果用deb(local)的话，你可以试着选那个，然后看下面的内容，需要下载整个包，有1.7G，还是算了。这个不影响...

2019-11-27 01:03:20 1895

转载 conda虚拟环境

声明：本文转载自----> https://blog.csdn.net/weixin_43593330/article/details/93378987在Anaconda中conda可以理解为一个工具，也是一个可执行命令，其核心功能是包管理与环境管理。所以对虚拟环境进行创建、删除等操作需要使用conda命令。查看Python版本号python -V #注意V是大写co...

2019-11-13 17:20:02 851

原创 8-3 图的遍历

8-3 图的遍历和树的遍历类似，图的遍历也是从某个顶点出发，沿着某条搜索路径对图中所有顶点各做一次访问。若给定的是连通图，则从图中任一顶点出发顺着边可以访问到该图中所有的顶点。但是有可能在访问了某个顶点之后，可能顺着某条回路又回到了该顶点。为了避免重复访问同一个顶点，必须记住每个顶点是否被访问过。为此，可设置一个标志向量 visited [1,...,N]，以便说明哪些点被...

2019-06-25 23:23:54 383

原创 8-2 图的存储结构

8-2 图的存储结构1.邻接矩阵（顺序存储结构）图结构的元素之间虽然具有“多对多”的关系，但是同样可以采用顺序存储，即使用数组有效地存储图。集合V中所有的顶点可以利用一个一维数组存储；而集合E中所有的边可以用一个二维数组来存储，此二维数组就称为邻接矩阵！设G=（V, E）是有n个（n>=1)顶点的有向图，则G的邻接矩阵是具有如下性质的 n x n 矩阵：...

2019-06-25 20:35:58 432

原创 8-1 图结构

8-1 图结构1、图结构前面已经讲了 "一对一" 的线性存储结构、"一对多"的树结构，现在介绍 "多对多" 的图结构图G由两个集合 V和E 组成，记为G=( V, E) ，其中 V是顶点（vertex）的有穷非空集合，E是指边（edge）的有穷集合。图存储结构可细分两种表现类型，无向图和有向图。若图G的边没有表示方向，则就称为无向图，这样的边用圆括号表...

2019-06-25 20:03:28 619

原创 0-数据结构与算法链接目录

0-数据结构与算法链接目录对我自己写的数据结构与算法这一部分的博文做一个目录，方便查询下面的文字直接点击就可跳转到目标博文页面：1-数据结构和算法简介2-1 线性表之顺序表及其C语言实现2-2 线性表之链表及其C++实现2-3 线性表之静态链表及3其 C++实现2-4 线性表之双链表2-5 线性表之循环链表2-6 链表逆序2-7 顺序表和链表 ...

2019-06-25 09:44:01 295

原创 7-2 其余的一些树-排序二叉树-霍夫曼树

7-2 其余的一些树1、二叉排序树二叉排序树可以通过递归的方法来定义，它或者是空二叉树，或者是具有如下定义的二叉树：左子树上所有节点的关键字均小于根节点的关键字；右子树上所有节点的关键字均大于等于根节点的关键字。左子树和右子树本身又各是一颗二叉排序树。二叉排序树的生成从二叉排序树的定义中可以得出一个重要性质：按中序遍历该树所得的中序序列是一个递增有序列！因此...

2019-06-24 11:50:24 495

原创 7-1 树结构和二叉树

7-1 树结构和二叉树前面讲的都是线性存储结构，而树是一种典型的非线性存储结构，一个元素可以有多个直接后继元素。1.一些术语①叶子：没有后继节点的结点称为叶子节点；②分支节点：非叶子节点；③节点的度：直接后继节点的数目；④子节点：某一个节点的直接后继节点；⑤父节点：某个子节点的直接前驱节点；⑦兄弟：具有同一父节点的一群节点；⑧节点的层次：根...

2019-06-24 11:17:54 597

原创 5-数组

5-数组数组其实是比较熟悉的一种数据类型，但其实数组本身也是一种数据结构。前面讨论的线性表结构的顺序存储结构都是借用一维数组来实现的，一维数组是一种顺序表结构，多维数组是一种特殊的线性结构，是线性表的推广。数组是用于储存多个相同类型数据的集合。1.数组的顺序存储结构由于数组可以是多维的，而顺序存储结构是一维的，因此数组中数据的存储要制定一个先后次序。通常，数...

2019-06-24 10:37:10 450

原创 4 串

4 串1.定义数据结构中，字符串要单独用一种存储结构来存储，称为串存储结构。这里的串指的就是字符串。严格意义上讲，串存储结构也是一种线性存储结构，因为字符串中的字符之间也具有"一对一"的逻辑关系。只不过，与之前所学的线性存储结构不同，串结构只用于存储字符类型的数据。2.一些特殊的串①空串：存储 0 个字符的串，例如 S = ""（双引号紧挨着）；②空格串：只包含空...

2019-06-22 14:44:59 430

原创 3-2 队列

3-2 队列1、基本概念队列是一种特殊的线性表，特殊之处在于它只允许在表的前端（front）进行删除操作，而在表的后端（rear）进行插入操作，和栈一样，队列是一种操作受限制的线性表。进行删除操作的端称为队头，进行插入操作的端称为队尾。FIFO (First In First Out) 先进先出队列的基本操作：①init() 置空，将队列Q初始化为空；②empty...

2019-06-22 14:19:29 256

原创 3-1 栈及其 C++实现

3-1 栈1、基本概念栈是限制仅在表的一端进行插入和删除操作的线性表。通常称插入、删除的这一端为栈顶，另一端称为栈底。当表中没有元素时称为空栈。由于栈中元素的插入和删除操作都只能在栈顶进行，所以总是后进栈的先出栈。(LIFO) Last In First Out. 后进先出栈的基本操作有五种：①init()，将栈S初始化为空②empty() 判空栈，判断...

2019-06-21 22:57:03 348

原创 2-7 顺序表和链表对比

2-7 顺序表和链表对比1、存储结构的不同虽然它们同属于线性表，但数据的存储结构有本质的不同：顺序表存储数据，需预先申请一整块足够大的存储空间，然后将数据按照次序逐一存储，逻辑关系就是靠元素间物理空间上的邻接关系来维持链表，什么时候存储数据，什么时候才申请存储空间，数据之间的逻辑关系依靠每个数据元素携带的指针维持，2、空间利用率顺序表的空间利用率显然要...

2019-06-21 21:45:33 554

原创 2-6 链表逆序及其C++实现

更多系列博文请点击：0-数据结构与算法链接目录2-6 链表逆序我只介绍两种常用方法吧，非递归方法和递归方法我觉得够用就行1、非递归方法：将第二个元素后面的元素依次插入到头结点后面，最后再把原始第一个元素放到原始第二个元素后面，整个链表就能够反转了这个方法对于带不带头结点的链表都适用：①不带头结点原始链表，其中第二个元素是 BA ->...

2019-06-21 20:36:19 785

原创 2-5 线性表之循环链表

更多系列博文请点击：0-数据结构与算法链接目录2-5 线性表之循环链表循环链表就是链表首尾相接连成一个环，可以用单链表和循环链表来实现。下面分别来看两种情况：1、使用单链表构建循环链表为了方便，我这里使用带头结点的单链表来构建循环链表，至于单链表带不带头结点的异同，我在前面的线性表之链表那篇文章中已经做过分析，就不再赘述。单向循环链表是指在单链表的基础上，表的最...

2019-06-21 17:18:38 348

原创 2-4 线性表之双链表

更多系列博文请点击：0-数据结构与算法链接目录2-4 线性表之双链表双向链表除了相当于在单链表的基础上，每个结点多了一个指针域prior，用于存储其直接前驱的地址。同时保留有next，用于存储其直接后继的地址。所以对于带头结点的双链表，其实很多操作都和带头结点的单链表是一样的，因为你完全可以忽视掉它有个 prior指针，这样就可以当做单链表来使用。所以，这里只...

2019-06-21 17:05:19 429

原创 2-3 线性表之静态链表及3其 C++实现

更多系列博文请点击：0-数据结构与算法链接目录2-3 线性表之静态链表1、基本定义静态链表，也是线性存储结构的一种，它兼顾了顺序表和链表的优点。静态链表，仍需要预先分配一个较大的空间，但是在作为线性表的插入和删除操作时不需要移动元素，仅仅需修改指针，故仍具有链式存储结构的主要优点。静态链表使用数组来存储数据（和顺序表一样），但是存储位置是随机的，数据之间“一对一的逻辑关...

2019-06-21 01:13:45 406

原创 2-2 线性表之链表及其C++实现

更多系列博文请点击：0-数据结构与算法链接目录2-2 线性表之链表及其C++实现采用顺序存储结构的顺序表，其数据元素是用一组地址连续的存储单元来依次存放的，无须为表示数据元素之间的逻辑关系而增加额外的存储空间，其逻辑关系蕴含在存储单元的邻接关系中，并且可以方便地随机存取表中的任一元素，但是从它的插入和删除算法可以看出，顺序表的效率较低，需要大量的数据元素的移位。同时，数据元素最大...

2019-06-18 22:44:42 1043

原创 2-1 线性表之顺序表及其C语言实现

更多系列博文请点击：0-数据结构与算法链接目录2-1 线性表之顺序表0、数据结构大致包含以下几种存储结构：线性表：还可细分为顺序表、链表、栈和队列；树结构：包括普通树，二叉树，线索二叉树等；图存储结构；1、线性表线性表，全名为线性存储结构。是由n个相同类型的元素所构成的有限线性序列。线性表主要的基本操作有以下几种：①Initiate(L...

2019-06-18 10:37:26 415

空空如也

空空如也