奋斗的瘦胖子-CSDN博客

原创 Linux离线安装Git

Linux离线安装Githttps://blog.csdn.net/weixin_33858249/article/details/92536693

2021-10-25 20:54:14 760

python 函数、类、类方法、类静态方法梳理和理解1.函数和类理解函数就是一个function；输入对应的参数，给出对应结果，不涉及实例化类是面向对象，是以一种抽象方式，代码会更加简洁、易读，复用性好，使用的时候需要实例化；2.类实例方法、类方法和静态方法的理解概念：1）类实例方法就是每个类里面的函数，第一个参数都是self（约定，非python关键词），代表类本身；2）类方法需要使用@classmethod来进行注释；第一个参数都是cls（约定，非python关键词），代表类本身；3）

2021-04-14 11:36:22 384

原创 TypeError: ‘DataFrameWriter‘ object is not callable

pyspark 在写将rdd数据转成dataframe数据之后，写入指定路径（表中）样例指令: # 原始数据schame获取 # originTableRow = spark.table(output_db + "." + tableName + "_temp") field_name_list = ["id","schema_table", "value", "unit", "first_type", "second_type", "group_id"] fields =

2021-04-13 18:37:24 1892

原创二维数组中的查找（剑指Offer 04）

题目：二维数组中的查找（剑指Offer 04）描述：在一个 n * m 的二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个高效的函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。示例:现有矩阵 matrix 如下：[[1, 4, 7, 11, 15],[2, 5, 8, 12, 19],[3, 6, 9, 16, 22],[10, 13, 14, 17, 24],[18, 21, 23, 26, 30]]

2021-04-13 10:26:13 203

原创找出数组中重复的数字（剑指 Offer 03）

题目：找出数组中重复的数字（剑指 Offer 03）描述：在一个长度为 n 的数组 nums 里的所有数字都在 0～n-1 的范围内。数组中某些数字是重复的，但不知道有几个数字重复了，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例 1：输入：[2, 3, 1, 0, 2, 5, 3]输出：2 或 3限制：2 <= n <= 100000==================================================这道题在考察什么？考

2021-04-13 10:12:01 134 1

原创解决TensorFlow只能保存几个模型的问题

应该有很多人和我一样，不是系统的学习tensflow，然后用别人写的代码；直接调整下就训练；然后遇到模型保存总是有消失的情况；模型保存有一个max_to_keep参数；如果设置了固定数字；当模型数量超过这个数字之后，tensorflow就会清理历史模型；只保留最新的；所以大家使用过程中可以按需调整saver = tf.train.Saver(max_to_keep=10)...

2021-03-09 09:04:13 348

原创 spark聚类算法的聚类效果评估指标“轮廓系数”细节

什么是轮廓系数？参见百度百科，讲的很清楚此处不赘述；https://baike.baidu.com/item/%E8%BD%AE%E5%BB%93%E7%B3%BB%E6%95%B0/17361607?fr=aladdin核心问题:这个计算方法的复杂度是多少？O(N^2)其中N为样本数量；这个复杂度对于spark分布式大数据处理而言，是不可接受的，所以怎么办呢？spark的轮廓系数计算方法？资料1：http://sujitpal.blogspot.com/2018/03/an-imple

2021-02-21 19:55:01 712

原创 Levenshtein-编辑距离

2020-09-14 09:30:04 109

原创 JAVA读(FileReader)或写(FileWriter)包含中文的文件乱码问题

阐述一下背景：我曾经写的一个jar的任务，是用spark去处理hive数据；已经在若干个服务器上调度都是很正常的，但是有一天在3个场地爆出，运行失败的问题；然后自己就去看日志追问题，在日志上看到到了中文乱码。所以基本锁定是编码问题。因为的任务里面有一个验证环节：1.任务本地存储一个json配置文件；2.spark拉取分布式数据的统计信息；3.如果1中的key在2中则进行跑数；问题判定：日志显示，验证环节失败了。所以可以肯定的是，不是spark读的数据是乱码，就是我的本地配置读的时候是乱码。问题排查：

2020-09-10 09:47:59 1985

原创画流程图的网站推荐

https://app.diagrams.net/

2020-08-18 10:17:29 308

原创数据结构与算法--队列和栈(四)

前言堆栈是一个计算机领域常用的术语。本节聊得【栈和队列】就是堆栈的两种常见形式，堆栈还包含一个【堆】的概念，又名优先队列，因为是一个树形结构，本节暂不做介绍。本节介绍【栈和队列】。无论是栈，还是队列，都不是数据的存储结构；它们更多的是一种根据应用衍生而来的两种数据结构。栈和队列，底层都可以使用链表或顺序表来实现。所以链表或顺序表才是他们的存储结构，只不过栈或队列具有不同的应用场景，而被抽象成为常见数据结构。栈栈，如一个桶子，只有一个口，即使入口也是出口，如果要取桶子底部的东西，必须把整个桶子都清空

2020-07-17 09:26:01 207

原创数据结构与算法--链表(三)

链表（Linked List）是一种常见的基础数据结构，是一种线性表，但是并不会按线性的顺序存储数据，而是在每一个节点里存到下一个节点的指针（Pointer）。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dGYdAmAt-1593744506914)(evernotecid://BDCFCAAE-D08B-4AE2-B3B0-A4D84879984F/appyinxiangcom/11590539/ENResource/p28)]https://leetcode-cn

2020-07-03 10:50:59 316 1

原创数据结构与算法--线性表(二)

在概述一节中，介绍过数据结果会根据逻辑关系，有一个逻辑分类，分别是：集合结构、线性结构、树结构、图结构；所谓的线性结构就是结构内的元素之间具有”一对一“逻辑关系。这种数据结构的最佳存储方式也是线性结构的存储。这种方式是"线性表"。线性表定义线性表（线性存储结构），使用线性表存储数据的方式可以这样理解，即"元素之间首尾顺序链接、如排列的队伍或一根绳索"。线性表分类线性表根据元素之间首尾相连的方式，在内存中的具体实现形式，可分为两类：1.顺序存储结构（顺序表）2.链式存储结构（链表）顺序表该种

2020-06-24 20:18:51 218

原创数据结构与算法--概述(一)

“数据结构”是“程序员”面试亘古不变的话题，很多人为了能拿到一个好的offer煞费心血，刷题提升自己。笔者也有过类似的经历。但是对数据结构的理解仍然是无序状态，为了更好的理解这一古老的话题，特对这一话题进行有序的梳理，以希望自己可以达到更深刻的理解或认识。为什么程序员相关的岗位都要考察数据结构与算法呢？曾经以为图灵奖获得者Nicklaus Wirth提出过一个著名的公式：算法+数据结构=程序，所以如果想写出好的程序离不开数据结构。当下很多人会说，我写的python什么的也没有用到这些，不是一样可以工作的

2020-06-24 09:43:13 238

原创 spark的aggregate函数理解

先看源码：def aggregate(self, zeroValue, seqOp, combOp): """ Aggregate the elements of each partition, and then the results for all the partitions, using a given combine functions ...

2020-01-29 13:43:29 296

原创 spark的fold函数理解

首先我们从源码入手看看这个函数有什么pyspark的fold函数的python源码如下：def fold(self, zeroValue, op): """ Aggregate the elements of each partition, and then the results for all the partitions, using a ...

2020-01-29 12:47:21 1364

原创 hive设定hadoop执行队列

指定队列命令有如下三种：set mapred.job.queue.name=low; 一般是老版本set mapreduce.job.queuename=high; 一般是新版本set mapred.queue.names=mid;具体是哪种？大家可以根据自己使用的版本自己测试一下。...

2020-01-20 15:11:33 1346

原创 Spark的map，mapPartitions，mapPartitionsWithIndex详解

原理解读spark的官网给的函数定义，如下，可以仔细读一读，理解一下之间的差异。TransformationMeaningmap(func)Return a new distributed dataset formed by passing each element of the source through a function func.mapPartition...

2020-01-20 14:18:58 2543

原创 Java加载tensorflow模型(单机加载或分布式加载)

我们常用python进行tensorflow深度模型训练，然后，训练后的模型需要应用到web端调用，或者app应用调用，甚至分布式任务使用等等。在这些应用中java代码调用，是避免不了的。本文就介绍一下，java加载tensorflow模型的方式，分别单机调用和分布式调用。1.环境需要首先需要加载一些jar包，如果是maven项目在pom.xml中添加以下依赖。至于版本信息，切记一定要和你py...

2019-10-31 13:59:22 2460

原创 TensorFlow模型的保存及模型的应用

tensorflow的模型保存形式？1.ckpt格式就是通过如下几个函数实现的tensorflow模型保存的模型，是ckpt格式的模型。saver = tf.train.Saver()...saver.save(sess, saveFile)就可以保存出如下文件：checkpointmodel-450.data-00000-of-00001model-450.indexmod...

2019-10-31 11:16:02 442

原创 spark任务调度流程梳理

如果经常做大数据相关的工作，那么，分布式的程序是必不可少的，只有非常清晰的了解，大数据框架的调度流程及核心原理，才能写出高效的程序。所以，最近梳理下spark的调度流程。可能不是特别深入，但是，是自己逐步深入学习的基础。如果恰好能帮助到你的话，那是我的荣幸！spark是什么？Apache Spark™ is a unified analytics engine for large-scale ...

2019-08-15 11:26:38 955

原创 hadoop-yarn 框架梳理学习

YARN 是什么？Yarn是Yet Another Resource Negotiator的缩写， Apache Hadoop YARN 是开源 Hadoop 分布式处理框架中的资源管理和作业调度技术。YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序，并调度要在不同集群节点上执行的任务。Yarn最大的特点是执行调度与Hadoop上运行的任务类型无关。前身：相对于hado...

2019-08-14 19:34:02 248

原创 hive中UDF，UDAF，UDTF编写和使用学习

UDF，UDAF，UDTF三个函数是Hive中常用的自定义函数，这些函数可以实现复杂的功能，且可以重复使用。这篇文档，我们了解一下UDF，UDAF，UDTF三个函数编写和使用学习UDF(User-Defined Functions)功能特点：输入一条数据，输出一条数据；是一个一对一的关系，属于单纯处理操作。用途说明：UDF函数可以直接应用于hive中的select语句，对查询结果做格式...

2019-07-26 14:33:35 837

原创静态语言与动态语言

什么是静态语言静态语言是在编译时变量的数据类型即可确定的语言，多数静态类型语言要求在使用变量之前必须声明数据类型。俗称“强类型语言”强制数据类型定义的语言：一旦一个变量被指定了某个数据类型，如果不经过强制转换，那么它就永远是这个数据类型了。常见的静态语言包括：C++、Java、C#等什么是动态语言动态语言是在运行时确定数据类型的语言。变量使用之前不需要类型声明，通常变量的类型是被赋值的那...

2019-07-15 18:19:35 920 2

原创 leetcode：二分查找 Python模板

什么是二分查找二分查找是计算机科学中最基本、最有用的算法之一。它描述了在有序集合中搜索特定值的过程。二分查找中使用的术语：目标 Target —— 你要查找的值索引 Index —— 你要查找的当前位置左、右指示符 Left，Right —— 我们用来维持查找空间的指标中间指示符 Mid —— 我们用来应用条件来确定我们应该向左查找还是向右查找的索引下面介绍三个常用的二分查找模板...

2019-06-03 08:08:42 1022

原创 spark countByKey源码详解

countByKey首先使用map函数，将key，value形式的rdd数据转化为的value形式，然后调用countByValue，实现计数，属于复用函数。下面也会详细介绍countByValuePyspark 源码关于：countByKey def countByKey(self): """ Count the number of elements f...

2019-05-15 14:31:05 596

原创 transform相关经典博文整理

1.transformer的理解：The Illustrated Transformerhttp://jalammar.github.io/illustrated-transformer/ 【英文博文】1.1.以上的中文翻译版本https://blog.csdn.net/yujianmin1990/article/details/852212711.2.Transformer: A ...

2019-05-08 15:10:25 164

原创理解RNN与 LSTM 网络

1.英文原始博客链接：http://colah.github.io/posts/2015-08-Understanding-LSTMs/这里讲的很好，大家有能力建议阅读原文，多次阅读体会2.中文翻译版本：https://www.jianshu.com/p/9dc9f41f0b29这个翻译版本，翻译的也很好，值得反复读一下。（别人转载的上一个链接，备用）https://www.cnbl...

2019-05-08 09:22:35 214

原创数据仓分层的意义及如何优雅地设计数据分层

转载自：http://bigdata.51cto.com/art/201710/554810.htm为什么要分层我们对数据进行分层的一个主要原因就是希望在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个原因：1.清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。2.数据血缘追踪：数据使用过程中，我们最终给业务呈现的是一张能直接...

2019-05-07 19:39:54 3658 3

原创 LeetCode系列：34. 在排序数组中查找元素的第一个和最后一个位置

34. 在排序数组中查找元素的第一个和最后一个位置给定一个按照升序排列的整数数组 nums，和一个目标值 target。找出给定目标值在数组中的开始位置和结束位置。你的算法时间复杂度必须是 O(log n) 级别。如果数组中不存在目标值，返回 [-1, -1]。示例 1:输入: nums = [5,7,7,8,8,10], target = 8输出: [3,4]示例 2:输入: n...

2019-04-21 21:49:42 161

原创 LeetCode系列：328. 奇偶链表

328. 奇偶链表给定一个单链表，把所有的奇数节点和偶数节点分别排在一起。请注意，这里的奇数节点和偶数节点指的是节点编号的奇偶性，而不是节点的值的奇偶性。请尝试使用原地算法完成。你的算法的空间复杂度应为 O(1)，时间复杂度应为 O(nodes)，nodes 为节点总数。示例 1:输入: 1->2->3->4->5->NULL输出: 1->3->...

2019-04-17 09:45:52 205

原创 LeetCode系列：1019. 链表中的下一个更大节点

1019. 链表中的下一个更大节点给出一个以头节点 head 作为第一个节点的链表。链表中的节点分别编号为：node_1, node_2, node_3, … 。每个节点都可能有下一个更大值（next larger value）：对于 node_i，如果其 next_larger(node_i) 是 node_j.val，那么就有 j > i 且 node_j.val > nod...

2019-04-03 12:23:11 2775

转载 Spark性能优化指南——高级篇

本文转自美团点评技术团队博客，原文地址：http://tech.meituan.com/spark-tuning-pro.html前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问...

2019-04-03 11:08:46 180

原创 LeetCode系列：766. 托普利茨矩阵

766. 托普利茨矩阵如果一个矩阵的每一方向由左上到右下的对角线上具有相同元素，那么这个矩阵是托普利茨矩阵。给定一个 M x N 的矩阵，当且仅当它是托普利茨矩阵时返回 True。示例 1:输入:matrix = [[1,2,3,4],[5,1,2,3],[9,5,1,2]]输出: True解释:在上述矩阵中, 其对角线为:“[9]”, “[5, 5]”, “[1, 1,...

2019-04-02 19:22:18 186

原创 LeetCode系列：566. 重塑矩阵

566. 重塑矩阵在MATLAB中，有一个非常有用的函数 reshape，它可以将一个矩阵重塑为另一个大小不同的新矩阵，但保留其原始数据。给出一个由二维数组表示的矩阵，以及两个正整数r和c，分别表示想要的重构的矩阵的行数和列数。重构后的矩阵需要将原始矩阵的所有元素以相同的行遍历顺序填充。如果具有给定参数的reshape操作是可行且合理的，则输出新的重塑矩阵；否则，输出原始矩阵。示例 1:...

2019-04-02 12:48:54 125

原创 LeetCode系列：876. 链表的中间结点

876. 链表的中间结点给定一个带有头结点 head 的非空单链表，返回链表的中间结点。如果有两个中间结点，则返回第二个中间结点。示例 1：输入：[1,2,3,4,5]输出：此列表中的结点 3 (序列化形式：[3,4,5])返回的结点值为 3 。 (测评系统对该结点序列化表述是 [3,4,5])。注意，我们返回了一个 ListNode 类型的对象 ans，这样：ans.val = ...

2019-04-02 10:10:23 142

原创初识hive数据仓

本文内容来自paper：Hive – A Petabyte Scale Data Warehouse Using Hadoop使我，对hive有了初步的认识了解。后续继续深入学习摘要在商业人工智能行业中，正在收集和分析的数据集的规模正在迅速增长，使得传统的数据仓储解决方案的成本过高。Hadoop是一个流行的开源的map-reduce实现，它被雅虎、Facebook等公司用来存储和处理超大数据...

2019-04-01 20:41:40 542

原创 LeetCode系列：893. 特殊等价字符串组

893. 特殊等价字符串组你将得到一个字符串数组 A。如果经过任意次数的移动，S == T，那么两个字符串 S 和 T 是特殊等价的。一次移动包括选择两个索引 i 和 j，且 i％2 == j％2，并且交换 S[j] 和 S [i]。现在规定，A 中的特殊等价字符串组是 A 的非空子集 S，这样不在 S 中的任何字符串与 S 中的任何字符串都不是特殊等价的。返回 A 中特殊等价字符串组的...

2019-04-01 20:29:33 234

原创 LeetCode系列：762. 二进制表示中质数个计算置位

762. 二进制表示中质数个计算置位给定两个整数 L 和 R ，找到闭区间 [L, R] 范围内，计算置位位数为质数的整数个数。（注意，计算置位代表二进制表示中1的个数。例如 21 的二进制表示 10101 有 3 个计算置位。还有，1 不是质数。）示例 1:输入: L = 6, R = 10输出: 4解释:6 -> 110 (2 个计算置位，2 是质数)7 -> 11...

2019-04-01 20:07:50 273

原创 LeetCode系列：693. 交替位二进制数

693. 交替位二进制数给定一个正整数，检查他是否为交替位二进制数：换句话说，就是他的二进制数相邻的两个位数永不相等。示例 1:输入: 5输出: True解释:5的二进制数是: 101示例 2:输入: 7输出: False解释:7的二进制数是: 111示例 3:输入: 11输出: False解释:11的二进制数是: 1011示例 4:输入: 10输出: Tru...

2019-03-31 23:05:53 192

空空如也

空空如也