MarDino-CSDN博客

原创 Unormalized Resnet

介绍现在BN层被广泛应用于图像分类网络，批量归一化的特性能保证信号不会过大，能良好的传播到下一层神经网络当中。但它也有一些缺点，如：依赖bachsize，当batchsize较小时，效果不好破坏一个batch内样本之间的独立性带来额外的计算和显存开销导致奇怪的Bug本文试图从信号传播可视化，合适的权重初始化等角度，摆脱CNN对BN层的依赖，保证每一层网络的信号传播（不至于信号幅度过大，爆炸）。前排提醒：个人觉得这篇文章十分有意思，但是涉及到探索CNN机制避免不了繁重的公式推导，希望各位能有

2021-02-15 11:09:53 347

原创自动微分

绍计算机程序的求导机制分为四种人工计算出导数，并写成代码形式数值计算微分，即取极限求导数符号微分，使用表达式来计算导数自动微分比如下面的程序所示import numpy as npdef sigmoid(x): """ Compute sigmoid Function """ return 1 / (1+np.exp(-x))def sigmoid_grad(x): return np.exp(-x) / np.square(1 + np

2021-01-05 20:48:32 1214

原创 Vision transformer

太长不看版Vision Transformer将CV和NLP领域知识结合起来，对原始图片进行分块，展平成序列，输入进原始Transformer模型的编码器Encoder部分，最后接入一个全连接层对图片进行分类。在大型数据集上表现超过了当前SOTA模型前言当前Transformer模型被大量应用在NLP自然语言处理当中，而在计算机视觉领域，Transformer的注意力机制attention也被广泛应用，比如Se模块，CBAM模块等等注意力模块，这些注意力模块能够帮助提升网络性能。而我们的工作展示了不需

2020-11-28 16:09:06 35531 18

原创 tensorflow2使用CUDA10.2

tf2是不支持CUDA10.2的，但我们可以做一个软链接，链接到10.1上可参考[解决]tensorflow-gpu2.3与CUDA10.2的兼容问题 dlerror: libcudart.so.10.1: cannot open shared object file亲测成功

2020-11-26 10:52:14 2268

原创 2020-11-17

Beam Searchbeam search 束搜索是基于穷举搜索和贪心搜索的折中搜索方案穷举搜索假设我有 A B C 三个词需要解码我们可以穷尽所有排列组合，一共是27种，因为3个时间步，每个时间步都有3个选择，组合有：AAA AAB AAC ABA ACA 。。。。这种搜索带来的问题在于时间复杂度过大贪心搜索贪心搜索仅考虑当前状态下最优的组合我们先看T1时间步，发现是A概率最高。于是我们以A为基础继续看T2时间步，组合有: AA, AB, AC，然后发现是与B组合概率高，因此以A

2020-11-17 10:14:24 177

原创 HS-Resnet

太长不看版这是最近百度的一篇网络结构设计文章，该网络结构是手工设计得来，主要改进在对特征图多级划分卷积，拼接，提升了网络的精度，同时也降低了推理时间。个人感觉是res2net，ghostnet的结合，并且训练阶段没引入过多的trick，最后的实验结果很惊艳，或许是炼丹的一个好选择。前言在该工作内，我们发现多层级的特征对视觉任务效果提升明显，因此设计了一个即插即用的多级分离模块（Hierarchical-Split Block）。HS-Block包含了多个层级特征图的分离和拼接，我们将其替换到Resn

2020-11-07 13:33:29 1694 3

原创 F3net 商汤Deepfake检测模型

前言这篇论文是商汤团队在ECCV2020的一个工作：Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues，通过引入两种提取频域特征的方法FAD (Frequency-Aware Decomposition) 和LFS (Local Frequency Statistics) ，并设计了一个 MixBlock 来融合双路网络的特征，从而在频域内实现对Deepfake的检测介绍随着Deepfake技术不断

2020-10-01 19:04:15 2985 4

原创 learning in the frequency domain

前言传统的CNN都是在图像的空间域上进行特征学习，受限于显存限制，CNN的输入图像不能太大，最常见的尺寸就是224x224。而常用的预处理(Resize)，以及CNN中的下采样，会比较粗暴的损失数据的信息。阿里达摩院联合亚利桑那州大学提出了基于DCT变换的模型，旨在通过DCT变换保留更多原始图片信息，并减少CPU与GPU的通信带宽，最后的实验也证明该模型的有效性原始论文地址：Learning in the Frequency Domain代码地址 DCTNet介绍大部分CNN模型只能接受 224x

2020-09-23 20:22:03 1670

原创 Repulsion Loss解决行人遮挡问题

介绍本文是旷视研究院CVPR2018上的一篇工作，在检测行人任务中，由于行人之间互相遮挡，导致传统的检测器容易受遮挡的干扰，给出错误的预测框。研究人员先是从数据集上进行分析，定量描述了遮挡对行人检测带来的影响。后面受吸引，排斥的启发，提出了Repulsion Loss来尽可能让预测框贴近真实框的同时，又能与同类排斥，进而避免误检。问题引入常见的遮挡问题可以再被细分为主要两类类间遮挡，即目标被其他类遮挡住。举个例子，一个行人遛狗，人体下半部分就可能被狗狗遮住类内遮挡，目标物体被同类遮挡住，

2020-08-30 15:30:08 1840

原创计算图

前言相信各位做算法的同学都很熟悉框架的使用，但未必很清楚了解我们跑模型的时候，框架内部在做什么，比如怎么自动求导，反向传播。这一系列细节虽然用户不需要关注，但如果从一道算法题开始相信有算法基础的同学，应该都知道迪杰斯特拉的双栈算术表达式求和这个经典算法。他的原理是利用两个栈分别存放运算数，操作。根据不同的情况弹出栈里的元素，并进行运算，我们可以具体看下图这里讨论的是最简单的情况，我们根据操作符的优先级，以及括号的种类(左括号和右括号)，分别进行运算，然后得到最终结果。神经网络里怎么做？在神经网

2020-08-05 12:41:23 545

原创 Rethinking ImageNet Pre-training

前言这篇文章是何恺明组做的一个偏实验的工作，主要是探究ImageNet预训练的模型，在迁移到其他任务比如目标检测，分割等会不会比从头训练模型的要更好。可以总结一下就是在数据集充分的条件下，各个任务里，从头训练的效果并不比在ImageNet预训练过的要差从头训练的模型需要更多的迭代次数，才能追上预训练模型Finetune的结果ImageNet预训练的作用更多的是加速模型收敛，但不意味最后模型表现的好当迁移数据量极少时，ImageNet预训练过的模型表现的要比从头训练的模型要好很多摘要如今各个

2020-08-03 10:13:54 619

原创 Win10和Ubuntu20双系统安装

前言笔者前期搞了一台新主机增加开发需求，想用Linux写代码，win打游戏。配好的主机送过来已经自带win10系统了，下面废话不多说，直接装机制作启动盘首先下rufus，其他启动盘制作软件也可以然后我们去下载Ubuntu Linux镜像，这里建议去国内的镜像站下载http://mirrors.ustc.edu.cn/ubuntu-releases/下载完后，我们使用rufus把镜像录到U盘了，录之前会需要格式化U盘安装步骤https://www.bilibili.com/video/BV11

2020-08-01 22:28:03 586

原创 vscode远程连接ssh

2020-07-27 14:56:39 416

原创 PP-YOLO

摘要目标检测是计算机视觉一个重要的领域。而目标检测算法的准确性和推理速度不可兼得，我们工作旨在通过tricks组合来平衡目标检测器的性能以及速度。考虑到yolo3的广泛应用，我们考虑在yolo3基础模型训练得到一个更快，准确率更高的模型，即PP-YOLO介绍最近出现了yolov4，5模型，这些模型也是基于yolo3算法改进得来。但PPYOLO并不像yolov4探究各种复杂的backbone和数据增广手段，也不是靠nas暴力搜索得到一个结构。我们在resnet骨干网络系列，数据增广仅靠mixup的条件下

2020-07-26 11:45:00 12005 2

原创 WSCL

摘要近些年来，因为弱监督目标检测仅需要图片分类级别的label受到了人们广泛的关注，其代价是准确率一定程度的下降。本文提出了一个简单而有效的弱监督协作目标检测框架，基于共享部分特征，增强预测相关性来同时训练强，弱监督两个检测网络。弱监督目标检测网络采取类似WSDDN的结构，强监督目标检测网络采取类似Faster-RNN的结构。最终在数据集上证明了框架的有效性补充WSDDNWSDDN全称是Weakly Supervised Deep Detection Network，即弱监督深度检测网络。只依靠im

2020-07-25 18:57:01 586

原创 pip切换源

2020-07-24 15:43:37 92

原创力扣785 判断二分图

785. 判断二分图给定一个无向图graph，当这个图为二分图时返回true。如果我们能将一个图的节点集合分割成两个独立的子集A和B，并使图中的每一条边的两个节点一个来自A集合，一个来自B集合，我们就将这个图称为二分图。graph将会以邻接表方式给出，graph[i]表示图中与节点i相连的所有节点。每个节点都是一个在0到graph.length-1之间的整数。这图中没有自环和平行边：graph[i] 中不存在i，并且graph[i]中没有重复的值。示例 1:输入: [[1,3]

2020-07-17 16:35:26 209

原创力扣96 不同的二叉搜索树

96. 不同的二叉搜索树给定一个整数 n，求以 1 ... n 为节点组成的二叉搜索树有多少种？示例:输入: 3输出: 5解释:给定 n = 3, 一共有 5 种不同结构的二叉搜索树: 1 3 3 2 1 \ / / / \ \ 3 2 1 1 3 2 / / \ \ 2

2020-07-17 15:02:36 162

原创力扣174

174. 地下城游戏一些恶魔抓住了公主（P）并将她关在了地下城的右下角。地下城是由 M x N 个房间组成的二维网格。我们英勇的骑士（K）最初被安置在左上角的房间里，他必须穿过地下城并通过对抗恶魔来拯救公主。骑士的初始健康点数为一个正整数。如果他的健康点数在某一时刻降至 0 或以下，他会立即死亡。有些房间由恶魔守卫，因此骑士在进入这些房间时会失去健康点数（若房间里的值为负整数，则表示骑士将损失健康点数）；其他房间要么是空的（房间里的值为 0），要么包含增加骑士健康点数的魔法球（若房间里的值

2020-07-17 12:03:26 169

原创力扣315

315. 计算右侧小于当前元素的个数给定一个整数数组 nums，按要求返回一个新数组 counts。数组 counts 有该性质： counts[i] 的值是 nums[i] 右侧小于 nums[i] 的元素的数量。示例：输入：[5,2,6,1]输出：[2,1,1,0]解释：5 的右侧有 2 个更小的元素 (2 和 1)2 的右侧仅有 1 个更小的元素 (1)6 的右侧有 1 个更小的元素 (1)1 的右侧有 0 个更小的元素这道题一开始被困难难度给吓到了我们先想用暴力法，

2020-07-17 11:19:01 260

原创 SmallBigNet

简介时空卷积常用于视频分类任务，然而其有限的视野使其影响网络对视频数据的表征能力为了解决该问题，我们提出了一种SmallBig网络，它分为small biew和big view两个分支其中small view用来捕获核心语义，big view用来捕获上下文语义。同时big view这一分支能给small view更大的感受野。最后SmallBigNet在模型大小近似于常规2D CNN下，得到了3D CNN的准确率介绍时空卷积只对时间维度上有大感受野，因此会对空间信息提取不充分，甚至会引入噪声比

2020-07-08 20:47:45 517 1

原创力扣32 最长有效括号

32. 最长有效括号给定一个只包含 '(' 和 ')' 的字符串，找出最长的包含有效括号的子串的长度。示例 1:输入: "(()"输出: 2解释: 最长有效括号子串为 "()"示例 2:输入: ")()())"输出: 4解释: 最长有效括号子串为 "()()"这是道困难题，看到了括号，我第一想到的就是栈，因为对于匹配括号的题，栈这种数据结构是非常好用的。其次最长有效，这几个字在动态规划题目中经常遇见，所以不妨两者都可以考虑对应解法动态规划我们假设DP数组表示以当前字符作为结尾

2020-07-06 11:55:14 202

原创力扣378

"""378. 有序矩阵中第K小的元素给定一个 n x n 矩阵，其中每行和每列元素均按升序排序，找到矩阵中第 k 小的元素。请注意，它是排序后的第 k 小元素，而不是第 k 个不同的元素。示例：matrix = [ [ 1, 5, 9], [10, 11, 13], [12, 13, 15]],k = 8,返回 13。"""第一个我们很容易想到将二维数组展开成一维，然后直接进行排序，这里就不多再赘述思路2，我们可以把此题看作是合并K个有序列表，而他在

2020-07-02 11:03:06 223

原创力扣 731最长重复子数组

"""718. 最长重复子数组给两个整数数组 A 和 B ，返回两个数组中公共的、长度最长的子数组的长度。示例 1:输入:A: [1,2,3,2,1]B: [3,2,1,4,7]输出: 3解释:长度最长的公共子数组是 [3, 2, 1]。"""这题上来直觉告诉我是利用动态规划的思想遇到这两个数组的，通常是用二维DP数组我们可以简单画个表看看 3 2 1 4 71 0 0 1 0 02 0 1 0 0 03 1 0 0 0 02 0 2 0 0 01 0 0 3

2020-07-01 14:36:46 190

原创力扣1014

"""1014. 最佳观光组合给定正整数数组 A，A[i] 表示第 i 个观光景点的评分，并且两个景点 i 和 j 之间的距离为 j - i。一对景点（i < j）组成的观光组合的得分为（A[i] + A[j] + i - j）：景点的评分之和减去它们两者之间的距离。返回一对观光景点能取得的最高分。示例：输入：[8,1,5,2,6]输出：11解释：i = 0, j = 2, A[i] + A[j] + i - j = 8 + 5 + 0 - 2 = 11"""from

2020-06-19 10:53:59 117

原创力扣1300

"""1300. 转变数组后最接近目标值的数组和给你一个整数数组 arr 和一个目标值 target ，请你返回一个整数 value ，使得将数组中所有大于 value 的值变成 value 后，数组的和最接近 target （最接近表示两者之差的绝对值最小）。如果有多种使得和最接近 target 的方案，请你返回这些整数中的最小值。请注意，答案不一定是 arr 中的数字。示例 1：输入：arr = [4,9,3], target = 10输出：3解释：当选择 value

2020-06-15 10:55:55 132

原创剑指offer 46题把数字翻译成字符串

"""面试题46. 把数字翻译成字符串给定一个数字，我们按照如下规则把它翻译为字符串：0 翻译成 “a” ，1 翻译成 “b”，……，11 翻译成 “l”，……，25 翻译成 “z”。一个数字可能有多个翻译。请编程实现一个函数，用来计算一个数字有多少种不同的翻译方法。示例 1:输入: 12258输出: 5解释: 12258有5种不同的翻译，分别是"bccfi", "bwfi", "bczi", "mcfi"和"mzi""""class Solution: def tran

2020-06-09 10:00:54 171

原创力扣837 新21点

"""837. 新21点爱丽丝参与一个大致基于纸牌游戏 “21点” 规则的游戏，描述如下：爱丽丝以 0 分开始，并在她的得分少于 K 分时抽取数字。抽取时，她从 [1, W] 的范围中随机获得一个整数作为分数进行累计，其中 W 是整数。每次抽取都是独立的，其结果具有相同的概率。当爱丽丝获得不少于 K 分时，她就停止抽取数字。爱丽丝的分数不超过 N 的概率是多少？示例 1：输入：N = 10, K = 1, W = 10输出：1.00000说明：爱丽丝得到一张卡，然后停止。

2020-06-04 10:31:49 204

原创力扣739 每日温度

739. 每日温度根据每日气温列表，请重新生成一个列表，对应位置的输出是需要再等待多久温度才会升高超过该日的天数。如果之后都不会升高，请在该位置用 0 来代替。例如，给定一个列表 temperatures = [73, 74, 75, 71, 69, 72, 76, 73]，你的输出应该是 [1, 1, 4, 2, 1, 1, 0, 0]。提示：气温列表长度的范围是 [1, 30000]。每个气温的值的均为华氏度，都是在 [30, 100] 范围内的整数一开始我他吗是没看懂题的，不知道

2020-06-01 11:16:22 309

原创力扣101 对称二叉树

LEETCODE 101 对称二叉树给定一个二叉树，检查它是否是镜像对称的。例如，二叉树 [1,2,2,3,4,4,3] 是对称的。 1 / \ 2 2 / \ / \3 4 4 3 但是下面这个 [1,2,2,null,3,null,3] 则不是镜像对称的: 1 / \ 2 2 \ \ 3 3class TreeNode: def __init__(self, x): self.va

2020-06-01 10:45:15 183

原创 LEETCODE 84 柱状图中最大的矩形

84. 柱状图中最大的矩形给定 n 个非负整数，用来表示柱状图中各个柱子的高度。每个柱子彼此相邻，且宽度为 1 。求在该柱状图中，能够勾勒出来的矩形的最大面积。这个问题和接雨水那道很相似，第一反应是使用单调栈做。怎么确定当前矩形最大面积呢？我们定义一个单调递增的栈，当新来的元素小于栈顶元素，那么栈顶元素对应的矩形面积是可以确定的，因为栈顶大于其左右两边的元素（这里我们假设右边元素是新加的元素）计算完面积后，弹出栈顶元素，若新栈顶仍然大于新元素，那么重复上面的步骤，我们也可以确定新栈顶对应

2020-06-01 10:12:11 129

原创力扣5：最长回文子串

5. 最长回文子串给定一个字符串 s，找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。示例 1：输入: "babad"输出: "bab"注意: "aba" 也是一个有效答案。示例 2：输入: "cbbd"输出: "bb"常规的暴力法就是遍历各个子串，并且判断子串是否是回文串，这样时间复杂度为O(n^3)接下来我们看动态规划做法我们假设一个dp数组，dp[i][j]表示s[i…j]是否为回文串由于回文子串具备天然的状态转移特性当两头字母相同时，去掉两头字母

2020-05-21 11:01:51 265

原创力扣1371

"""1371. 每个元音包含偶数次的最长子字符串给你一个字符串 s ，请你返回满足以下条件的最长子字符串的长度：每个元音字母，即 'a'，'e'，'i'，'o'，'u' ，在子字符串中都恰好出现了偶数次。示例 1：输入：s = "eleetminicoworoep"输出：13解释：最长子字符串是 "leetminicowor" ，它包含 e，i，o 各 2 个，以及 0 个 a，u 。示例 2：输入：s = "leetcodeisgreat"输出：5解释：最长子字符串是 "l

2020-05-20 09:58:42 303

原创记一次平安科技电话面经

前言之前投了很多次平安科技的实习，但都没消息回复。五一前平安科技hr打来电话，让我参与python开发面试（因为自己不确定能不能做算法，所以投递方向填了两个分别是python开发和算法实习生），后续她会发你一个邮件确认面试，十分感谢这个hr又把我捞回到了算法里面，另外需要做一份自我介绍的ppt，介绍项目博客经历什么的，回复给她即可。总的来说问的十分基础且深入，面试官不会特别刁难你，但是问的问题都...

2020-05-06 17:44:10 1127 1

原创 LEETCODE力扣股票问题总结

在力扣网站中，最常见的动态规划问题就是股票系列的问题这里我把题号给放上来121122123188309714股票问题总思路既然涉及到动态规划，那么我们肯定是需要根据题意来定义状态转移方程的对于股票的操作，我们一共有3个，分别是买，卖，不交易我们可以定义一个三维的数组，维度分别代表天数，交易次数，状态（用0，1代表没持有股票还是持有股票）dp[i][k][0] = max(...

2020-05-06 16:33:29 780

原创 10.10数字流的秩

面试题 10.10. 数字流的秩假设你正在读取一串整数。每隔一段时间，你希望能找出数字 x 的秩(小于或等于 x 的值的个数)。请实现数据结构和算法来支持这些操作，也就是说：实现 track(int x) 方法，每读入一个数字都会调用该方法；实现 getRankOfNumber(int x) 方法，返回小于或等于 x 的值的个数。注意：本题相对原题稍作改动示例:输入:["S...

2020-04-25 11:32:57 358

原创回溯算法与相关习题详解

回溯算法简介回溯算法是一种遍历所有情况找到最优解的算法。通过回溯，重新做一次选择，从而得到最优解我们可以认为这是一种有规律的枚举法，再加上递归的使用，使得整个过程更加有序回溯算法初接触回溯算法通常可以解决求最优解，求全排列，匹配括号，上色等等通常回溯算法有一种较为通用的模板def 主函数： res = [] def backtrace(xxxxx):# 回溯方法本身 i...

2020-04-20 15:26:31 318

原创 Leetcode42 接雨水 Python

利用单调栈的特性class Solution: """ 单调栈,维护一个从大到小的单调栈，比如[4, 3, 2, 1] 假设我们的数据是[4, 3, 1, 0, 1, 2, 4] 我们先组成单调栈,则stack里的元素是[4, 3, 1, 0] 然后我们遇到1，它大于我们栈顶元素此时先pop出栈顶元素，记为cur 现在栈顶元素是左边的水柱...

2020-04-04 15:35:26 240

原创取数

题目描述：首先给出n个数字a1,a2,….an，然后给你m个回合，每回合你可以从中选择一个数取走它，剩下来的每个数字ai都要减去一个值bi。如此重复m个回合，所有你拿走的数字之和就是你所得到的分数。现在给定你a序列和b序列，请你求出最多可以得到多少分。输入：5510 20 30 40 504 5 6 7 8输出100输入第一行，仅包含一个整数n（1<=n<=...

2020-03-30 17:42:47 953

原创百度笔试题小结

村民对小孩的可信度为0.9，我们设可信小孩说谎概率为0.1，不可信的小孩说谎概率为0.5，这个小孩喊狼来了，但是狼并没有来，问村民对这小孩的信任度降至多少？事件A 为小孩说谎事件B 为小孩可信P(B) = 0.9, P(B^) = 0.1, P(A|B) = 0.1, P(A|B^) = 0.5我们用贝叶斯后验概率公式P(B|A) = P(BA)/P(A) = [P(A|B)P(B...

2020-03-30 11:19:16 342

空空如也

空空如也