自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 网络流问题以及EK算法复杂度分析

引理:EK算法每次增广都会使得所有顶点v∈V−{s,t}v\in V - \{s,t\}v∈V−{s,t}到sss的最短距离d[v]d[v]d[v]增加。采用反证法,假设存在一个点v∈V−{s,t}v\in V-\{s,t\}v∈V−{s,t},使得d′[v]<d[v]d'[v] < d[v]d′[v]<d[v]。v的前驱点为u。因此可以得到d[u]=d[v]−1,d′[u]>=d[u]d[u] = d[v]-1, d'[u] >= d[u]d[u]=d[v]−1,d′[

2020-09-30 09:59:17 2088

原创 datawhale零基础入门金融风控-建模调参

建模与调参lgb模型建模之前的操作,划分数据集from sklearn.model_selection import KFold# 分离数据集,方便进行交叉验证X_train = data.loc[data['sample']=='train', :].drop(['id','issueDate','isDefault', 'sample'], axis=1)X_test = data.loc[data['sample']=='test', :].drop(['id','issueDate'

2020-09-24 23:07:01 227

原创 Linux学习(五)

Linux磁盘管理什么是磁盘磁盘是利用磁记录技术存储数据的存储器。磁盘是计算机主要的存储介质,可以存储大量的二进制数据所以断电后也能保持数据不丢失。早期计算机使用的磁盘是软磁盘(Floppy Disk,简称软盘),如今常用的磁盘是硬磁盘(Hard disk, 简称硬盘)。磁盘运行原理:多个盘片之间靠主轴连接,电机带动主轴做旋转运动,通过多个磁头臂的摇摆和磁盘的旋转,磁头就可以在磁盘旋转的过程中读取到磁盘中存储的各种数据.[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img

2021-06-23 21:32:45 203

原创 Linux学习(三)

文件和目录管理4.1、Linux目录​ 在Linux中,目录为树状结构。树状目录以 / 为起始,也称为根目录,是Linux文件系统的入口,每一个文件和目录都从这里开始。​ 因为目录繁多,各类软件安装,配置都可能存在混乱的情况。所以产生了FHS(Filesystem Hierarchy Standard)组织。FHS制定了目录规范,什么文件应该放在什么目录。根据FHS标准,Linux目录一般可分为以下四种交互状态:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ABW

2021-06-22 21:28:00 262

原创 Linux学习(三)

Linux学习(三)Linux用户和组管理用户与用户组什么是用户Linux安全性的地方在于良好的用户和组管理方法。Linux是多用户多任务的操作系统,也就是说多个用户可以同时登录执行不同任务。用户分为超级用户和普通用户,超级用户即管理员root。什么是用户组Linux除了用户,还有用户组的概念。当我们需要让多个用户都拥有某一个权限就可以把她们都放进同一个用户组里。用户组分两种,主用户组(primary group),和次用户组(secondary group)。主用户组的信息保存在/et

2021-06-18 22:59:33 375

原创 2021-6-16 Linux教程学习(二)

Linux的安装一、安装Linux1、虚拟机:Oracle VM VirtualBox2、Ubuntu版本:20.04已安装完毕.二、软件安装Linux的两种包管理工具:DPT:基于deb软件包的Linux发行版RPM:基于rpm软件包的Linux发行版2.1 deb基于Debian操作系统(UBUNTU)的DEB软件包管理工具-Dpkg,全称为Debian package,是一个可以安装、构建、删除及管理Debian软件包的命令行工具,可以查看、解压Debian包。#install

2021-06-16 19:46:56 102

原创 2021-06-13 linux教程学习(一)

linux教程学习(一)什么是linuxLinux,全称为GNU/Linux,是一种免费试用和自由传播的类UNIX操作系统,常说的Linux指的是Linux内核,一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux是现代互联网体系重不可或缺的一部分,包括各种嵌入式设备,比如手表和机器人,还有安卓。地球上大多数的服务器都是Linux操作系统,从航天到军事、从科研到金融、从手机到电脑无处不在。因其开源的特点,Linux的发展速度以指数规模增长,无数开发者加入到Linux开发的行

2021-06-14 13:09:57 156 1

原创 【动态规划】两种背包问题

背包问题现有不同类型的物品,质量分别为w[i], 价值为v[i],我们把他们放到背包里,背包本身有一定的容量c,我们想要放入背包的东西:总质量小于或者等于背包的容量;总价值能达到最大。有两种情况:每种物品数量不限,可以用无限制使用;每种物品数量只有1个,就是标准的0-1背包问题。首先我们来看看无限制的情况。每种物品可以无限制使用我们假设背包容量r所能达到的最大价值为m®, r中每一个值都代表了一个子问题。那么我们的递归分解过程将围绕着背包容量中最后一个单元是否有用来进行。就相当于

2020-10-28 16:51:14 445

原创 datawhale零基础入门金融风控-特征工程

内容介绍数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱(选做作业)特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试(选做作业)特征编码one-hot编码label-encode编码特征选择1 Filter2 Wrapper (RFE)3 Embedded代码示例3.3.1 导入包并读取数据impo

2020-09-21 22:39:00 174

原创 datawhale零基础入门金融风控-数据分析

task2 数据分析学习目标学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)学习了解变量间的相互关系、变量与预测值之间的存在关系完成相应学习打卡任务内容介绍数据总体了解: 读取数据集并了解数据集大小,原始特征维度; 通过info熟悉数据类型; 粗略查看数据集中各特征基本统计量;缺失值和唯一值: 查看数据缺失值情况 查看唯一值特征情况 深入数据-查看数据类型 类别型数据 数值型数据 离散数值型数据 连续数值型数据数据间相关关系 特征和特征之间关系 特征和目标

2020-09-18 23:24:50 197

原创 datawhale零基础入门金融风控-赛题理解

赛题理解1.1 学习目标理解赛题数据和目标,清楚评分体系。完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程1.2 了解赛题赛题概况数据概况预测指标分析赛题1.2.1 赛题概况要求参赛选手根据给定的数据集,建立模型预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试

2020-09-15 23:21:55 169

原创 Leetcode分类练习-查找(2)对撞指针

对撞指针leetcode1 Two Sum题目描述给出一个整型数组nums,返回这个数组中两个数字的索引值i和j,使得nums[i]+nums[j]等于给定的一个target值,两个索引不能相等。如:nums = [2, 7, 11, 15], target=9, 返回[0, 1] 。审题需要考虑:1、开始数组是否有序?2、索引从0开始计算还是从1开始计算?3、没有解该怎么办?4、有多个解该怎么办?保证有唯一解。分析实现暴力法 O(n^2)两次遍历数组,代码就不写了。排序+指针对

2020-08-28 22:08:15 129

原创 查找表

查找表考虑的基本数据结构第一类:查找有无–set元素’a’是否存在,通常用set:集合set只存储键,而不需要对应其相应的值set中的键不允许重复第二类:查找对应关系(键值对应)–dict元素’a’出现了几次:dict–>字典dict中的键不允许重复第三类:改变映射关系–map通过将原有序列的关系映射统一表示为其他算法应用Intersection Of Two Arrays1题目描述给定两个数组nums,求两个数组的公共元素。如nums1 = [1, 2, 2, 1],

2020-08-25 20:39:50 232

原创 Leetcode分类练习-动态规划

动态规划动态规划常常用于有重叠子问题和最优子结构性质的问题,动态规划方法所消耗时间往往远少于朴素解法。主要思想如果要解决一个给定问题,我们需要解其不同部分,即子问题,再根据子问题的解得出原问题的解。动态规划往往用于优化递归问题,例如斐波那契数列,如果运用递归的方式来求解回重复计算很多相同的子问题,利用动态规划思想可以减少计算量。动态规划仅仅解决每个子问题一次,具有天然剪枝的功能,从而减少计算量。一旦某个给定子问题的解已经解出,则将其记忆化存储下来,便于下次需要同一个子问题解之时直接查表。..

2020-08-22 21:18:49 234

原创 Leetcode分类练习-分治

分冶引文MapReduce(分冶算法的应用)是Google大数据处理的三驾马车之一,另外两个是GFS和Bigtable。它在倒排索引、PageRank计算、网页分析等搜索引擎相关的技术中都有大量应用。主要思想分冶算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,则停止递归。将子问题逐个击破(一般是同种方法),将已经解决的子问题合并,最后,算法全层层合并得到原问题的答案。分冶算法的步骤分:递归地将问题分解为各个的子问题(性质相同、相互独立的子问题)冶:将这些规模更小的子问

2020-08-19 11:32:59 220

原创 Mac上配置登陆远程linux服务器上的jupyter notebook

之前因为疫情在家学习的时候,在自己的笔记本上安装了xshell,远程连接学校的服务器,并且在服务器上安装了jupyter。操作就是按照教程来的,修改完config文件,登陆jupyter notebook。唯一需要注意的是侦听端口和目标端口的区别,目标端口是jupyter运行所在的端口,侦听端口是服务器监听客户端用的,需要在浏览器中输入:http://localhost:侦听端口有的时候会显示该侦听端口被占用,就需要在xshell里面修改侦听端口。现在我回到了实验室,实验室的电脑是mac的,我从mac终

2020-07-18 15:36:46 845

原创 机器学习十天学习计划四—神经网络与深度学习

神经元模型M-P神经元模型:一个神经元接收到其他n个神经元传递过来的输入信号,这些信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”(一般是sig(x)阶跃函数或者Sigmoid函数)进行处理以产生神经元的输出感知机模型:感知机是一个有若干输入和一个输出的模型,通过一些二进制的输入,x1,x2……,然后产生一个二进制的输出。神经元的输出要么是0要么是1,由权重和的值是否小于或者大于某一阈值决定。和权重一样阈值也是一个实数,它是神经元的一个参数。阈.

2020-05-17 22:13:09 729 1

原创 机器学习十天学习计划-3(决策树)

信息论基础1、熵和信息熵熵是热力学中表征物质状态的张量,用符号S表示,物理意义是体系混乱程度的度量。熵表示体系不确定性,熵越大,不确定性越大。1948年,香农提出信息熵的概念,表示随机变量不确定性的读量,设随即标量X是一个离散随即标量,其概率分布为:P(X=xi)=pi,i=1,2,3,4P(X = x_i)=p_i, i=1,2,3,4P(X=xi​)=pi​,i=1,2,3,4则随机...

2020-04-21 15:56:32 245

原创 数据挖掘TASK5_模型融合

5.1 模型融合目标对于多种调参完成的模型进行模型融合。完成对于多种模型的融合,提交融合结果并打卡。5.2 内容介绍模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank ...

2020-04-01 19:19:30 405

原创 数据挖掘TASK4_建模调参

建模与调参学习目标掌握机器学习模型的建模与调参过程内容介绍线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策...

2020-03-29 13:59:07 274 1

原创 数据挖掘TASK3_特征工程

特征工程目标对于特征进行进一步分析,并对于数据进行处理完成对于特征工程的分析,并对于数据进行一些图表或者文字总结并打卡。内容常见的特征工程包括:1、异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;2、特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式: ...

2020-03-26 17:58:30 179

原创 数据挖掘TASK2_数据探索

数据探索性分析

2020-03-24 21:15:39 210

原创 数据挖掘TASK1_赛题理解

赛题理解1.赛题概况根据给定的数据集建立模型,分析二手汽车的交易价格。数据来自某交易平台,总数据量超过40w,包含31列变量,15列为匿名变量。从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name,model,brand和regionCode等信息进行脱敏。2.数据概况说明列的数据特征。匿名特征:未告知数据列所属性质train.csv:name-汽车...

2020-03-24 12:25:33 186

原创 机器学习十天学习计划-2

机器学习十天学习计划-2线性回归原理有数据集{(x1, y1), (x2,y2),…,(xn, yn)}, 其中xi = (xi1, xi2,…,xid),y∈R;其中,n表示样本的数量,d表示每个变量的维度。可以用一个线性函数描述y与x之间的关系:f(x)=θ0+θ1x1+θ2x2+......+θnxnf(x) = \theta_{0} + \theta_{1}x_{1} + \t...

2020-03-23 16:47:09 119

原创 机器学习十天打卡计划-1

机器学习十天打卡计划Day1机器学习介绍机器学习分类机器学习方法三要素(模型、策略及方法)机器学习介绍概念机器学习是一门多领域交叉学科,设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机如何模拟和实现人类行为,以获取新的知识和技能,重新组织已有的知识结构并使之不断改善自身技能,它是人工智能的核心,是使得计算机具有智能的根本途径。发展二十世纪八十年代,机...

2020-03-21 11:55:25 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除