自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 【动手学数据结构—排序算法复杂度(Python)】

时间复杂度比较排序算法仿真比较排序算法仿真比较导入的时间计算器:def print_execute_time(func): from time import time # 定义嵌套函数,用来打印出装饰的函数的执行时间 def wrapper(*args, **kwargs): # 定义开始时间和结束时间,将func夹在中间执行,取得其返回值 start = time() func_return = func(*args,

2022-04-28 16:47:54 246

原创 【动手学数据结构—基数排序(Python)】

基数排序原理代码实现原理代码实现import randomdef js_sort(li): max_num = max(li) it = 0 # max_num = 987 (三位数字,3次分桶) -> it=1 -> max_num=98 -> it=2 ->max_num=9 -> it=3 -> max_num=0 while max_num != 0: buckets = [[] for _ in range(1

2022-04-28 16:25:10 1436

原创 【动手学数据结构—计数/桶排序(Python)】

计数/桶排序原理代码实现原理当排序的数据比较多的时候,需要统计所有数出现的次数,它的空间复杂度为o(n)。桶排序的优点在与优化了内存的使用,实际上桶排序的算法效率并不高,因为有两层for嵌套,如果数据分布比较不理想的时候,时间复杂度可达o(n^2)代码实现import randomdef count_sort(li, max): count = [0 for _ in range(max+2)] # 初始计数都为0 for i in li: count[i]

2022-04-28 00:34:55 1474

原创 【动手学数据结构—希尔排序(Python)】

希尔排序原理代码实现原理代码实现def quick_sort(li, d): # i指摸到的牌, j指的是手上的牌 for i in range(d, len(li)): temp = li[i] j = i - d # 初始手上的牌为最后一张 while j >= 0 and temp < li[j]: # 如果手上的牌比抽到的大,继续往左比较 li[j+d] = li[j]

2022-04-27 18:34:25 1288

原创 【动手学数据结构—归并排序(Python)】

归并排序原理实现代码原理实现代码def merge(li, low, mid, high): L = [] # 储存的容器 i = low j = mid + 1 while i <= mid and j <= high: # 如果两边都有元素,说明可以进行比较 if li[i] < li[j]: # 如果左边小于右边,则把左边的给L L.append(li[i]) i += 1 #

2022-04-26 23:52:34 352

原创 【动手学数据结构—堆排序(Python)】

堆排序原理原理堆的向下调整图形化:代码实现:def sift(li, low, high): i = low # 根节点 temp = li[i] j = 2*i + 1 # 左孩子节点 while j <= high: if j + 1 < high and li[j + 1] > li[j]: # 防止右孩子节点溢出,如果右孩子节点大于左孩子节点,则右孩子节点接替父节点 j = j + 1 #

2022-04-26 17:20:46 651

原创 【动手学数据结构—快速排序(Python)】

快速排序原理代码实现原理代码实现def paratition(li, left, right): temp = li[left] # 用temp变量暂存第一个元素 while left < right: # 当left和right两个指标的位置没碰到时,继续更替 while left < right and li[right] >= temp: # 第一个条件防止right小于left 第二个条件则是查找的核心条件 ri

2022-04-26 14:48:11 372

原创 d2l&Softmax&pytorch

文章目录Softmax回归输入数据搭建网络损失函数优化器trainSoftmax回归Softmax回归是个分类问题,他将预测值映射在[0,1]之间,从而可以预测概率。相较于线性回归,它只是增加了一个激活函数以及输出层的个数。并且关于Weight参数的个数可以看出来增加了三倍。简单实现步骤构建Fashion-MNIST数据集Fashion-MNIST数据集是图像数据,是一个Class=10的分类任务构建模型并初始化参数这里由于数据的是图像数据,我们需要读取图片数据(RGB)转为一维的tens

2021-11-01 23:52:14 1503 3

原创 d2l&linear regression&pytorch

文章目录Linear regression输入数据自定义模型定义损失函数定义优化算法训练如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Linear regression线性回归是最简单的神经网络结构,也是单层神经网络(输入层不算),通过简单的更新W,和偏移项b完成训练整个线性回归模型。简单介绍实

2021-11-01 22:22:14 159

原创 sql-复杂查询语句

复杂的查询语句1 视图1.1 创建视图1.2 修改视图1.3 更新视图1.4 删除视图2 子查询2.1 关联子查询练习题数据来源1 视图定义:视图与表的功能是差不多的,区别在于,视图是虚拟的,并不是真实存在的,他相当于一个窗口,通过视图,我们可以观察到真实的表,从而对其进行操作。1.1 创建视图创建视图的语法:CREATE VIEW <视图名称>(<列名1>,<列名2>,...) AS <SELECT语句>比如:创建一个名为productsum

2021-07-12 15:52:13 1895

原创 mysql-查询、分组聚合、排序

mysql-查询、聚合、排序1 查询1.1 select-选取数据1.2 Where-从表中选取满足条件的数据1.3 (and、or、not)逻辑运算符1.4 练习题2 聚合函数3 group by-分组3.1 group by的书写规则3.2 order by-排序3.3 练习题1 查询首先导入需要用到的数据create table productINSERT INTO product VALUES('0001', 'T恤衫', '衣服', 1000, 500, '2009-09-20');IN

2021-07-10 22:35:46 493

原创 图神经网络-图数据集的表示和使用

图神经网络-图数据集的表示和使用Data类-PyG的图表示和使用Dataset类-PyG中图数据集的表示和使用数据集的使用-构建GCN模型GCN模型Data类-PyG的图表示和使用首先需要自己安装PyG(pytorch geometric)库官方文档的具体介绍Data类Data函数class Data(object): def __init__(self, x=None, edge_index=None, edge_attr=None, y=None, **kwargs):

2021-07-09 16:17:32 2401 1

原创 mysql-初识数据库

文章目录初识数据库sql 简要介绍数据库的创建向product表中插入数据练习题初识数据库数据库是将数据大量保存下来,经计算机加工后可以访问的数据,数据集合成为"数据库"(Database),而用来管理数据库的叫做数据库管理系统(Database Management System)。其中Mysql属于关系数据库sql 简要介绍DDLDDL(Data Definition Language),用来创建、删除储存数据库以及数据库对象。其中DDL主要包括以下四种命令。create 指的是创

2021-07-08 14:49:46 97

原创 阿里云天池金融风控-Task6

以上为比赛过程的分数历程。线下和线上分数差距太明显了,还没找出原因。qaq这次比赛,总结来说无非就是数据清洗,特征工程,建立模型,调整参数,模型集成。数据清洗主要注重数据的空缺值,异常值以及发现object变量(要在后面转换)。特征工程方面首先是理解赛题,理解背景,构建业务特征,以及其他的交互特征,统计量特征,编码特征等等。模型模型的话对于数据竞赛也就那几个lgb,xgb集成模型。...

2021-05-05 23:58:16 273

原创 阿里云天池金融风控-Task5

模型融合本文采用教程中的Stacking集成模型训练,基分类器为KNN,贝叶斯,随机森林,将其预测标签给逻辑斯蒂回归。上述为Stacking的模型融合图import warningswarnings.filterwarnings('ignore')import itertoolsimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlib.gridspec as gridsp

2021-05-04 23:09:39 440

原创 阿里云天池金融风控-task4

建模调参首先我们导入训练集和测试集X_train = train[test.columns].drop(columns='id')y_train = train['isDefault']X_test = test.drop(columns='id')fill_con = ['employmentTitle','employmentLength','postCode', 'employmentTitle_freq_encode','title_freq_encode','t

2021-04-30 16:45:29 228 1

原创 阿里云天池金融风控-task3

文章目录特征工程学习目标1特征编码1.1 target encoding1.2 Label Encoding1.3 Frency Encoding2 业务特征构建3 用户画像-WOE编码4 三次衍生特征(聚合统计量)特征工程学习目标学习特征交互、编码、选择的相应方法学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法object类型处理先把日期转为时间格式,再分离,构建年月日特征import datetime#转化成时间格式 issueDateDT特征表示数据日期离数据集中日期最

2021-04-23 22:03:10 234

原创 阿里云天池金融风控-task2

探索性数据分析(EDA)目的了解数据的属性类型和缺失情况分析特征和预测标签的关系便于进一步了解如何构建特征工程了解变量间的相互关系、变量与预测值之间的存在关系。内容介绍特征数据类型以及缺失值分析数据总体的描述以及异常分析连续特征的分布以及离散特征的字段数分析特征与label的分析一、特征数据类型以及缺失值分析首先导入必要的包import pandas as pdimport numpy as npimport warningswarnings.filterwarning

2021-04-23 21:40:41 187 1

原创 阿里云天池-金融风控task1

文章目录赛题理解1. 赛题与数据概括2. 预测指标信用评分卡赛题理解1. 赛题与数据概括赛题旨在预测用户是否贷款违约,同时对敏感数据进行脱敏,数据中包括匿名变量。这次大赛要求选手根据训练集的47的特征与标签训练模型,预测testA.csv中用户的违约情况。运行环境为天池提供的Data Science Workshop数据包含80万条训练集,20万条测试集A。理解数据中的各个特征会让我们在数据探索(异常值)和特征工程(构建交叉特征)方面更加得心应手。以下给出此次赛题中各个特征的含义:2. 预

2021-04-22 14:55:55 446

原创 数据分析之pandas系列

文章目录Pandas1. 关于pandas2. pandas基础2.1 pandas读取和写出数据Pandas1. 关于pandaspandas是python中一个最重要的第三方库之一,将pandas使用得当是python学的怎么样的一个直接体现。现实中大多人使用excel预处理和观察数据,但是一旦数据量超过一定的水平,excel处理就变得棘手(例如随着数据的增加excel运行的速度明显慢于python,python处理数据有着excel不具有的功能,如当数据缺失或者数据异常时,利用python能轻松

2021-04-06 11:32:09 152

原创 R语言学习

R语言学习向量运算order函数取向量从小到大排序的索引值 z[order(z)]~sort(z)z <- c(-3,-9,8,2,0,-8)#decreasing默认为Flase 升序sort(z,decreasing = Flase)order(z)z[order(z)]产生有规律的向量seq(from,by,to,along)''#产生连续向量n <- 51:5#seq函数seq(-2,3)#默认步长为1seq(0 ,by = 0.2 ,1)#参数alo

2021-03-26 17:30:01 218 2

原创 特征工程的步骤与理解

特征工程是在原有数据的特征下,通过想象力以及对数据的理解和一些特征组合形成新的特征,再对特征评估,优胜劣汰,取出能利用的特征提供给模型建模。特征工程的常用手段:1.通过箱型图:文章中的数据特征比较多,特征看图就可。通过箱型图,可以剔除某些特征,比如说,第一张图第三行的第二列,样本非常不均衡,说明该特征无意义,还要第二张图第一行第四列,该特征的数据对预测值没有参考意义,分布相同,没有区别。相关性分析从中,可以剔除掉相关性的绝对值小于0.1的特征。点线图分析如果每个点的值域(线的长度长短

2020-08-22 19:53:27 493

原创 时序规则模型以及特征工程

时序规则模型时序规则模型分为两部:一、求出周期因子 二、求出base 三、周期因子*base即为预测值。一、周期因子例子:周期因子有两种求法:1.周期数据除以周期均值,再按列取中位数。2.按列取平均数,再除以整体均值。个人认为两种方法各有所适用的地方。比如当特征的概率密度分布如图所示:如果用第一种方法求周期因子,这时中位数就在波谷处取到,而数据的大部分都位于左右边,该中位数无法反映数据的情况。此时第二种方法就使用于这种情况。如果数据存在异常值,第二种方法的均值可能受异常值影响而最

2020-08-22 19:39:43 717

原创 资金流入与流出时间序列预测(EDA)

数据探索式分析导入必要的包import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltimport datetimeimport pandas as pdimport warningswarnings.filterwarnings('ignore')利用pandas读入主文件(user_balance_table.csv)数据df=pd.read_csv('user_

2020-08-18 22:58:04 920

原创 多元线性回归中的岭回归,LASSO和弹性网

这篇文字大致会写一写用多元线性回归一般会出现的情况。通常如果说构造一个多元线性回归:然后引入正态分布通过极大似然函数求解:两边取对数后展开即得:对该似然函数求最大值,恰好是求残差最小值。此时目标函数即为那么对其求偏导,最终为将θ移至一边有:好了,此时有一个问题:XT X可逆否?(1)如果可逆,那么直接解出来就有最优解。(2)如果不可逆,下面给出几种解决方案让我们先做一个问题转化:求该矩阵可逆等价于求该矩阵满秩,接下来,我们来看看什么情况矩阵才不能满秩。我们先假设X有n个样本,k个属性,

2020-05-20 16:36:21 2769 2

原创 常见的预测模型及算法

如果得到一份数据集,任务是要预测出一系列的值,而在预测任务中,我们大多数都采用的是拟合的方法,这篇文字主要介绍三种预测方法时间序列分析,灰色预测模型,神经网络。时间序列分析时间序列也叫动态序列,数据是按时间和数值性成的序列。而时间序列分析有三种作用,大致可以描述为描述过去,分析规律,预测将来。接下来将会讲到三种模型(季节分解,指数平滑,ARIMA模型)。一般情况下时间序列的数值变化规律有四种...

2020-05-01 13:22:18 148379 8

原创 数据预处理之识别异常值并删除(Python)

数据预处理之识别异常值并删除(Python)首先导入数据集:import pandas as pddata=pd.read_csv('path')这里用箱型图识别异常值,一般取scale(尺度)=3,Q1为上四分位数,Q2为四分位数。则上边缘数和下边缘数分别为Q1+3IQR,Q2-3IQR。其中IQR(四分位距)=Q1-Q2。在上边缘以上和下边缘以下的数识别为异常值。def outli...

2020-04-15 23:53:37 13950 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除