自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 问答 (3)
  • 收藏
  • 关注

原创 Powershell使用Selenium——配置环境

参考文章:https://adamtheautomator.com/selenium-powershell/#Making_Selenium_PowerShell_Workhttps://www.pstips.net/selenium-powershell-extensions.html一、准备工作:①下载适合Powershell的selenium webdriver.dll文件。下载链接:https://www.selenium.dev/downloads/选择 C# 语言版本下载。下

2022-03-14 22:23:26 1549

原创 Python数据处理-使用Pandas补齐缺失日期(pd.date_range)

在处理时间序列的数据中,有时候会遇到有些日期的数据缺失的情况,这时候可以用pandas的 `date_range` 函数快速补齐缺失日期,再根据实际情况补齐缺失值。

2022-03-08 12:51:29 9613 1

原创 SQL学习笔记——task01初识SQL与数据库

初识SQL 与 数据库1. 初探SQL1.1 SQL是什么2. 初探数据库2.1 数据库是什么2.2 为什么使用数据库管理系统2.3 数据库管理系统的种类2.4 RDBMS的常见系统结构3. SQL的使用3.1 标准SQL3.2 三类SQL 语句3.2 SQL的基本书写规则3.3 创建数据库和表3.4 命名规则3.5 数据类型的指定3.6 约束的设置3.7 表的删除和更新4练习题学习笔记内容基于《SQL基础第二版》可以在图灵社区或者微信读书上查看。课程内容传送链接:http://datawhale.

2020-12-15 23:31:57 414

原创 Python数据可视化学习笔记——task01:初识Matplotlib

初识Matplotlib前言1. 认识Matplotlib2.Matplotlib 例子2.1 例子1例子23.Figure的组成4.讨论4.1 在工作或学习中通常何时会用到数据可视化,希望通过可视化达到什么目的?4.2 OO模式和pyplot模式的区别与联系前言Python有许多用于数据可视化的库,例如常见seaborn、pyecharts(echarts的Python版本)、ggplot(移植于R语言的ggplot2,但是有些差别,Python有其他方法可以调用R语言的ggplot2)、bokeh、

2020-12-14 23:21:46 328

原创 SQL学习笔记——task00:环境搭建

1.MySQL的安装MySQL安装网上有一堆教程。1.1.比较简便方法是:Windows系统,在官网的MySQL Installer下载msi安装版,下载后双击安装包直接安装便可。参考教程:超详细MySQL安装及基本使用教程Linux系统,以Ubuntu为例,打开终端依次运行下面两条命令,分别安装好MySQL服务和MySQL客户端即可。sudo apt-get install mysql-servicesudo apt-get install mysql-clientmacO

2020-12-13 22:44:19 1093 3

原创 【实测、可用、无bug】Python3 .py文件鼠标右键 Edit With IDLE 功能修复

***注意,这个教程里面的和网上教程唯一不同的只是第三步修改的数据不一样。网上提供的注册表值有bug。经过多次尝试才找到这个没有bug的方法。目录1.打开注册表2.依次打开以下注册表项3.修改数据1.打开注册表同时键盘WIN+R键,打开运行窗口,输入 regedit ,按键盘回车。有的电脑会提示是否打开。点击“是”,打开进入注册表编辑器。2.依次打开以下注册表项HKEY_CLASSES_ROOT\SystemFileAssociations\....

2020-11-03 13:42:54 910 5

原创 cygwin安装JohnTheRipper 爬坑

cygwin安装JohnTheRipper 爬坑

2020-11-02 01:44:19 1997

原创 推荐系统Part5:GBDT + LR

本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook

2020-10-30 23:35:33 218

原创 推荐系统Part4:Wide&Deep

推荐系统之:Wide&Deep1.介绍2.原理2.1 W&D模型的网络结构2.2 Google Play的推荐系统结构3.编程实现1.介绍Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型,并应用到了 Google Play 的应用推荐中。wide and deep 模型的核心思想是结合线性模型的记忆能力(memorization)和 DNN 模型的泛化能力(generalization),在训练过程中同时优化 2 个模

2020-10-27 20:53:06 155

原创 推荐系统学习笔记Part3:矩阵分解模型

推荐系统之:矩阵分解模型(Matrix Factorization,MF)1. 前言1. 前言推荐系统中最为主流与经典的技术之一是协同过滤技术(Collaborative Filtering),它是基于这样的假设:用户如果在过去对某些项目产生过兴趣,那么将来他很可能依然对其保持热忱。其中协同过滤技术又可根据是否采用了机器学习思想建模的不同划分为基于内存的协同过滤(Memory-based CF)与基于模型的协同过滤技术(Model-based CF)。其中基于模型的协同过滤技术中尤为 矩阵分解(Ma

2020-10-25 23:37:04 691

原创 Python读取Excel表格,日期变成浮点数解决方法(笔记)

xlrd模块中有2个函数,可以把Excel表格中日期错误识别成的数字解析成正确日期。from xlrd import xldate_as_tuple, xldate_as_datetime# 返回的是datetime类型xldate_as_datetime(31528,0)datetime.datetime(1986, 4, 26, 0, 0)# 返回的是元组类型xldate_as_tuple(31528.5,0)(1986, 4, 26, 12, 0, 0)# 整数和小数都可以,

2020-10-23 01:14:33 2934 3

原创 推荐系统学习笔记Part 2:协同过滤Collaborative Filtering

统之协同过滤Collaborative Filtering1. 基本思想与算法核心2. 算法种类3. 相似度的相关计算方法3.1 杰卡德(Jaccard)相似系数3.2 欧式距离3.3 余弦距离(余弦相似度)3.4 皮尔逊相似度1. 基本思想与算法核心协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。算法主要功能是:预测和推荐。预测过程是预测用户对没有购买过的物品的可能打分值,推荐是根据预测阶段的结果推荐用户最可能喜欢的一个或Top-N个物品。基本思想:是根据用户之前的喜好以及其他兴趣相近的用户的

2020-10-22 23:42:41 421

原创 推荐系统学习笔记Part1:推荐系统概述

推荐系统 (Recommendation System)1. 背景与定义2. 本次学习的相关推荐算法:3. 推荐算法中常用的评测指标3.1 用户满意度3.2 预测准确度3.2.1 评分预测3.2.2 TopN推荐3.3 覆盖率3.4 多样性3.5 新颖性3.6 AUC曲线4. 召回4.1 召回层在推荐系统架构中的位置及作用4.3 Embedding召回5. 参考资料1. 背景与定义互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长

2020-10-19 20:00:54 1060 1

原创 【待完善】金融风控-贷款违约预测学习笔记(Part5:模型融合)

金融风控-贷款违约预测学习笔记(Part5:模型融合)1. 内容介绍2. 代码示例2.1 简单平均1. 内容介绍将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程)模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:简单平均法:结果直接融合 求多个预测结果的平均值。pre

2020-09-27 22:28:32 253

原创 金融风控-贷款违约预测学习笔记(Part4:建模与超参调整)

金融风控-贷款违约预测学习笔记(Part4:建模与超参调整)1. 模型与其相关原理介绍2. 模型对比与性能评估2.2 逻辑回归2.3 决策树模型2.4 集成学习方法3. 模型评估方法3.1 留出法3.2 交叉验证法3.3 自助法3.4 总结:4. 模型评价标准5. 代码示例5.1 模块导入5.2 读取数据5.3 简单建模5.4 模型调参5.4.1 贪心调参5.4.2 网格搜索5.4.3 贝叶斯调参5.5 建立最终模型金融风控-贷款违约预测学习笔记(Part4:建模与超参调整))本节主要内容:模型创建,模

2020-09-24 21:34:28 420

原创 金融风控-贷款违约预测学习笔记(Part3:特征工程)

金融风控-贷款违约预测学习笔记(Part3:特征工程)特征预处理处理类别型特征和数值型特征缺失值填充时间格式处理对象类型特征转换到数值类别特征处理异常值处理异常检测方法一:均方差异常检测方法二:箱型图数据分桶特征分箱的目的:数据分桶的对象:分箱的原因:分箱的优点:分箱的基本原则:分箱算法:分箱结果的评价特征交互特征编码在树模型中使用labelEncode逻辑回归模型需要另外处理的特征工程特征选择Filter参数 threshold为方差的阈值Wrapper(Recursive feature elimina

2020-09-21 21:58:22 692

原创 【待完善】金融风控-贷款违约预测学习笔记(Part2:数据分析)

金融风控-贷款违约预测学习笔记(Part2:数据分析)通过EDA了解整个数据集的基本情况(缺失值,异常值,数据的分布)检验各变量之间的关系(是否存在相关性),变量与预测值直接的关系为后续的特征工程做准备import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetime```pythondata_train = pd.read_csv('Data

2020-09-18 23:08:26 502

原创 金融风控-贷款违约预测学习笔记(Part1:赛题理解)

金融风控-贷款违约预测学习笔记(Part1赛题理解)1.关于项目1.1 项目背景1.2 项目数据集说明2. 项目初探2.1 项目理解2.1.1 个人理解2.1.2 知识补充2.1.3 分类指标评价计算示例2.2 查看数据集1.关于项目1.1 项目背景这是一个由Datawhale与天池联合发起的金融风控相关赛事。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。赛题目标是预测用户贷款是否会违约。提交结果为

2020-09-15 19:30:28 1668

原创 BP神经网络实现手写数字识别Python实现,带GUI手写画板

BP神经网络实现手写数字识别BP神经网络模型用tkinter编写用于手写输入的画板程序运行的效果截图在B站看了一个机器学习基础的视频(链接)后,发现到资料里面有一个用BP神经网络对手写数字进行分类的模型。有一天晚上躺在床上,突然灵感一来,何不把这个样本改造成一个真正可以进行手写数字识别的程序?用手机查了一下tkinter画图(对tkinter比较熟),稍微看了一下感觉应该可以实现,就下决定把它做出来,一方面也可以巩固学到的知识。一共花了20多个小时,80%的时候花在调教tkinter上了。。。下面就是整

2020-08-16 23:16:16 2979 2

原创 Kaggle项目:Predict Future Sales(商品未来销量预测)

Predict Future Sales(商品未来销量预测)1. 关于项目1.1 背景介绍1.2项目数据集说明2. 目标3. 数据预处理3.1 项目数据集预处理3.1.1 训练集和测试集3.1.2 商店数据集3.1.3 商品数据集3.1.4 商品类目数据集3.2 训练集数据清洗3.2.1 过滤离群值4. 数据规整 和 数据分析(EDA)4.1 销量分析4.1.1 销量最高的商品4.1.2 分析总体销量呈现下降趋势可能存在的原因4.2 营收分析4.2.1 总营收最高的商品4.3 分析导致14年底销量和营收同比

2020-06-19 23:32:48 13669 41

原创 使用黄氏曲线评估零售店促销活动效果

使用黄氏曲线评估零售店促销活动效果1. 关于项目2. 数据预处理3. 促销分析与评估3.1 企业周权重指数3.2 权重曲线和黄氏曲线3.2.1 权重曲线3.2.2 黄氏曲线4. 项目总结1. 关于项目 这是一个线上电玩产品零售店在六一促销活动(2020年5.28-6.3)的复盘工作中的一个环节。 这一小节里,将使用黄氏曲线分析工具,从整体上对促销活动的效果进行评估。 黄氏曲线是零售业数据化管理工具之一,本质上是一种加权曲线。 一个完整的促销活动复盘工作还有很多繁杂的工作

2020-06-19 22:02:26 3250 4

BP神经网络实现手写数字识别Python实现,带GUI手写画板

基于BP神经网络和sklearn的digit数据集编写的手写数字识别demo。带有GUI手写画板,同时还可以根据需要保存手写数字的数据。

2020-08-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除