爆炒小青蛙-CSDN博客

原创 Wide & Deep、DeepFM系列算法原理与优缺点对比

一、Wide & Deep模型Wide & Deep Learning 模型的核心思想是结合广义线性模型的记忆能力（memorization）和深度前馈神经网络模型的泛化能力（generalization）。利用广义线性模型从历史数据中学习特征相关性，利用深度前馈神经网络揭示隐式特征之间的相互作用。在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。Wide...

2019-09-06 17:12:58 13082

原创推荐系统-基于用户的协同过滤-python实现（基于电影数据集）

数据可以从这里下载实现过程：1、得到用户兴趣表，横轴为movie_id，纵轴为user_id2、计算任何两位用户之间的相似度或者是相关性3、取与某用户相似度最高的若干个用户的兴趣推荐给该用户（或者找到和每个用户相关系数在阈值以上的用户，并将他们喜欢的电影推荐给该用户）import pandas as pdfrom math import sqrtmovies = pd.read_...

2019-07-08 10:54:18 6030 2

原创 win10环境下基于anaconda3安装tensorflow的方法以及踩的坑和解决办法

安装过程1、首先安装anaconda3，下载地址：https://www.anaconda.com/download/2、使用下面的命令创建tensorflow环境conda create -n tensorflow python=3.5.2可以直接在cmd中键入python，就能看到当前python的版本，博主是3.5.2，于是令python=3.5.23、激活tensor...

2019-04-22 14:15:33 1685

原创评分卡模型的种类及流程——数据准备、WOE分箱以及模型评估

评分卡介绍评分卡的种类——ABC卡FICO信用分1、FICO信用分简介2、FICO信用分的评判因素数据准备1、需要排除异常行为2、解释指标的选择3、目标变量的确立变量分箱——WOE转换评分的计算与分值分配模型的评价——模型区分度1、KS值2、GINI指数评分卡的种类——ABC卡A卡（Application score card）申请评分卡，贷前，一般可做贷款0-1年的信用分析B卡（B...

2019-04-18 15:46:45 14463

原创 Kaggle项目之PUBG Finish Placement Prediction（一）——探索性分析

数据来自Kaggle，也可以在这里取，提取码wymx。比赛在一个月前结束，这里拿来练练手~多图预警！！1、各变量含义DBNOs - 击倒多少敌人 assists - 伤害过多少敌人（最终该敌人被队友杀害）boosts - 使用过多少个提升性的物品(boost items used)damageDealt - 造成的总伤害-自己所受的伤害headshotKills - 通过爆头而杀死的...

2019-03-15 15:45:15 5366 5

原创神经网络原理+从零创建两层神经网络（基于Python）

神经网络的参数主要有两大块，一是各神经元之间连接的权重参数，而是表示各功能神经元阈值的偏置参数。通过对损失函数使用梯度下降法，可以找到最优的权重和偏置参数，使得损失函数达到极小。神经网络原理介绍（以二层神经网络为例）如上图所示，一个简单二层神经网络包含输入层、隐层和输出层。输入的数据乘以第一层权重参数矩阵W(1)W^{(1)}W(1)后，到达隐层，经隐层的激活函数h(x)h(x)h(x)作用...

2019-02-26 10:11:07 1398 1

原创损失函数、梯度和学习率的理解及用python实现梯度下降法

机器学习的最终目标就是获得泛化能力，而什么是泛化能力呢，就是指处理未被观察过的数据（非训练数据）的能力。一、为何要引入损失函数损失函数就是评估一个学习器“恶劣程度”的指标——即描述了当前学习器对训练数据在多大程度上不拟合、不一致。所谓让机器通过“学习”数据信息从而产生一个学习器的过程，就是去寻找最优参数，使得损失函数达到极小甚至最小的过程。而这一过程如何实现？——答案就是求导，而导数就是所谓...

2019-02-23 16:43:32 5197 3

转载 Xgboost生成新特征以及调参演示

注：本文来源于https://github.com/lytforgood/MachineLearningTrick这里只做记录、学习之用Xgboost生成新特征##导入模块使用需要根据实际情况修改xgboost参数from sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sk...

2019-01-11 13:57:00 1952

原创神经网络和卷积神经网络的精度对比——以手写字体识别案例为例

关于神经网络和卷积神经网络，有一篇整理的很好的博客可供学习：https://blog.csdn.net/u014789266/article/details/53516861这里利用tensorflow库自带的mnist手写字体数据集作为例子，来分别看神经网络和卷积神经网络的识别精度。tensorflow的安装方法在我的另一篇博客里（我的环境是win10+Anaconda3.6）一、BP神经网络导...

2018-04-24 16:55:43 4029

原创 Latex语法汇总

备份几个收集来的比较全的Tex语法https://math.meta.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-referencehttp://www.mohu.org/info/symbols/symbols.htmhttps://kogler.wordpress.com/2008/03/21/...

2018-04-21 19:26:14 968 3

原创 Python实现Logistic回归实例——信用卡欺诈检测

信用卡欺诈检测算是一个比较经典的例子了，这里记录一下python的算法。导入三个基本的包，读取数据，发现数据的不平衡性：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltpath=r"D:\learning\data_for_py\creditcard.csv"data=pd.read_csv(path...

2018-03-26 21:19:15 1937

原创 KNN算法以及R语言的实现

KNN(K-Nearest-Neighbour) Classifiers, 即K-近邻算法，是一种懒惰机器学习算法(lazy learning)。简而言之，它在拿到训练集数据时并不急着去建模，而是在拿到测试集数据后，再到训练集数据中去寻找该测试样本最近的“邻居”，即距离最近的K个训练样本，依照训练样本数据的所属类别，加权或不加权地得出测试数据的类别。那么应该选择多少个邻居呢，即K取值是多还是少好呢...

2018-03-09 11:05:13 18555 5

原创正则表达式的使用举例（附带说明R中sub函数的运用）

一、sub()函数的简单介绍sub("b", "x", c("abbc", "bbcd", "cde")) 结果为"axbc" "xbcd" "cde" ，只把一个b替换成xgsub("b", "x", c("abbc", "bbcd", "cde")

2018-03-05 20:50:28 7274

原创用案例理解朴素贝叶斯以及R语言的实现

相比于一般贝叶斯而言，朴素贝叶斯设定一个naive assumption：Assume that each feature xi is conditionally independent of every feature xj for i is unequal to j, given the category C.简单一点来说，比如现在要通过颜色、形状、半径来推断一个水果是苹果还是香蕉（当然这里界...

2018-03-03 11:31:27 8558 2

原创笔记——用Requests库和BeautifulSoup库爬取酷狗音乐数据

酷狗音乐top500榜单链接：http://www.kugou.com/yy/rank/home/1-8888.html观察每页的url，将第一页url中home/后的1改成2，就恰好是第二页的url。首先导入相应的库，同时设定好浏览器的header：import requestsfrom bs4 import BeautifulSoupimport timeheaders={ '...

2018-03-02 17:00:37 2203 1

原创用python求一重积分和二重积分

首先是对一元函数求积分，使用Scipy下的integrate函数：from scipy import integratedef g(x): return (1-x**2)**0.5#用integrate下的quad函数可以同时求出积分结果和误差res,err=integrate.quad(g,-1,1) #-1和1表示积分上下限，如果是正无穷用np.infprint(res,er...

2018-02-28 10:07:21 9956 1

原创 Python爬取豆瓣电影信息

本案例的任务为，爬取豆瓣电影top250的电影信息（包括序号、电影名称、导演和主演、评分以及经典台词），并将信息作为字典形式保存进txt文件。这里只用到requests库，没有用到beautifulsoup库step1：首先获取每一页的源代码，用requests.get函数获取，为了防止请求错误，使用try...except..def getpage(url): try: ...

2018-01-31 16:51:44 1458

排序算法的评估指标ranking-measures-and-loss-functions-in-learning-to-rank

该文档论述了排序算法和推荐系统的评估标准NDCG和MAP的原理和应用

2019-02-12

数据挖掘商业案例分析及实现

该书介绍了商业数据挖掘方法在金融行业、电信行业以及制造业中的应用，是很棒的数据挖掘教材

2018-06-09

多分类问题中，总体的Precison和recall值相等，为什么？在几个数据集上试验均是如此。

2019-02-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ISMedal的博客