自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 Wide & Deep、DeepFM系列算法原理与优缺点对比

一、Wide & Deep模型Wide & Deep Learning 模型的核心思想是结合广义线性模型的记忆能力(memorization)和深度前馈神经网络模型的泛化能力(generalization)。利用广义线性模型从历史数据中学习特征相关性,利用深度前馈神经网络揭示隐式特征之间的相互作用。在训练过程中同时优化 2 个模型的参数,从而达到整体模型的预测能力最优。Wide...

2019-09-06 17:12:58 13082

原创 推荐系统-基于用户的协同过滤-python实现(基于电影数据集)

数据可以从这里下载实现过程:1、得到用户兴趣表,横轴为movie_id,纵轴为user_id2、计算任何两位用户之间的相似度或者是相关性3、取与某用户相似度最高的若干个用户的兴趣推荐给该用户(或者找到和每个用户相关系数在阈值以上的用户,并将他们喜欢的电影推荐给该用户)import pandas as pdfrom math import sqrtmovies = pd.read_...

2019-07-08 10:54:18 6030 2

原创 win10环境下基于anaconda3安装tensorflow的方法以及踩的坑和解决办法

安装过程1、首先安装anaconda3,下载地址:https://www.anaconda.com/download/2、使用下面的命令创建tensorflow环境conda create -n tensorflow python=3.5.2可以直接在cmd中键入python,就能看到当前python的版本,博主是3.5.2,于是令python=3.5.23、激活tensor...

2019-04-22 14:15:33 1685

原创 评分卡模型的种类及流程——数据准备、WOE分箱以及模型评估

评分卡介绍评分卡的种类——ABC卡FICO信用分1、FICO信用分简介2、FICO信用分的评判因素数据准备1、需要排除异常行为2、解释指标的选择3、目标变量的确立变量分箱——WOE转换评分的计算与分值分配模型的评价——模型区分度1、KS值2、GINI指数评分卡的种类——ABC卡A卡(Application score card)申请评分卡,贷前,一般可做贷款0-1年的信用分析B卡(B...

2019-04-18 15:46:45 14463

原创 Kaggle项目之PUBG Finish Placement Prediction(一)——探索性分析

数据来自Kaggle,也可以在这里取,提取码wymx。比赛在一个月前结束,这里拿来练练手~多图预警!!1、各变量含义DBNOs - 击倒多少敌人 assists - 伤害过多少敌人(最终该敌人被队友杀害)boosts - 使用过多少个提升性的物品(boost items used)damageDealt - 造成的总伤害-自己所受的伤害headshotKills - 通过爆头而杀死的...

2019-03-15 15:45:15 5366 5

原创 神经网络原理+从零创建两层神经网络(基于Python)

神经网络的参数主要有两大块,一是各神经元之间连接的权重参数,而是表示各功能神经元阈值的偏置参数。通过对损失函数使用梯度下降法,可以找到最优的权重和偏置参数,使得损失函数达到极小。神经网络原理介绍(以二层神经网络为例)如上图所示,一个简单二层神经网络包含输入层、隐层和输出层。输入的数据乘以第一层权重参数矩阵W(1)W^{(1)}W(1)后,到达隐层,经隐层的激活函数h(x)h(x)h(x)作用...

2019-02-26 10:11:07 1398 1

原创 损失函数、梯度和学习率的理解及用python实现梯度下降法

机器学习的最终目标就是获得泛化能力,而什么是泛化能力呢,就是指处理未被观察过的数据(非训练数据)的能力。一、为何要引入损失函数损失函数就是评估一个学习器“恶劣程度”的指标——即描述了当前学习器对训练数据在多大程度上不拟合、不一致。所谓让机器通过“学习”数据信息从而产生一个学习器的过程,就是去寻找最优参数,使得损失函数达到极小甚至最小的过程。而这一过程如何实现?——答案就是求导,而导数就是所谓...

2019-02-23 16:43:32 5197 3

转载 Xgboost生成新特征以及调参演示

注:本文来源于https://github.com/lytforgood/MachineLearningTrick这里只做记录、学习之用Xgboost生成新特征##导入模块使用需要根据实际情况修改xgboost参数from sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sk...

2019-01-11 13:57:00 1952

原创 神经网络和卷积神经网络的精度对比——以手写字体识别案例为例

关于神经网络和卷积神经网络,有一篇整理的很好的博客可供学习:https://blog.csdn.net/u014789266/article/details/53516861这里利用tensorflow库自带的mnist手写字体数据集作为例子,来分别看神经网络和卷积神经网络的识别精度。tensorflow的安装方法在我的另一篇博客里(我的环境是win10+Anaconda3.6)一、BP神经网络导...

2018-04-24 16:55:43 4029

原创 Latex语法汇总

备份几个收集来的比较全的Tex语法https://math.meta.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-referencehttp://www.mohu.org/info/symbols/symbols.htmhttps://kogler.wordpress.com/2008/03/21/...

2018-04-21 19:26:14 968 3

原创 Python实现Logistic回归实例——信用卡欺诈检测

信用卡欺诈检测算是一个比较经典的例子了,这里记录一下python的算法。导入三个基本的包,读取数据,发现数据的不平衡性:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltpath=r"D:\learning\data_for_py\creditcard.csv"data=pd.read_csv(path...

2018-03-26 21:19:15 1937

原创 KNN算法以及R语言的实现

KNN(K-Nearest-Neighbour) Classifiers, 即K-近邻算法,是一种懒惰机器学习算法(lazy learning)。简而言之,它在拿到训练集数据时并不急着去建模,而是在拿到测试集数据后,再到训练集数据中去寻找该测试样本最近的“邻居”,即距离最近的K个训练样本,依照训练样本数据的所属类别,加权或不加权地得出测试数据的类别。那么应该选择多少个邻居呢,即K取值是多还是少好呢...

2018-03-09 11:05:13 18555 5

原创 正则表达式的使用举例(附带说明R中sub函数的运用)

一、sub()函数的简单介绍sub("b", "x", c("abbc", "bbcd", "cde")) 结果为"axbc" "xbcd" "cde" ,只把一个b替换成xgsub("b", "x", c("abbc", "bbcd", "cde")

2018-03-05 20:50:28 7274

原创 用案例理解朴素贝叶斯以及R语言的实现

相比于一般贝叶斯而言,朴素贝叶斯设定一个naive assumption:Assume that each feature xi is conditionally independent of every feature xj for i is unequal to j, given the category C.简单一点来说,比如现在要通过颜色、形状、半径来推断一个水果是苹果还是香蕉(当然这里界...

2018-03-03 11:31:27 8558 2

原创 笔记——用Requests库和BeautifulSoup库爬取酷狗音乐数据

酷狗音乐top500榜单链接:http://www.kugou.com/yy/rank/home/1-8888.html观察每页的url,将第一页url中home/后的1改成2,就恰好是第二页的url。首先导入相应的库,同时设定好浏览器的header:import requestsfrom bs4 import BeautifulSoupimport timeheaders={ '...

2018-03-02 17:00:37 2203 1

原创 用python求一重积分和二重积分

首先是对一元函数求积分,使用Scipy下的integrate函数:from scipy import integratedef g(x): return (1-x**2)**0.5#用integrate下的quad函数可以同时求出积分结果和误差res,err=integrate.quad(g,-1,1) #-1和1表示积分上下限,如果是正无穷用np.infprint(res,er...

2018-02-28 10:07:21 9956 1

原创 Python爬取豆瓣电影信息

本案例的任务为,爬取豆瓣电影top250的电影信息(包括序号、电影名称、导演和主演、评分以及经典台词),并将信息作为字典形式保存进txt文件。这里只用到requests库,没有用到beautifulsoup库step1:首先获取每一页的源代码,用requests.get函数获取,为了防止请求错误,使用try...except..def getpage(url): try: ...

2018-01-31 16:51:44 1458

推荐系统-基于用户的协同过滤(movie数据集)

实现过程: 1、得到用户兴趣表,横轴为movie_id,纵轴为user_id 2、计算任何两位用户之间的相似度或者是相关性 3、取与某用户相似度最高的若干个用户的兴趣推荐给该用户(或者找到和每个用户相关系数在阈值以上的用户,并将他们喜欢的电影推荐给该用户)

2019-07-08

排序算法的评估指标ranking-measures-and-loss-functions-in-learning-to-rank

该文档论述了排序算法和推荐系统的评估标准NDCG和MAP的原理和应用

2019-02-12

数据挖掘商业案例分析及实现

该书介绍了商业数据挖掘方法在金融行业、电信行业以及制造业中的应用,是很棒的数据挖掘教材

2018-06-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除