自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

呵呵

哈哈

  • 博客(198)
  • 资源 (15)
  • 收藏
  • 关注

原创 CTR校准

1.http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2015/12/21/classifier-calibration-with-isotonic-regression2.https://blog.csdn.net/lming_08/article/details/40214921

2020-04-28 17:47:18 560

转载 RTB广告技术修炼之-流量漫游

1. 背景及目标 本文是Real Time Bidding技术系列文章的第一篇,旨在通过一个广告请求漫游RTB系统的各个模块,从而揭示各模块需要解决的问题、面临的挑战。作为系列文章的第一篇,本文的目的是从整体介绍RTB系统,各模块细节会在后续文章中深入阐述。2. RTB流量漫游 ...

2020-01-07 14:57:48 1438 2

原创 Java - Array.sort用法

package Array;import java.util.Arrays;import java.util.Comparator; public class SortUsage { /** * omparator完成如下排序: * * 1. 一维数组降序排列; * * 二维数组按照某列排序 */ public static void MatrixSo...

2018-07-12 15:21:28 1791

原创 LSTM

LSTM的一些东西有点模糊。  理解LSTM在keras API中参数return_sequences和return_state https://www.cnblogs.com/zhangchaoyang/articles/6684906.html https://www.jianshu.com/p/9dc9f41f0b29 ...

2018-07-12 11:54:30 467

原创 自编码器

https://www.jianshu.com/p/f34842a3b19a

2018-07-12 10:42:20 315

转载 LSTM - 通过keras上实践理解LSTM

https://blog.csdn.net/ma416539432/article/details/53509607

2018-07-10 15:48:38 1295

转载 验证集与测试集

验证集没有算法自动学习的过程,但存在人工调参过拟合的成份。在有监督的机器学习中,经常会说到训练集(train)、验证集(validation)和测试集(test),这三个集合的区分可能会让人糊涂,特别是,有些读者搞不清楚验证集和测试集有什么区别。I. 划分如果我们自己已经有了一个大的标注数据集,想要完成一个有监督模型的测试,那么通常使用均匀随机抽样的方式,将数据集划分为训练集、验证集、测试集,这三...

2018-07-04 15:42:20 4009

转载 改进卷积神经网络,你需要这14种设计模式

作者:Mariya Yao机器之心编译参与:马亚雄、吴攀深度学习领域近来已经发展出大量的新架构,而如何选择使用这些新架构提升卷积神经网络的性能就显得越发重要了。机器之心之前报道过提交 ICLR 2017 的论文:也正是关注于此。而本文在描述14种设计模式之余更加注重于阐述构建和训练卷积网络的小技巧。自从 2011 年深度卷积神经网络(CNN)在图像分类任务中优于人类开始,它们就成为了计算机视觉任务...

2018-06-28 14:42:33 3773

原创 FTRL

FTRL是一种优化LR的算法。FTRL实现

2018-06-28 09:24:11 1190

原创 hash trick

https://en.wikipedia.org/wiki/Feature_hashing function hashing_vectorizer(features : array of string, N : integer): x = new vector[N] for f in features: h = hash(f) x[h % N...

2018-06-26 10:37:52 441

转载 特征工程

云脑科技机器学习训练营11月13日正式开始啦!量子位作为合作媒体独家为大家分享课程干货内容。 本期内容简介主题:亿级用户电商平台推荐系统挑战主讲人:张本宇(云脑科技创始人&CEO)从事人工智能十八年的老兵,曾就职于微软亚洲研究院、Google和Facebook,在AI方面手握了150项美国专利,在国际一流期刊及会议上发表的45篇论文已被引用超过6000次,创新工场最新研究《AI领域,中国人...

2018-06-26 09:51:02 786

原创 DeepFM

论文: https://arxiv.org/pdf/1606.07792.pdfdeepfm在kaggle竞赛中的应用: https://github.com/ChenglongChen/tensorflow-DeepFM/tree/master/examplehttps://www.jianshu.com/p/6f1c2643d31b

2018-06-25 16:28:23 1384

原创 GBDT+LR

利用GBDT对特征进行变换https://wenku.baidu.com/view/7319fc2c960590c69ec376c0.htmlhttps://blog.csdn.net/shine19930820/article/details/71713680/http://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_t...

2018-06-22 14:44:06 513

原创 因子分解机

https://blog.csdn.net/songbinxu/article/details/79662665

2018-06-19 11:43:12 855

转载 Python中__iter__与yield

https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/

2018-04-27 09:45:44 1278

原创 一文看懂mapreduce

http://blog.csdn.net/universe_ant/article/details/52624867

2018-03-13 18:37:45 379

原创 GBDT

GBDT详解https://www.jianshu.com/p/005a4e6ac775https://www.cnblogs.com/ModifyRong/p/7744987.htmlhttp://blog.csdn.net/suranxu007/article/details/49910323https://www.cnblogs.com/daguankele/p/6557328.html...

2018-03-06 16:29:43 464

原创 matplotlib中文乱码解决

下列程序在Python3.6下运行通过。# -*- coding=utf-8 -*-from matplotlib import font_managerimport matplotlib.pyplot as plt;if __name__ == '__main__': thread_num = [1, 3, 5, 10, 20, 30, 40, 50, 60, 70, 80

2017-12-12 14:02:56 901

原创 Python利用dict实现switch

Python3还是没有switch,可以利用if-else来实现,但是非常不方便。使用dict来实现会比较简洁优雅。# -*- coding: utf-8 -*-"""Python利用dict实现switch"""def add(x, y): return x + y def subtract(x, y): return x - y

2017-11-21 16:23:50 1605

转载 N-gram算法

最近在做谷歌text normlization的时候,俩队友用到了这个算法,搞得我一脸懵逼。整体来说,还是一种字符串模糊匹配算法吧,多用来衡量字符串之间的相似度。字符串的精确匹配算法KMP算法之前也提到过。N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N

2017-11-13 13:26:20 8060

原创 Sklearn中LabelEncoder与OneHotEncoder

1. LabelEncoder()#简单来说 LabelEncoder 是对不连续的数字或者文本进行编号from sklearn.preprocessing import LabelEncoderle = LabelEncoder()le.fit([1,5,67,100])le.transform([1,1,100,67,5])array([0,0,3,2,1])2. On

2017-11-10 09:50:02 3961 1

转载 准确率与召回率

1、两个最常见的衡量指标是“准确率(precision)”(你给出的结果有多少是正确的)和“召回率(recall)”(正确的结果有多少被你给出了)这两个通常是此消彼长的(trade off),很难兼得。很多时候用参数来控制,通过修改参数则能得出一个准确率和召回率的曲线(ROC),这条曲线与x和y轴围成的面积就是AUC(ROC Area)。AUC可以综合衡量一个预测模型的好坏,这一个指标综合了

2017-11-08 14:34:10 51485 5

原创 大话数据结构 - 串

1. 串的定义串是由0个或多个字符组成的有限序列,也叫做字符串。2. 串的比较3. 串的抽象数据类型4. 串的存储结构5. 朴素的模式匹配算法6.KMP模式匹配算法

2017-11-02 21:27:02 413

原创 Windows+Python3.6.0(Anaconda3)+OpenCV3.2.0安装配置

注:本次安装因为我要配的这个笔记本是win7(32bit)的,所以安装中软件版本的选择就是按32位走的,我之前在win10(64bit)也装过,实际中这个教程的方法对于win7还是win10,32位又或是64位系统是通用的,软件版本按需选择就行了。1.安装Python环境,推荐使用Anaconda,下载地址2. 双击Anaconda3-4.3.1-Windows-x86.exe一路

2017-11-02 15:30:45 668

转载 Windows10使用Anaconda安装OpenCV

Windows10使用Anaconda安装OpenCV这里假定大家都已经安装好Anaconda环境,并且将使用Anaconda所提供的图形化界面Anaconda Navigator来进行环境创建和工具包安装。 *备注:关于Anaconda的简单教程,请戳这里创建一个全新的Python环境启动Anaconda Navigator,初始界面如下图 选择左侧的Envi

2017-11-02 14:21:32 2530

原创 大话数据结构 - 栈与队列

大话数据结构第四章:栈与队列;栈、队列以及链表同属线性表栈:先进后出;队列:先进先出

2017-11-01 20:20:52 376

原创 xgboost参数详解

XGBoost参数在运行XGboost之前,必须设置三种类型成熟:general parameters,booster parameters和task parameters:General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster有树模型(tree)和线性模型(linear model)。Booster parame

2017-11-01 16:30:23 1457

原创 剑指offer - 第四题

在一个二维数组中,每一行都按照从左到右递增的顺序排序。每一列都按照从上到下递增的顺序排序。请完成这样一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。1 2 8 92 4 9 124 7 10 136 8 11 15如果查找数字是7, 返回true; 查找5返回false

2017-10-24 11:07:23 334

原创 文本挖掘 - 文档模型

文档模型,主要针对的是如何把文档数字化、向量化,最终可以利用这些文档来建立模型。当前文档模型主要包括三类:布尔模型,向量空间模型,概率模型。1. 布尔模型每个词在文档中出现则记为1,否则记为0。这样就可以将每一篇文章都转化为向量,这种方法非常简单易懂,但是会丢失很多重要信息,比如词组出现的次数。因为排除停用词(stop words)以外,一个单词在文章中出现次数较多,那么它相对来说也更重要

2017-10-24 09:43:32 1442

原创 文本挖掘 - 分词

分词即对词语进行划分。分词的基本方法包括:最大匹配法,最大概率分词法,最短路径分词法分词的难点:分词歧义,未登录词识别(冷启动)1. 最大匹配法最大匹配法实际上是一种贪心算法,它同时还利用现实中人们使用的词语长度都是在一个比较固定的范围内。利用这个长度的限制来逐步贪心。1.1 正向最大匹配算法从左到右截取词组并判断是否为一个词语。s: 待分的句子te

2017-10-18 21:02:54 1311

原创 文本挖掘 - 目录

开一个文本挖掘的专题,主要内容来自北京大学杨建武老师《文本挖掘》课程PPT。

2017-10-18 21:01:41 601

原创 大话数据结构 - 链表

1. 顺序表的缺陷线性表的顺序存储结构有致命的缺陷, 由于地址的连续性, 插入和删除都需要移动大量的元素;2. 链表 - 线性表的链式存储结构链表为了摆脱顺序表的缺陷, 从物理结构上链表各个元素是随机位置, 而不是连续存储; 这样也就导致了每个节点除了存储本身的数据之外还需要存储下一个节点的地址;这是的插入和删除非常方便, 但是无法像顺序表那样直接获取某个位置的元素, 只能

2017-09-25 20:26:15 592

原创 大话数据结构 - 顺序表

线性表就是0个或多个数据元素的有限序列; 元素之间存在顺序, 除开头结尾之外, 每个元素有且仅有一个前驱元素, 后继元素。线性表的顺序存储叫做顺序表,简单的说就是对数组进行封装,使得更好的满足需求。1. 线性表的顺序存储结构线性表的顺序存储结构指的是用一段地址连续的内存依次存储线性表的数据元素    2. 线性表的链式存储结构链表3. 顺序表Python实现

2017-09-24 13:59:33 411

原创 大话数据结构 - 数据结构概论

1. 数据结构的逻辑结构    数据元素之间的相互关系    1.1 集合结构        集合结构之间的元素除了属于同一个集合之外, 他们之间没有任何其他关系, 各个元素的关系是平等的;            1.2 线性结构        元素之间存在一对一的关系, 比如数组, 链表;        1.3 树形结构        元素之间存在一对多的关系

2017-09-24 13:56:36 413

原创 ImageNet - 1000种物体对应编号

n01440764 鱼n01443537 鱼n01484850 鱼n01491361 鱼n01494475 鱼n01496331 鱼n01498041 鱼n01514668 鸡n01514859 鸡n01518878 鸵鸟n01530575 鸟n01531178 鸟n01532829 鸟n01534433 鸟n01537544 鸟n015

2017-09-21 09:36:47 3384 1

原创 剑指offer - 第三题

# -*- coding: utf-8 -*-"""《剑指offer》第3题 - 找出数组中重复的数字在一个长度为n的数组里所有的数字都在0~n-1之间, 数组可能存在重复数字, 找出这个数组中重复的数字中的任意一个;比如输入长度为7的数组{2, 3, 1, 0, 2, 5, 3}, 对应重复数字为2, 3;1. 利用哈希表是最常见的解法, 但是需要维护一个空间复杂度为o(n)的哈

2017-09-20 21:47:40 693

原创 数据挖掘 - 集体智慧编程 - 寻找独立特征

集体智慧编程第十章寻找独立特征

2017-09-14 10:53:47 497

原创 机器学习 - 决策树实现

决策树原理篇ID3算法:http://blog.csdn.net/zk_j1994/article/details/74066406C4.5算法:http://blog.csdn.net/zk_j1994/article/details/74560278CART算法:http://blog.csdn.net/zk_j1994/article/details/74606412

2017-09-14 10:50:56 501

原创 机器学习 - 集体智慧

Netflix 是一家在线租片儿的公司, 并且更具用户过去租片的行为来进行推荐, 他悬赏100万美元去奖励第一个把租片成功率提高10%的团队,以及5 万美元给这个团队的leader,通过提供用户以前租片的纪录给团队们进行推荐,现在做的最牛屄的团队是提高了 7%。  google 是意见搜索公司,创立当时有很多其他的公司, 但是google 通过其他网页对他的外链来进行排序,搜索质量

2017-09-11 16:29:51 522

原创 数据挖掘竞赛 - 猜你喜欢

datacastle上的一道推荐算法竞赛(这里是地址和数据),由于最近想整理和汇总最常用的推荐算法。因此干脆就把这个竞赛拿出来实际分析。

2017-09-05 20:41:04 2494

DBSCAN算法实现

DBSCAN算法实现

2017-08-14

聚类算法数据集

对聚类算法进行测试的数据

2017-08-14

svd计算例子

SVD分解计算方式

2017-08-10

PCA详细推导

PCA,主成分分析,详细推导。

2017-08-10

GMM高斯混合模型

高斯混合模型

2017-08-04

线性回归合集

线性回归,局部加权线性回归,ridge,lasso

2017-07-26

线性模型推导

机器学习,ridge,lasso,线性回归,看完就懂

2017-07-25

支持向量机推导

svm不再困惑

2017-07-23

logistic回归推导

logistic回归,不再一头雾水

2017-07-14

常用优化算法

本人总结的常用优化算法: 主要包括梯度下降,共轭梯度法;牛顿法,拟牛顿法;信赖域方法,罚函数法。

2017-06-25

图像处理功能集成

图像处理功能集成,集成了一些基本功能。

2016-12-23

matrix cookbook—矩阵公式大全

矩阵公式大全,很全面!

2016-12-20

PRML.pdf文档

PRML,机器学习Bible

2016-10-06

数字图像处理冈萨雷斯

数字图像处理冈萨雷斯matlab版

2016-10-06

学习OpenCV中文版

学习OpenCV中文版

2016-10-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除