自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

连峰碧波间,浅水泛舟游

运交华盖欲何求,未敢翻身已碰头。破帽遮颜过闹市,漏船载酒泛中流。横眉冷对千夫指,俯首甘为孺子牛。躲进小楼成一统,管他冬夏与春秋。

  • 博客(91)
  • 资源 (4)
  • 收藏
  • 关注

原创 Boosting算法

\quad\quadboosting算法是目前工业界广泛使用的基于树的集成算法之一,不过该算法有诸多的变体,因此本文着重的对GBDT,xgboost,catboost,lightgbm四种算法进行一个介绍。这四种算法也是目前工业界使用较多的boosting算法。

2020-09-03 17:15:42 2026

原创 典型相关分析,奇异值分解,RRR(Reduced-Rank Regression)

1.典型相关分析和奇异值分解之间的关系 典型相关分析研究的是两个随机向量之间的相关性,例如如果有向量Y={Y1,...,YK}Y={Y1,...,YK}Y=\{Y_1,...,Y_K\}和X={X1,...,XM}X={X1,...,XM}X=\{X_1,...,X_M\},目的是需要找到α={α1,...αK}α={α1,...αK}\alpha=\{\alpha_1,...\alpha_K\...

2018-08-02 11:50:13 4608

原创 对偶问题(Duality)

考虑如下的问题 : minimizef0(x)" role="presentation">minimizef0(x)minimizef0(x)minimize \quad f_0(x) subjecttofi(x)<=0,i=1,...,m" role="presentation">subjecttofi(x)=0,i=1,...,msubjecttofi(x)0,i=1,...,msu

2018-02-01 16:02:19 909

原创 凸优化

凸优化问题的基本形式: minf0(x)" role="presentation">minf0(x)minf0(x)min \quad f_0(x) subjecttofi(x)<=0,i=1,...,m;" role="presentation">subjecttofi(x)=0,i=1,...,m;subjecttofi(x)0,i=1,...,m;subject \qua

2018-01-30 19:07:48 328

原创 最大似然估计,交叉熵,相对熵(KL散度)

在机器学习中,选择损失函数时,通常会遇到交叉熵的概念,也就是交叉熵损失函数,那么我们知道最小化交叉熵损失函数等价于最大化对数似然,那么最小化交叉熵损失函数其含义是怎么样本的?我们知道针对分类问题,我们并不知道Y的真实分布,因此需要通过模型来估计Y的真实分布,以逻辑回归为例,假设Y的真实分布为:P(Y=1)=p;P(Y=0)=1-p,而我们用来估计的P’(Y=1)=q,P’(Y=0)=1-q;通常q

2018-01-04 11:42:57 3138

转载 揭秘!头条号推荐机制背后的真相!

在所谓的微信红利期已过的声浪之下, 很多自媒体人纷纷转向多平台分发,其中最大的平台就是今日头条了,累积活跃用户达到7亿。在分发的过程中,我们经常发现,同一篇文章发布在公众号的阅读量可能很高,但在今日头条上的数据却不尽如人意。造成如此差别的原因在哪?主要的根源就在于两者在订阅关系上的区别。01、今日头条与公众号对于微信公众号来说,用户与微信公众号的关系是一对一的,用户量的大小是影响阅读量的最大因素。而

2017-12-14 11:38:38 18055

转载 认识每一个“你”:微博中的用户模型

社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率。身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。在社交媒体背景下,用户生产、传播和接收信息更加便捷,使得之前相对集中的用户兴趣和行为变得更加碎片化和离散,因此社交媒体中的用户模型的构建和应用也发生了巨大的变化。微博经历了6年的发展,已经成为了国内社交

2017-12-14 10:52:58 818

转载 爱奇艺推荐系统架构与实践

爱奇艺推荐系统架构与实践

2017-12-13 19:39:22 3723

转载 爱奇艺个性化推荐排序实践

在海量的内容在满足了我们需求的同时,也使我们寻找所需内容更加困难,在这种情况下个性化推荐应运而生。在当前这个移动互联网时代,除了专业内容的丰富,UGC内容更是爆发式发展,每个用户既是内容的消费者,也成为了内容的创造者。这些海量的内容在满足了我们需求的同时,也使我们寻找所需内容更加困难,在这种情况下个性化推荐应运而生。 个性化推荐是在大数据分析和人工智能技术的基础上,通过研究用户的兴趣偏好,进行个性

2017-12-12 18:55:34 1062

原创 文章标题

Algorithm SGD initpa={w00,w0i,v0ij,itr,k},i=1,...M,j=1,....kinit \quad pa=\{w^0_0,w^0_i,v^0_{ij},itr,k\},i=1,...M,j=1,....k inputtr={X[n],Y[n]};,n=1,...Ninput \quad tr=\{X[n],Y[n]\}; ,n=1,...N for

2017-12-12 16:31:34 144

转载 推荐系统在百度云的实践

推荐系统在百度云的实践:

2017-12-11 20:42:30 937

转载 饿了么推荐系统的从0到1

随着移动互联网的发展,用户使用习惯日趋碎片化,如何让用户在有限的访问时间里找到想要的产品,成为了搜索/推荐系统演进的重要职责。作为外卖领域的独角兽, 饿了么拥有百万级的日活跃用户,如何利用数据挖掘/机器学习的方法挖掘潜在用户、增加用户粘性,已成为迫切需要解决的问题。个性化推荐系统通过研究用户的兴趣偏好,进行个性化计算,发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供

2017-12-11 19:52:10 1179

转载 听惯了 QQ 音乐、酷狗音乐的你,想知道推荐模型到底是咋回事么?

导语:时下QQ音乐酷狗音乐等APP似乎让用户觉得它比任何人都更懂得自己的音乐口味,会为用户推荐喜欢的歌曲,每一次都充满了surprise。本文作者Sophia Ciocca将通过介绍音乐推荐始祖Spotify的音乐推荐系统及算法,带大家一探其中究竟。 每个周一,数亿的Spotify用户会在Spotify上看到一个全新的音乐推荐列表,这是一个包含了30首歌曲的自定义混音专辑,被称为“Discover

2017-12-05 14:06:06 1031

转载 当当推荐数据系统架构实践

首先看一下发展历程,我把它分为三个阶段:  起步期是算法时代,到成长期就属于野蛮生长时代,成熟期以架构为主,架构为王的时代。  先简单看下推荐系统的典型发展史。讲历史,我们按时间顺序讲,一开始是起步期,从零开始做推荐系统,推荐系统做成以后,会进入快速成长期,成长期可长可短,因为具体行业存在差异,野蛮生长过后会出现很多问题,这时就需要把控,需要做重构,这时就进入了架构为王的时代,如果架构相对成熟一点,

2017-12-04 16:32:14 368

转载 腾讯云推荐系统介绍--百亿级通用推荐系统实践

我们每个人每天都会使用到不同的推荐系统,无论是听歌,购物,看视频,还是阅读新闻,推荐系统都可以根据你的喜好给你推荐你可能感兴趣的内容。不知不觉之间,推荐系统已经融入到我们的生活当中。作为大数据时代最重要的几个信息系统之一,推荐系统主要有下面几个作用:提升用户体验。通过个性化推荐,帮助用户快速找到感兴趣的信息。提高产品销售。推荐系统帮助用户和产品建立精准连接,从而提高产品转化率。发掘长尾价值。根据用户

2017-12-04 14:39:04 2685

转载 QQ浏览器app应用专区推荐系统

1、背景在互联网信息爆炸式增长的当今,通过传统人工筛选运营方式提供服务时代已然过去,能通过用户历史行为精准推荐用户感兴趣内容成为必然趋势,主流个性化推荐系统流程包括用户行为采集、分类提取、离线用户建模、在线用户模型预测等。结合目前手机QQ浏览器软件应用App分发业务发展需求,历时半年多时间,从无到有搭建一套个性化推荐系统支撑专区App分发业务。2、业务整体Review目前推荐场景覆盖包括专区首页猜你

2017-12-04 11:46:58 1162

原创 智能推荐相关信息搜罗

微博loginLayer_1512353693495”>https://weibo.com/u/5224446495?refer_flag=1005055013&is_all=1#_loginLayer_1512353693495 http://www.360doc.com/content/16/0708/21/6902273_574104705.shtml搜狐http://www.usei

2017-12-04 10:37:58 376

原创 FM(factorization machine)

1. 模型提出背景 FM解决的是预测性问题。也就是说给定输入值,给出输出值。但是针对预测性问题的解决,目前有较多的模型可以用,针对factorization machine这篇文章,作者主要是抓住FM和支持向量机的优劣比较,支持向量机最终是解决数值优化问题,如果自变量是稠密的,那么使用支持向量机是有较大优势的。但是如果自变量有较多的类别变量(指示变量),从而导致数据比较稀疏,也就是说一个样本

2017-11-30 15:46:45 706

原创 Boosting算法

Boosting算法的思想和随机森林的思想是不同的,随机森林中的每棵树都是一个强分类器(树的深度比较深),那么这样偏差就会小得多,方差就会大的多,为了降低方差,随机森林设计了多棵树,每棵树的样本都是通过重抽样的方式获得,这样相当于综合了数据总体的多个样本进行训练,可以有效的降低方差,这样在测试集中才可以得到较好的效果。Boosting的思想是设计多个弱分类器,弱分类的特点就在于偏差过大,因此需要后续

2017-11-23 11:37:53 730

原创 hive

1.查询表在hdfs中存储路径 show create table table_name

2017-11-07 14:45:05 177

原创 JAVA IO (长期更新)

1.OutputStream 类1.1 void write(int b) 方法 本来应该是接受一个无符号的1个字节的整数(0-255). 接受 Int型数据,但是java内部其实会将b 转换成0-255之间的数字,原因是Stream是以字节为读取单位的. 具体规则如下: b=b& 0x000000FF 然后将结果看做是无符号1字节整型处理。Java内部用补码来表示正数和负数。

2017-10-23 15:48:58 255

原创 hadoop 一些属性值含义

1.mapreduce.input.linerecordreader.line.maxlength . 当使用TextInputFormat作为inputformat时,会遇文件中一些行过长,这样,我们可以通过这个mapreduce.input.linerecordreader.line.maxlength 来跳过这些异常行。 2.

2017-09-14 20:20:37 535

转载 Hadoop 2.6.0 FileSplit和InputSplit和FileInputFormat

InputSplit 有三个方法1.getLengh(),为了获取字节长度2.getLocations(),获取地址,在哪个节点3.该方法返回空,返回类型是可支持在内存中存储,或者磁盘存储。可以看出未来mapreduce有希望支持内存存储数据。@Evolvingpublic SplitLocationInfo[] getLocationInfo() throws IOException { ret

2017-09-14 09:58:04 851

转载 hadoop配置文件加载顺序

用了一段时间的hadoop,现在回来看看源码发现别有一番味道,温故而知新,还真是这样的  在使用hadoop之前我们需要配置一些文件,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml。那么这些文件在什么时候被hadoop使用?  一般的在启动hadoop的时候使用最多就是start-all.sh,那么这个脚本都干了些什么?start-

2017-08-27 15:42:54 643

转载 Unicode scalar value

Unicode scalar value

2017-08-24 09:22:28 647

原创 hadoop 练习(1)

1 在hdfs上进行文件复制 Configuration conf=new Configuration(); conf.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName()); FileSystem fs=FileSystem.get(URI.create("hd

2017-08-22 20:37:07 568

转载 文章标题

http://blog.csdn.NET/mercedesqq/article/details/16885115# 在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面,上传到服务器,然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce,那么这个方法真是又土又麻烦。其实YARN是可以通过Java程序向hadoop集群提交MapReduce任务的。与普

2017-08-22 14:29:53 166

原创 hadoop 问题汇总

1.在运行hadoop时遇到问题,首先要查询位于 %hadoop安装目录%\logs\userlogs\中的日志信息。控制台输出的日志的内容并不全面。 2.链接hdfs,访问hdfs上面的文件时,出现链接失败。Connection refused。这时需要查看core-site.xml中的fs.defaultFS要改成hdfs://localhost:8020。8020端口是hadoop的name

2017-07-27 14:42:38 447

原创 JAVA,环境变量设置

在命令行执行javac,java命令的时候,需要设置path环境变量,将%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin放在path环境变量中,这样才能在命令行执行java和javac等命令. 其中JAVA_HOME表示JDK的安装目录,我的安装目录为E:\Java\JDK,所以添加新环境变量JAVA_HOME,其值为E:\Java\JDK. 然后添加环境变量CLASSPA

2017-07-17 20:20:37 288

转载 知人知面需知心——论人工智能技术在推荐系统中的应用

作者:洪亮劼,Etsy数据科学主管,前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作,在国际顶级会议上发表论文20余篇,长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2016年《程序员》 在电子商务、个性化阅读、社交网络(媒体)以及共享经济高速发展的今天,发现用户的需求、了解用户的行为并为用户筛选出最

2017-07-04 12:53:16 1340

转载 Java URL 类,URI类

1.若引用的资源和本身在同一路径下(既在同一目录下) 在example.html中引用tupian.gif 相对路径:<imgsrc="tupian.gif"border="0"/><img \quad src="tupian.gif" border="0"/> 绝对路径:<imgsrc="d:/例子/html/tupian.gif"border="0"/><img \quad sr

2017-06-15 09:58:51 688

原创 HttpClient 4.5.3 模拟登陆CSDN

本文使用httpcomponents-client-4.5.3和httpcomponents-core-4.4.6进行CSDN模拟登陆。//step 1:get some necessary information about login HttpClientBuilder httpClientBuilder2=HttpClients.custom(); httpCl

2017-06-14 10:37:19 2026

转载 Http隧道(tunnel)技术与Proxy

一直都没有深入研究过 Http Proxy,最近在使用libcurl的过程中,发现在有Proxy的情况下,使用CURL请求一个https的资源,会有返回2个response。经过一番抓包和研究之后,发现另有原因。根据 RFC2817 的讲解发现,在使用Proxy请求https的时候,首先会使用HTTP的CONNECT Method向Proxy发起请求。另外,更具 RFC2816 中关于CONNECT

2017-06-12 13:40:42 3369 1

原创 httpclient -- HttpClientBuilder(长期更新。。。)

1.httpclientBuilder 域 1.1 PublicSuffixMatcher 用于检查给出的域名是否和public suffix list中的后缀匹配。 1.2 HttpRequestExecutor 1.3 HttpClientConnectionManager http连接管理 1.4 ConnectionReuseStrategy 连接重用策略 1.5 Con

2017-06-06 17:43:49 17169 1

原创 httpclient -- InternalHttpClient解析

1.doExecute(final HttpHost target, \qquad final HttpRequest request, \qquad final HttpContext context) 主要步骤: 1.final HttpRequestWrapper wrapper = HttpRequ

2017-05-26 13:48:19 3873

原创 webMagic 全面剖析(更新中。。。)

\qquad WebMagic爬虫主要由Downloader,PageProcessor,Pipelines,scheduler四个主要的部分构成。总调度类为Spider,主要负责请求任务分发,控制多个线程同时对多个网页进行下载,解析,存储。本文会针对这五个部分进行详细的代码剖析。1.Downloader1.1 Downloader接口public interface Downloader {

2017-05-24 13:41:50 4921

原创 JAVA常见错误解决方法汇总

1.error:The method XXX of type YYY must override a superclass 新建的 java project在实现一个接口的时候,会发现编译不通过,出现以上错误。原因在与在java 1.5之前不支持使用注解@Override,但是project的默认编译器版本是1.5,所以出错,因此,需要修改该project的编译器版本,步骤如下: 选中项目根目

2017-04-21 14:31:00 531

原创 推荐系统机器学习领域大牛主页

1.Xavier Amatriain 2.

2017-01-25 17:19:14 1203

原创 魔法方法,属性和迭代器

首先我们先介绍一些重要的魔法方法。魔法方法主要在定义类的时候使用,一般情况下,不会显性调用。 1.在文件中以mateclass=type开始,表示所有的类都是新式类,避免一些特性在老式类上不起作用。 2.构造方法init#定义一个类A,其中的构造方法为__init__class A: def __init__(self,value): self.var=value#定

2016-01-05 17:56:52 510

原创 Helmholtz Machine and Wake-Sleep Learning

1.介绍.\textbf{1.介绍.}本文主要目的是服务于深信度网络。我们将在这里详细介绍神经网络无监督学习中的一个重要算法-wake sleep算法,以及和这种算法密切相关的一类机器–melmholtz machine. 2.boltzmann distribution.\textbf{2.boltzmann distribution.}在一个物理系统中,颗粒处在不同的状态下得概率分布。其中每种

2016-01-02 18:46:30 2026 3

[N._N._R._Ranga_Suri,_Narasimha_Murty_M,_G._Athith(z-lib.org).pdf

异常检测必读图书,outlier detection: techniques and applications

2019-07-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除