自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨旭东的专栏

坚持学习和分享

  • 博客(28)
  • 资源 (76)
  • 收藏
  • 关注

原创 wm_concat_sort

odps udaf wm_concat_sort

2024-04-16 09:07:31 75

原创 使用Spark SQL读取阿里云OSS的数据

如何使用spark sql读写阿里云OSS上的Parquet数据?

2023-11-17 09:50:34 1056 1

原创 模型效果上限预估、分类模型Bad Case分析方法

模型效果上限预估、分类模型Bad Case分析方法给定训练和测试数据集,训练某个二分类模型(如,GBDT算法),我们通过交叉验证的方法得到了一组最优超参数以及对应的最优模型,但在测试集上这个模型仍有一定的误差率,也就说模型的预测结果存在一定数量的bad case。那么,目前的模型逼近了效果的上限了吗? 这些bad case有可能被解决吗?如果可以,该如何解决呢?回答这些问题的前提条件是样本和特征已经固定下来,本文不讨论那些数据集本身还在迭代变化的情况。一、两类Bad Case标签正确的困难样本。模

2022-09-30 19:31:36 1261

原创 机器学习模型交叉验证脚本

机器学习模型交叉验证脚本本文以阿里云机器学习平台上的 ps_smart (GBDT)算法为例,提供一个搜索最佳超参数的交叉验证任务的bash脚本。机器学习模型超参数网格搜索脚本 提供了超参数网格搜索的能力。然而,当验证集的数量较少时,网格搜索的最优超参数非常容易过拟合,在实际的生产环境中,往往效果不如预期。为了缓解数据量少的问题,我们把网格搜索的Top N最优超参数保存下来,对这组超参数继续使用交叉验证的方式评估每组超参数对应的模型的实现效果指标。本文提供的示例是一个LTV预测的回归任务,计算MAE、

2022-09-19 17:59:20 384

原创 推荐模型离线评测效果好,线上效果却不佳的原因

在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。本文尝试列举一些常见的原因,为大家排查问题提供一点思路。

2022-09-05 11:00:00 642

原创 推荐算法效果不佳时的检查清单

有时候我们会遇到推荐算法上线之后,效果不如预期的情况。这种情况下,该如何改进呢?下面就尝试列出一些检查清单,按照重要性的顺序,建议从上往下依次检查。当然,这些清单还不全面,欢迎大家一起来补充!

2022-09-04 17:00:00 205

原创 推荐系统中的特征工程

摘要:深度学习时期,与CV、语音、NLP领域不同,搜推广场景下特征工程仍然对业务效果具有很大的影响,并且占据了算法工程师的很多精力。数据决定了效果的上限,算法只能决定逼近上限的程度,而特征工程则是数据与算法之间的桥梁。本文尝试总结一些在推荐场景下做特征工程的常用套路,包括常用的特征变换算子、Bin-Counting技术以及特征查漏补缺的方法。读者受益深入理解常用的特征变换操作。了解优质特征工程的判断标准。掌握推荐场景下构建高质量特征的一般方法。一、为什么要精做特征工程在完整的机器学习流水线中,特征

2022-09-03 23:50:16 449

原创 推荐冷启动召回模型DropoutNet深度解析与改进

通常推荐系统通过协同过滤、矩阵分解或是深度学习模型来生成推荐候选集,这些召回算法一般都依赖于用户-物品行为矩阵。在真实的推荐系统中,会有源源不断的新用户、新物品加入,这些新加入系统的用户和物品由于缺乏足够丰富的历史交互行为数据,常常不能获得准确的推荐内容,或被准确推荐给合适的用户。这就是所谓的推荐冷启动问题。冷启动对推荐系统来说是一个挑战,究其原因是因为现有的推荐算法,无论是召回、粗排还是精排模块,都对新用户、新物品不友好,它们往往过度依赖系统收集到的用户行为数据,而新用户和新物品的行为数据是很少的。这就导

2022-09-03 18:02:10 967

原创 多任务学习算法在推荐系统中的应用

本文概要讲述了多任务学习的定义、动机和一般方法,概要介绍了目前主流的几种多目标排序模型。并结合电商平台商品详情页的业务场景具体介绍了如何构建样本,如何做特征工程。并且推荐基于开源的面向工业界的EasyRec推荐算法训练框架来构建做算法的训练和评估。至于模型服务的部署,每家公司的平台各不相同,就不详细介绍了。

2022-09-03 17:30:03 904

原创 【全网最浅显易懂】GBDT(xgboost)算法原理深入剖析

梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的技术,属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。。通俗地说,就是“三个臭皮匠顶个诸葛亮”的道理。梯度提升同其他boosting方法一样,通过集成(ensemble)多个弱学习器,通常是决策树,来构建最终的预测模型。Boosting、bagging和stacking是集成学习的三种主要方法。

2022-09-03 17:02:27 430

原创 Hive 分段采样

需求从某Hive Table中按照某字段的值的排名(rank)分成N组,第1组为排名前 1/N的内容,第2组为排名前1/N ~ 2/N的内容,…,依次类推。然后每组内部随着采样M条记录。案例某搜索引擎的搜索日志中,按照每日搜索次数降序排列搜索关键词(query),按照排名分成10组,第1组为搜索次数排名前10%的记录;第2组为搜索次数排名前10%~20%之间的记录;第3组为搜索次数排名...

2018-06-11 17:04:35 4999

原创 GBDT算法的特征重要度计算

基于树的集成算法还有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要度,便于我们选择特征,理解哪些因素是对预测有关键影响,这在某些领域(如生物信息学、神经系统科学等)特别重要。本文主要介绍基于树的集成算法如何计算各特征的相对重要度。

2016-12-27 21:22:59 42394 4

原创 GBDT算法原理深入解析

本文对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,读者可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很好的模块独立性和扩展性。

2016-12-25 20:34:46 48712 35

原创 支持中文的基于词为基本粒度的前缀树(prefix trie)python实现

Trie树,也叫字典树、前缀树。可用于”predictive text”和”autocompletion”,亦可用于统计词频(边插入Trie树边更新或添加词频)。在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串

2014-10-28 13:35:11 4066

原创 机器学习完整过程案例分布解析,python代码解析

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。学习任务(一个二分类问题):区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结

2014-05-24 21:34:09 3871

原创 用hadoop实现SimRank++算法(1)----权值转移矩阵的计算

本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。SimRank++的矩阵形式的计算公式为:算法主要步骤如下:Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号;Step2:

2014-05-01 02:26:53 5157 3

原创 基于MapReduce的SimRank++算法研究与实现

一、算法应用背景计算广告学(Computational Advertising)是一门广告营销科学,以追求广告投放的收益最大化为目标,重点解决用户与广告匹配的相关性和广告的竞价模型问题,涉及到自然语言处理、数据挖掘以及竞价营销、创意设计等诸多学科的融合。计算广告是根据给定的用户和网页内容,通过计算得到与之最匹配的广告并进行精准定向投放的一种广告投放机制,其目的是为用户提供最易于接受的优

2014-04-30 14:14:28 6526 2

原创 UTF-8编码的字符串拆分成单字、获取UTF-8字符串的字符个数的代码及原理(c++实现)

一、字符编码简介1. ASCII码在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。上个世纪60年代,美国制定了一套字符编码,对英语字符

2014-04-21 18:29:23 4250 1

原创 决策树ID3和C4.5算法Python实现源码

首先推荐李航的《统计机器学习》这本书,这个实现就是按照书上的算法来的。Python 用的是最新的3.3版的,和2.x不兼容,运行的时候需要注意。'''Created on 2012-12-18@author: weisu.yxd'''class Node:    '''Represents a decision tree node.        '

2012-12-23 22:48:40 11222

原创 用R语言求概率分布_R语言学习笔记5

用R语言求概率分布R一个很方便的用处是提供了一套完整的统计表集合。函数可以对累积分布函数P(X≤x),概率密度函数,分位函数(对给定的q,求满足P(X≤x) > q的最小x)求值,并根据分布进行模拟。在R中,根据某种分布生成随机序列的函数如下:在统计学中,产生随机数据是很有用的,R可以产生多种不同分布下的随机数序列。这些分布函数的形式为rfunc(n,p1,p2,...),其中

2012-03-08 16:53:46 33871 2

原创 用R语言分析股票指数变化

用R语言分析股票指数变化杨旭东(2012-3-6)      今天商学院的一个同学写毕业论文时遇到点麻烦,于是找我帮忙。要求是这样的:已知一段时间内每日的股票开盘和收盘指数,以及若干股票的招股开始日期(发行日)和上市日期,要求这两个日期之间股票指数的变化情况。如下图所示,其中浅绿色的部分是我用R语言算出来的。 计算公式如下:指数变化=(上市首日收盘指数-发行日开盘指数)/ 发行日开

2012-03-06 20:59:49 7898 1

原创 R语言学习笔记2——常用数学函数

R语言学习笔记2——常用数学函数杨旭东(2012-3-4) R语言的数学运算和一些简单的函数整理如下: 向量可以进行那些常规的算术运算,不同长度的向量可以相加,这种情况下最短的向量将被循环使用。> x > a > x * a[1] 10 20 30 40> x + a[1] 11 12 13 14> sum(x)        #对x中的元素求和

2012-03-04 14:51:06 19595 1

原创 常用矩阵计算C语言代码

参考资料:  行列式:http://zh.wikipedia.org/wiki/行列式#.E4.BB.A3.E6.95.B0.E4.BD.99.E5.AD.90.E5.BC.8F  伴随矩阵:http://zh.wikipedia.org/wiki/伴随矩阵  余因子矩阵:http://zh.wikipedia.org/wiki/余因子矩阵  逆矩阵:http://zh.wikip

2012-03-03 20:57:42 10603

原创 R语言学习笔记1——对象的创建

R语言学习笔记1——对象的创建杨旭东(2012-3-3)从昨天开始学习R语言,主要参考资料是网上下的《R软件中文版教材》。R既可以说是一种编程语言,又可以说是一套完整的软件套件,包括IDE和各种库。R主要用与统计分析,可以看作是由AT&T贝尔实验室所创的S语言发展出的一种方言。R的安装文件以及安装说明都可以在Comprehensive RArchive Network(CRAN)网

2012-03-03 20:54:21 5719

转载 跟我一起写 Makefile

关于makefile的很好的文章http://www.chinaunix.net/jh/23/408225.htmlhttp://bbs.chinaunix.net/viewthread.php?tid=408225

2011-07-15 14:39:52 553

转载 GCC 命令行详解

作者: www.linuxfans.org mozilla1。gcc包含的c/c++编译器gcc,cc,c++,g++,gcc和cc是一样的,c++和g++是一样的,(没有看太明白前面这半句是什么意思:))一般c程序就用gcc编译,c++程序就用g++编译2。gcc的基本用法gc

2011-07-15 12:40:01 732

转载 世上最经典的25句话

 1、记住该记住的,忘记该忘记的。改变能改变的,接受不能接受的。 2、能冲刷一切的除了眼泪,就是时间,以时间来推移感情,时间越长,冲突越淡,仿佛不断稀释的茶。 3、怨言是上天得于人类最大的供物,也是人类祷告中最真诚的部分。 4、智慧的代价是矛盾,这是人生对人生观开的玩笑。 5、世上的姑娘总以为自己是骄傲的公主(少数极丑和极聪明的姑娘例外)。 6、如果敌人让你生气,那说明你还没有胜他的把握。 7、如

2008-10-09 20:24:00 644

转载 熬夜也要有技巧

熬夜也要有技巧,才能依然身体硬朗,否则,铁打的身体,也受不了如此的日夜操劳呢~因此,想要熬夜的您,千万记住:1:不要吃泡面来填饱肚子,以免火气太大,最好尽量以水果、土司、面包、清粥小菜来充饥。2:开始熬夜前,来一颗维他命B群营养丸,维他命B能够解除疲劳,增强人体免疫力。3:提神饮料,最好以绿茶为主,可以提神,又可以消除体内多余的自由基,让您神清气爽;但是肠不好的人,最好改喝枸杞子泡热水的茶,可以解

2008-10-09 20:17:00 783

数字图象处理编程入门.rar

数字图象处理编程入门.rar c++源代码

2008-11-23

金相图像分析系统.pdf

图像分析 图像分析 金相图像分析系统.pdf

2008-11-23

C语言图象处理方法.rar

图象处理 C语言图象处理方法.rar 好东西

2008-11-23

求图像灰度值的三种方法.rar

求图像灰度值的三种方法.rar pascal源代码

2008-11-23

图象处理源代码集(VC++实现).rar

图象处理源代码集(VC++实现).rar

2008-11-23

酒店预订管理系统WEB版

酒店预订管理系统WEB版 ASP.NET的应用

2008-11-23

回转连珠游戏C++源代码

回转连珠游戏C++源代码 VC++6.0实现

2008-11-23

C#进销存生产管理系统

C#进销存生产管理系统 C#进销存生产管理系统

2008-11-23

存储管理(操作系统实验)C++源代码

存储管理(操作系统实验) 各种存储调度算法的模拟 C++源代码

2008-11-23

吞食蛇游戏C++源代码

吞食蛇游戏C++源代码 VC++6.0实现

2008-11-23

WinSocket编程C++源代码

WinSocket编程C++源代码 客户端和服务器的通信 基于此可以开发类似QQ的聊天软件

2008-11-23

读文件C++源代码 VC6.0实现

读文件C++源代码 VC6.0实现 演示读文件的详细过程

2008-11-23

Window窗口管理模拟C++源代码

Window窗口管理模拟C++源代码 人机交互(界面设计)实验

2008-11-23

俄罗斯方块C++源代码

俄罗斯方块C++源代码 开发环境visual stdio C++ 6.0

2008-11-23

五笔编码查询小工具(方便实用,小巧灵活)

五笔编码查询小工具 方便实用,小巧灵活 学习五笔的人的好帮手啊

2008-11-04

软件设计文档国家标准

软件设计文档国家标准.rar 与软件工程有关的所有文档

2008-11-04

音频处理器在电视播控系统中的应用

音频处理器在电视播控系统中的应用.pdf

2008-11-04

AVS_M移动音频编码技术的研究及应用

AVS_M移动音频编码技术的研究及应用 推荐!!!

2008-11-04

上海大学数字视音频处理与多媒体传输研究

上海大学数字视音频处理与多媒体传输研究中心_所_.pdf

2008-11-04

数字语音编码技术和标准介绍

数字语音编码技术和标准介绍.pdf 强烈推荐!!!!

2008-11-04

schema.json

2020语言与智能技术竞赛:关系抽取任务数据集DuIE 2.0的schema.json。训练集、验证集和测试集都已长传,请自行搜索下载!

2020-10-16

test1_data.zip

2020语言与智能技术竞赛:关系抽取任务测试集。从自然语言文本中抽取实体及其之间关系的信息技术。训练集和验证集也已上传,请自行搜索下载!

2020-10-16

train_data.zip

2020语言与智能技术竞赛:关系抽取任务数据集 DuIE 2.0 训练集;验证集和测试集也会上传,提供下载!

2020-10-16

dev_data.zip

2020语言与智能技术竞赛:关系抽取任务数据集 DuIE 2.0 验证集;训练集和测试集也会上传,提供下载!

2020-10-16

矩阵计算源代码

矩阵计算源代码,包括求逆矩阵、伴随矩阵、矩阵乘法、代数余子式等函数

2012-03-01

百度2012研发测试笔试题

百度2012研发测试笔试题 2012-10-9考于南京理工大学

2011-10-09

C++面向对象技术完全剖析_源代码(继承,封装,多态,虚函数,纯虚函数,虚拟继承,多重继承,函数重载,指针……)

1。多继承 基类 派生类(还要有多个父类) 第二条:涉及构造和析构 通过实例化一个对象体现构造和析构 还要有函数重载 第三个:基类 派生类的关系 以及如何访问抽象类 纯虚函数 还应包含有对象成员(除了一般成员外) ----------------------------------------------------- 带有多对象成员的虚拟多继承 要求:1、虚函数 多态 多态表现为 基类 基类指针和继承间的关系 2、带有多对象成员。定义 3、体现继承 虚拟继承(要通过至少三层 父类父类子类) 虚函数 (3层 纵向关系) 水平方向上:体现出继承顺序 先虚拟继承 再普通继承 通过实例化类 体现对象构造和析构的顺序 还要有函数重载 指针 指针悬挂 无参函数等问题....

2008-11-27

Internet Explorer Developer Toolbar / 网页开发人员的利器

Internet Explorer Developer Toolbar / 网页开发人员的利器 ENG The Microsoft Internet Explorer Developer Toolbar provides a variety of tools for quickly creating, understanding, and troubleshooting Web pages. The Internet Explorer Developer Toolbar provides several features for exploring and understanding Web pages. These features enable you to: -Explore and modify the document object model (DOM) of a Web page. -Locate and select specific elements on a Web page through a variety of techniques. -Selectively disable Internet Explorer settings. -View HTML object class names, ID's, and details such as link paths, tab index values, and access keys. -Outline tables, table cells, images, or selected tags. -Validate HTML, CSS, WAI, and RSS web feed links. -Display image dimensions, file sizes, path information, and alternate (ALT) text. -Immediately resize the browser window to a new resolution. -Selectively clear the browser cache and saved cookies. Choose from all objects or those associated with a given domain. -Display a fully featured design ruler to help accurately align and measure objects on your pages. -Find the style rules used to set specific style values on an element. -View the formatted and syntax colored source of HTML and CSS. The Developer Toolbar can be pinned to the Internet Explorer browser window or floated separately. CHS 微软发布了一个网页分析辅助工具,推荐网页开发、设计人员下载。

2008-11-25

英文文章中单词拼写检查C++源代码

英文文章中单词拼写检查,并推荐可能存在的正确单词示例源码

2008-11-23

迷宫算法C++的两种不同实现

迷宫算法c++实现 两中不同的实现算法 迷宫算法C++的两种不同实现

2008-11-23

五子棋算法C++源代码

五子棋算法C++源代码 VC++6.0实现

2008-11-23

ASP.NET实现的BBS(c#语言)

ASP.NET实现的BBS(c#语言) ASP.NET实现的BBS(c#语言)

2008-11-23

MFC状态栏用法,图像颜色RGB值提取C++源代码

MFC状态栏用法,图像颜色RGB值提取C++源代码

2008-11-23

画贝赛尔曲线算法C++源代码

画贝赛尔曲线算法C++源代码 模仿MsPainter画图程序用画曲线

2008-11-23

画多边形C++算法源代码

画多边形C++算法源代码 模拟MsPainter画图程序中的画多边形 VC++6.0实现

2008-11-23

基于对话框的颜色RGB值提取C++源代码

基于对话框的颜色RGB值提取C++源代码 实现环境:VC++6.0

2008-11-23

T9键盘模拟C++源代码

T9键盘模拟C++源代码 界面设计课程实验 实现环境:VC++6.0

2008-11-23

八皇宫问题算法C++源代码

八皇宫问题算法C++源代码 八皇宫问题算法C++源代码 经典算法

2008-11-23

用C#在IIS中创建一个Web站点源代码

用C#在IIS中创建一个Web站点源代码 create a web site in IIS

2008-11-23

CPU调度算法(操作系统实验)

多种CPU调度算法模拟(操作系统实验) C++

2008-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除