自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

苏冉旭的专栏

机器学习、自然语言处理、搜索引擎排序

  • 博客(20)
  • 收藏
  • 关注

原创 信息检索术语

信息检索中,经常看到一些字面翻译过来让人摸不着头脑的术语,这里总结一下。1ad-hoc information retrieval这个表述常见于论文中,字面翻译是“为了特定目的搜索”。其实它源于TREC的一个Task名称。指的就是网页搜索场景,即文档相对固定不变,但用户query不断变化。与之相对的是信息流场景,用户画像相对固定不变,但新闻一直在变化。Ad Hoc字面意思: 拉丁语,表示"for this", created or done for a particular pur.

2021-09-15 20:20:41 875

原创 开源搜索引擎框架比较

概述全文检索引擎,区别于结构化数据库检索(SQL),是以检索非结构化纯文本为目标的引擎。通过倒排结构高效检索文本。目前业界最流行的 Solr 与 ElasticSearch(ES) 都是基于Lucene的搜索引擎框架。Lucene更像一个搜索引擎 Java API库,而Solr和ES在其上进一步封装扩展到Server级别。比较这篇文章写得较为全面:https://www.cnblogs.com/jajian/p/9801154.html结论:ES 易用性更好:在分布式支持..

2020-07-30 20:12:50 660

原创 log softmax的梯度求解 (Gradient of log(softmax) )

背景DNN分类任务中,有两个相似的常见的损失函数:1)二分类:-log(sigmoid(x)), 其等价于softplus(-x),曲线比较直观,比较好理解。-- 《Deep Learning Book》中有较为详细的推导和曲线图,这里不复述。2)多分类:cross_entropy(softmax(x)),或-log(softmax(x)); 但这个函数不好画曲线,很少有资料描述它的梯...

2019-04-09 19:54:42 2011

原创 TensorFlow进阶教程

目标读者:假设读者是已经熟悉python,并且已经看了一些tensorflow示例程序,希望能了解tensorflow的内在编码规则、特点和高效的编码方式。如果是这样,本文会适合你。本文切入点是介绍tensorflow与python/numpy的不同以及语法习惯/编程思路的转换,然后介绍TF语言的重要特征和推荐的编程习惯及方法;如果读者还不熟悉numpy或python,请先学习相应教程。如...

2019-02-17 17:29:29 944

原创 tensorflow NAN常见原因和解决方法

最近遇到NAN的问题,花了很久才真正解决。发现网上大部分解决方法都不对或者不彻底,因此单独总结一下。一、NAN原因所有NAN都是这个原因:正向计算时节点数值越界,或反向传播时gradient数值越界;无论正反向,数值越界基本只有两种操作会导致:a) 节点/W/gradient数值逐渐变大直至越界b) 有除零操作,包括0/0。二、现象两者的现象可能一样,绝大多...

2019-02-14 13:02:01 13830 1

原创 Crontab执行java/spark-shell/spark-submit 异常解决方法

现象:在linux shell中直接执行时没有任何问题,但是放到crontab中就出异常,且异常一般都抛在一些基础库里

2017-11-17 15:54:10 1512

转载 SecureCTR 常用设置

SecureCTR 颜色配置,常用设置,可选设置,快捷操作

2016-09-13 20:43:17 2556

原创 先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然

总是搞混,这里总结一下常规的叫法:先验概率:事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。后验概率:事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。条件概率:一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y

2015-12-16 13:48:22 5855

原创 【原创】Logistic regression (逻辑回归) 概述

Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘)  那么它究竟是什么

2015-11-19 15:07:17 2906 1

原创 【原创】GBDT(MART)概念简介

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种用于回归的机器学习算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。当把目标函数做变换后,该算法亦可用于分类或排序。 本文主要从高层明确几个GBDT概念,主要讲GBDT的两个版本以及GBDT是什么不是什么。详细介

2015-11-18 17:51:33 3099

原创 GBDT(MART) 迭代决策树入门教程 | 简介

GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。后记...

2015-11-18 17:47:49 21419 29

原创 第一部分 5.4.1 概率论中的乘法和加法(生日悖论)

由生日悖论想到的....  ---第五章主要讲概率论的一些内容,概率论我一直学得懵懵懂懂,于是梳理了一下,贴出来与大家分享。 说起概率论,我们往往最先想到的就是两个概率相乘或两个概率相加,“且关系”就相乘,“或关系”就相加,它们好像能解决所有问题。 让我们举个例子具体来说: 假设有两个并排放的灯泡A,B,它们的质量比较差: 使用一天后,还能正常工作的概率

2008-11-16 00:27:00 2732

转载 Eclipse 中“Activation.main: 警告:...(转载,作者不详)

最近开始搞Eclipse SWT,本来还不错,谁知道后来搞一个Application却报如下错误:Activation.main: 警告: sun.rmi.activation.execPolicy 系统属性未被指定且 ExecPermissions/ExecOptionPermissions均未被授权。随后的激活尝试失败,原因是对ExecPermission/ExecOptionPermissi

2007-08-11 13:53:00 2570

原创 thinking in C++ 读书日志(七)

第七章 函数重载与默认参数  游泳回来,好累。第七章完成,写上来吧。推荐看点:1、       函数重载我想多数同学对此都已经很熟悉了,这里就不说了。1.         默认参数函数“多态”的另一种形式3、 占位符参数一个很可爱的参数,这样的声明见过吗:void f(int a,int=1,int=2);4、的memcpy()函数这个不受strcpy中‘/

2007-08-08 21:32:00 618

原创 thinking in C++ 读书日志(六)

第六章 初始化与清除这一章说实话没什么东西。我用了一小时看完了。不过关于析构函数我一直有一个疑问,有兴趣的同学到我博客讨论一下吧。  我们都知道,在c++里当声明一个类时,如果你不写构造函数,系统就会自动生成一个默认构造函数。由于此构造函数往往不尽人意,我们一般会重写构造函数。且当我们定义了自己的构造函数之后,它就会“覆盖”默认构造函数。即系统就不会再产生默认构造函数了。  这点是否对

2007-08-07 15:51:00 676

原创 thinking in C++ 读书日志(五)

第五章 隐藏的实现推荐几个看点:1.的memset(&,Bool,int)函数   是一个批量初始化内存的函数。2. 类中的友元   对友元的概念或声明格式还不是很熟的同学可以看一看,比“鸡瘟”同志那本书上写得好多了。3.句柄类   我对这个东西比较感兴趣。有兴趣的同学欢迎和我讨论一下呵! 东西很少,这里留个小游戏吧://看看谁能突破我的“private

2007-08-06 11:56:00 881

原创 thinking in C++ 读书日志(四)

第四章 数据抽象  所谓数据抽象,主要讲的就是struct和class了。本章详细讲述了class的由来,以及它从struct转换而来的具体过程和原因。仔细阅读会对class有更深层的认识。  本章的知识点比较集中,不易拆开说,而且其中有很多编程思想和方法,所以这次就不写“推荐看点”了,instead 这里提出几个问题,以尽最大的可能方便大家的阅读。如果你都能回答,那么本章的最主要内容

2007-08-05 10:01:00 848

原创 thinking in C++ 读书日志(三)

第三章  在推荐“看点”之前先提出一个疑问:  有没有人对起分段编译作用得make和makefile比较了解,我看了半天也没看懂。它们到底是怎样作用与编译过程的?又是为什么能作用于编译过程呢?有谁懂请一定给我留言啊!我的qq:455126537,多谢了先! 主要推荐看点如下: 1.C++中的“实时定义变量”知道吗,其实在c中:for(int i=1;i 2.全局

2007-08-03 22:46:00 908

原创 thinking in C++ 读书日志(二)

 2007-08-01第二章对象的创建与使用第二章主要讲述c++的一些基础知识和基本语法,不过我们仍能从书中学到新的东西。这次尽量减小文章的篇幅。主要分两方面写:1.推荐知识点,从广度上覆盖本章精华;2.对特定某个知识点的进一步研究, 从深度上进行探索。 1.经典推荐(导读)1) 解释器与翻译器        ――P28初始学c++的时候总把这两个东西和VC的两个compi

2007-08-03 22:44:00 1200

原创 thinking in C++ 读书日志(一)

Thinking in C++其实一直很喜欢这本书,碰上一些无聊地课程就像偷看小说一样断断续续地看,但一直没有一个空闲的时间从头到尾好好地梳理一遍。于是准备趁这个假期把整个知识体系好好总结一下。为了激励自己读下去,也为了和大家分享其中的收获,现将笔记以读书日记的形式把自己的一些感想写出来。限于篇幅,只书写其中某些精彩的细节。更多的讨论可以发邮件给我或留言。希望这篇日志也能激励大家和我一起来读这

2007-08-03 22:42:00 2598 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除