seasongirl-CSDN博客

原创 cpplint在windows上的安装配置

Cpplint在windows上的安装配置最近开始用C++，提交代码的时候被一个前辈指出代码写的不规范，接着就被安利了cpplint，现在反手将它安利出来。由于还没有达到大佬们直接用vim编码上千行的级别，作为一个新手，还是习惯于使用更舒服便捷的编码软件Visual Studio Code.所以这个教程写的就是在win10 vscode上安装配置cpplint。1. Cpplint简要介绍...

2020-03-07 14:37:29 2256 1

原创 C++指针|数组 & 结构体

最近在看代码的时候被以以结构体为元素的指针为元素的指针结构体绊住了，所以好好研究了一下。1. C++指针与数组1.1 数组与指针的定义数组：数组是存放有限个相同类型数据的对象的容器，数组在内存中所占大小由数组长度及成员类型的大小决定。指针：指针就是具有某种数据类型的存储单元的地址，即指针变量保存的值是某一块内存的地址。1.2 数组与指针的关系从定义上来看，指针和数组好像没有什么联系，但...

2020-01-30 11:47:02 1358

波达计数法1.什么是波达计数法？2.波达计数法的评分法则3.参考文献1.什么是波达计数法？波达计数法是由波达提出的一种经典的投票表决法。在波达之前，广为使用的一种投票方式就是，一个选民仅持有一张选票，并且只把它投给一位候选者，得票数最多的那个候选者胜出，这也即“多数投票制”。但波达却指出，多数投票制这种方法，仅仅适用于候选者为两人的情况，当有三个或以上候选人参加选举时，投票的结果会受到各种因素...

2020-01-19 20:35:39 4955

原创 Learning to Rank基于pairwise的算法（三）—— RankNet、FRank、LambdaRank

前面两类分别是基于SVM和基于Boost方法训练学习器，而本文中的三个算法，均为基于神经网络的方法训练学习器的。其中FRank算法和LambdaRank算法分别是基于RankNet进行了损失函数和排序优化方法上的改进。这里为了便于理解，仍然要祭出下图：图1 L2R pairwise1. RankNet...

2019-09-10 10:20:32 1535

原创 Learning to Rank基于pairwise的算法（二）—— RankBoost、GBRank

本文是LTR基于pairwise的算法的第二篇整理。基于Boost的pairwise算法最早的一种为Yoav Freund等人于2003年提出的RankBoost；基于Boost的另一个pairwise算法是GBRank，它是基于回归来解决pair对的先后排序问题。在GBRank中，使用的回归算法是GBT(Gradient Boosting Tree)。由于是同一个系列，所以这里同样也祭出下面...

2019-09-09 21:18:55 2459 1

原创 Learning to Rank基于pairwise的算法（一）——Ranking SVM、MHR、IRSVM

1.概述对于搜索任务来说，系统接收到用户查询之后，返回相关文档列表。所以问题的关键是确定文档之间的先后顺序，而pairwise则将重点转向对文档关系是否合理的判断。在pairwise中，排序算法通常转化为对文档对的分类，分类输入是文档对，结果是哪个文章的相关度更好，学习的目标是减少错误分类的文档对，在完美的模型中，所有的文档对的顺序都被正确分类，于是可以得到某一query下完全正确合理的文档列...

2019-09-09 20:51:23 2707 1

原创用xgboost做排序任务——xgboost下的learning2rank

以下是xgboost中关于rank任务的文档的说明：XGBoost支持完成排序任务。在排序场景下，数据通常是分组的，我们需要分组信息文件来指定排序任务。XGBoost中用来排序的模型是LambdaRank，此功能尚未完成。目前，我们提供pairwise rank.XGBoost supports accomplishing ranking tasks. In ranking scenario,...

2019-08-31 22:18:43 13158 12

原创关于Embedding

EmbeddingEmbedding的定义Embedding的应用如何Embedding?Word Embedding的方法参考资料本文对Embedding和word embedding作一个简要的介绍。Embedding的定义Embedding是从离散对象（例如字词）到实数向量的映射。这些向量中的各个维度通常没有固定含义，机器学习所利用的是向量的位置和相互之间的距离这些整体模式。Emb...

2019-04-02 15:50:51 1057

原创泛化误差和经验误差

泛化误差和经验误差目录：- 基本概念- 数学表达- 应用-------------------基本概念西瓜书上的解释，学习器在训练集上的误差成为“训练误差”或“经验误差”。在新样本上的误差称为“泛化误差”。以前在机器学习中泛化误差是用来衡量一个学习机器推广未知数据的能力，即根据从样本数据中学习到的规则能够应用到新数据的能力。数学表达...

2018-07-02 20:37:46 16027

转载连续型概率分布——正态分布（二维）

1. 定义：设二维连续型随机变量（X，Y)的联合概率密度为其中μ1，μ2，σ1，σ2，ρ均为常数，且σ1>0, σ2>0, |ρ|<1则称（X，Y）服从参数为μ1，μ2，σ1，σ2，ρ的二维正态分布。记作（X，Y）~N（μ1，μ2，σ1²，σ2²，ρ）二维正态分布的密度函数如下图显然f(x,y)>=0可以验证2. 关于二维正态分布，需掌握如下...

2018-05-24 21:04:27 167984 7

转载连续型概率分布——正态分布（一维）

今天想总结一下正太分布，但是如果按照维基百科上面的讲法，就太过复杂了，所以这里着重讲正态分布在实际生活中的作用以及简单的计算方法，也就是高中所学过的关于正态分布的知识。在正式开始之前，还是把维基百科上面的科普拎出来过一遍正态分布又名高斯分布，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。1. 正态分布的定义如果对于任何实数a<b，随机变量X满足： ...

2018-05-24 17:49:26 17207

原创离散型概率分布之三——泊松分布

前面分别总结了一下二项分布和几何分布，这篇博客要总结一下泊松分布同系列博客，同样的思路。满足什么样的条件的分布才能称之为泊松分布？满足以下三个条件的分布就是泊松分布。（1）事件是独立的在概率论中，说两个事件是独立的，直觉上是指：在一次试验中，一个事件的发生不会影响到另一个事件发生的概率。定义：两个事件A和B是独立的，当且仅当P(A∩B）= P（A）* P(B），推广到一般：P（A1∩A2∩…∩An...

2018-05-05 21:56:42 11149

原创离散型概率分布之二——几何分布

上一篇博客讲了一下二项分布，这一篇打算讲一下几何分布。其实，几何分布跟二项分布极为相似，至于相似到了什么地步，话不多说，往下看您就知道了。由于是同系列的博客，所以用同样的思路来讲。首先，我们得了解一下什么是几何分布，也即，满足什么样条件的分布才是几何分布？满足以下四个条件：（1）做某事件的次数（也叫试验次数）是固定的，用n表示。（例如，抛硬币3次，求婚101次）（2）每一次事件都有两个可能的结果（...

2018-05-05 21:12:56 21346 1

原创离散型概率分布之一——二项分布

学习机器学习的过程中，不可避免会遇到很多概率统计知识，大多都是记得自己以前学过，但是具体知识点怎么都想不起来的。所以打算做一个系列的整理，首先从最简单的二项分布开始。由于知识点呈递进关系，就不强行列一个目录出来了。出于从最基础的知识点开始学起的想法，首先要了解的知识点是，什么是分布？具体来说，应该是什么是概率分布？简单来说，就如上面的柱状图，图中每一个小柱子的高度，即为一个对应变量的概率分布，而整...

2018-05-05 20:53:04 7522

原创如何计算数学期望

数学期望的定义数学期望的计算公式例题1.数学期望的定义在概率论和统计学中，数学期望（或均值）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。随机变量包括离散型和连续型，数学期望的计算也分离散型和连续型。（1）离散型如果随机变量只取得有限个值或无穷能按一定次序一一列出，其值域为一个或若干个有限或无限区间，这样...

2018-05-05 19:51:34 92228 9

原创 TF-IDF的理解

一直对TF-IDF的概念理解的不太清楚，所以写篇博客来理一理。1.定义（概括）在信息检索中，tf-idf（词频-逆文档频率）是一种统计方法，用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大，也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之...

2018-04-21 17:40:16 6186

原创先验概率和后验概率

先验概率和后验概率先验概率和后验概率的定义如何获取先验概率和后验概率（计算）参考资料1. 初步定义先验概率：根据以往经验和分析得到的概率。先验概率分为客观先验概率（利用过去的历史资料计算得到的先验概率）和主观先验概率（当历史资料无从获取或资料不完全时，凭人们的主观经验来判断而得到的先验概率）。后验概率：在得到结果的信息后重新修正的概率。是指基于新的信息，修正原来的先...

2018-04-10 11:58:23 4815 1

转载 # Java多线程基础学习（1）

Java多线程基础学习（1）Java语言提供了并发机制，程序员可以在程序中执行多个线程，每一个线程完成一个功能，并与其它线程并发执行，这种机制被称为多线程。Windows操作系统是多任务操作系统，它以进程为单位。一个进程是一个包含有自身地址的程序，每个独立执行的程序都称为进程，也就是正在执行的程序。系统可以分配给每个进程一段有限的使用CPU的时间（也可以称为CPU时间片），CPU在这段时间...

2016-04-25 11:27:56 243

seasongirl的博客