hxxiaopei-CSDN博客

原创输入法之模型剪枝一(基于熵的剪枝)

prunning，剪枝，顾名思义就是减掉那些不重要的。从理论上来讲，剪枝达到的效果就是剪枝后的q和剪枝前的 p 最大化相似，有两种算法 entroy-based以及rank-based。针对model，使用相对熵来刻画D(q||p) 来刻画，保证两个model的熵差别最小，就是entropy-based。如果使用rank(p|q)来描述，保证整个model的rank差别最小

2014-06-25 17:15:58 7703

原创输入法之模型训练

输入法，尤其是拼音输入法，解决的就是一些序列标注的问题，针对给定的状态(拼音)，获取其概率最高的隐状态(中文)。这个是一个标准的HMM，针对HMM的解码过程，是一个很成熟也很完备的东西。local的计算和存储能力都有限，我们选择一般是二阶马尔科夫，也就是所谓的bigram model。高阶对质量会有帮助，但是涉及到存储和计算，工程上不可行。同理，利用ME 以及CRFmodel

2014-06-10 14:59:52 8213

原创输入法之核心词典构建

拼音输入法输出的候选分成两个部分，系统词以及短句(智能组词),智能组词是通过model以及解码弄出来的，后续再说。系统词就是那些常用的词(词组)收录到词典中，用户的输入和词典中的词match时，直接吐出来，而不需要解码获得。系统词以及对应的rank(score)对输入法的体验很大，毕竟大多数用户还是继续短词输入。系统词包含几个部分：1.基础词2.高频短串3.

2014-06-10 14:26:10 8107

原创输入法之语料选择

影响输入法体验的有两块，候选命中以及视觉交互，视觉交互就是看到的键盘以及用户的使用的方便程度，尤其是在手机输入法中，键盘布局以及一些默认设置等细节对体验影响很大。候选命中就是指用户输入拼音时，能否把用户的想要的东西放在第一位显示处理。我们重点关注候选命中，UI是设计师的事情:)影响候选命中因素很多，比如模型选择、剪枝策略等，其中决定候选命上限，也就是天花板的绝对是训练预料，没有之

2014-06-09 14:22:27 8400

原创 deep learning(深度学习)介绍

最近接触deep learning，看了一些论文，理论细节比如RBM等，还需要研究，先通过比较通俗的语言组织下。deep learning 并非一种具体的机器学习model，而是一个框架，或者思路。dp用于特征学习，或者特征表示。接触到的svn lg 等机器学习算法，都会有特征提取以及特征选择，这两个决定了模型的质量，靠谱的特征越多，模型的表达能力越强，但是特征抽取受限于使用模型的

2014-01-13 17:17:15 9562 1

原创 LDA基本介绍以及LDA源码分析(BLEI)

Blei基本介绍： topic model，之前已经介绍过(http://blog.csdn.net/hxxiaopei/article/details/7617838)topic model本质上就一个套路，在doc-word user-url user-doc等关系中增加topic层，扩充为2层结构，一方面可以降维，另一方面挖掘深层次的关系，用户doc word user ur

2012-09-30 17:49:19 33740 5

原创先验概率后验概率似然极大似然估计极大后验估计共轭概念

最近在看LDA，里面涉及到狄利克雷的概念，为了把这个事情搞明白，查了一些相关概率知识，举个例子，掷硬币，伯努利实验中随机变量x={正面,背面}，正面的概率μ为模型参数，假定做了N次试验，Data 中观察序列为X={正面，正面。。。。反面}，正面的次数为k，服从二项分布:p(X|μ)∼pk∗(1−P)(N−k)P(X|μ) 则成为似然函数。针对观察到的随机变量(也就是D

2012-09-30 16:11:36 15065 7

原创 LSH(local sensitive hash)详解

LSH local sensitive hash，来自于 mining of massive datasets包括lsh的详细介绍以及针对不同距离函数的LSH。作用：解决的问题：相似性计算，避免两两计算，提供一组Hash函数，将相似的pair放在一个bucket里面，降低计算规模。约束：Hash函数的要求:1.相似的pair比不相似的paire更容易成为candidate

2012-09-17 18:08:02 23203 1

原创数据挖掘之lsh minhash simhash

在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单，只要两两计算用户的相似性，针对每个用户，获取最相似的K个用户即可。但是在实际的工程上，假定用户规模在亿的规模N，计算复杂度为N*N，即使是分布式，也是非常可怕的复杂度。

2012-09-14 00:51:56 19633 1

原创 tag推荐系统的关键问题以及解决方案

from: http://www.hxxiaopei.com/?p=141最近在做推荐产品，读了一些论文，客观的说，扯淡的居多，基本的思路也差不多，结合工作的情况，谈一下tag推荐的产品形态、主要问题以及如何推荐产品形态以及主要问题tag 的推荐系统，顾名思义，利用用户或者item的 tag信息进行推荐，涉及到两个产品形态：1.tag-based recommend，基于tag信息

2012-06-27 13:26:44 11623

原创推荐决策对比user-based 和item-based推荐算法

from: http://www.hxxiaopei.com/?p=138最近在看项亮同学的推荐系统实践，整理一下思路。推荐系统，整体上有三种方式：user->user->item, 推荐与其相同兴趣的用户喜欢的item，user-baseduser->item->item, 推荐与其喜欢的item相似的item，item-baseduser->item-feature->

2012-06-27 12:40:15 21280 1

原创 [学习笔记]分类算法之朴树贝叶斯

from: http://www.hxxiaopei.com/?p=126我理解朴树贝叶斯法是实现最简单的分类算法，也是非常有效的分类算，工程上容易被接受，很常用，属于生成模型。朴树贝叶斯模型:\{(x_{1},y_{1}),(x_{2},y_{2}).....(x_{N},y_{N})}训练数据，类别集合，输入特征向量为x，表示第i个样本点特征向量的j分量，在后面的计算中

2012-06-27 12:34:49 10232

原创 [学习笔记]分类算法之logistic 回归模型

from: http://www.hxxiaopei.com/?p=117logistic regression是统计学习中经典的分类算法，属于对数线性模型。回归模型：给定一个数据集合(x1,y1)(x2,y2)...(xn,yn)，有监督学习构建模型，学习过程就是模型参数θ的学习过程。作为discrimination algorithm，对 P(Y|X;θ )建模，

2012-06-01 10:55:52 14921

原创 [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis）

from: http://www.hxxiaopei.com/?p=71读了著名的【Google News Personalization Scalable Online CF】，提及到针对用户聚类，利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi，产生了对plsi的兴趣。plsi是model-based 推荐算法，属于topic(aspect) mo

2012-05-30 21:09:43 68151 2

转载推荐引擎：从搜索到发现

搜索是你明确地知道自己要找什么东西时所做的事情，而发现是你并不明确地知道一些好东西存于世上的时候，这些东西主动找到了你。以“发现”为主要功能的网站正如雨后春笋般在互联网上崭露头角。许多公司推出了能够帮助消费者找到新网站、新唱片或者新朋友的推荐功能——不管想要什么，去互联网上都可以发现那些你闻所未闻却又注定会一见钟情的东西。这种功能并不是互联网时代的专利。早在互联网出现之前，

2012-04-08 20:02:51 6376

原创阅读resyschina推荐引擎文章感受三

21.兴趣图谱和社交图谱的结合，利用社交数据信息，进行推荐，可以解决冷启动问题22.基于历史浏览数据和用户反馈数据的分析和计算是互联网新闻、网络广告等领域新商业模式的23.关联推荐，属于公共行为的推荐，和稳定的群体兴趣有关系，一个人的兴趣相对来讲是稳定的24.无觅网，相当于提供一个推荐引擎，各个网站均可接入，扩大网站的流量，浏览器推荐引擎也是这个样子，通过第三方方式，将互联网的web关

2012-03-19 14:41:21 7309

原创阅读resyschina推荐引擎文章感受二

11.推荐引擎需要有反馈机制，最简单是CTR，如果有YES/NO的反馈更好12.了解用户关注那些主题哪些人，打开哪些链接，转过什么内容来了解用户兴趣13.item CF的优点，可以基于用户的每一次行为进行推荐，比如网页/视频，可以推荐相关的，而user CF更多的是首页推荐，第二个优点，可解释性强。容易导致多样性不足，而user CF主要是基于用户喜好，而用户喜好是多样的，多样性会好一点

2012-03-15 11:52:27 8523

原创阅读resyschina推荐引擎文章感受一

1.推荐目的在于帮助用户做决策，买到更合适的东西，而促销的目的在于销售商品2.推荐帮助用户找到感兴趣但是没有想到的东西serendipity，惊喜3.首页上位置对系统的结果有重大影响，4.推荐系统和搜索的区别在于，推荐系统不需要用户进行搜索，但是需要获取用户行为5.推荐的重点转移到信息的挖掘和利用上面，比如听音乐的时间，专辑，艺术家、类别，更多的强调context信息，用户家庭，时

2012-03-13 11:13:19 8563

原创【输入法技术】模型选择

影响输入法体验的原因有很多，整体来看，我理解有两个，一个是候选词的质量，另一个是整体的交互设计。候选词质量高，意味着用户输入拼音后，用户期望的结果可以放在第一位置，提高输入速度如果细分一下，有3类情况：1.输入句子(长/短)，比如，今天真是个好天气2.输入词，比如今天/天气/我们等3.其他情况，比如：英文、人名我们碰到的问题，focus在1,2上面，可以把2归在1上面，

2012-03-04 18:25:55 1738

原创输入法技术

做了2年的输入法，从无到有，一手辛辛苦苦的搞起来，虽然目前用户规模不大，不过从技术上来讲，趟过无数雷，自我感觉针对输入法的基本技术还是有一定的了解，当然还有很多自己搞不定的问题，接下来share一下自己的一些心得，希望有经验的朋友指正，也让大家了解一下输入法是什么。具体会按照下面几个部分方向来写：1.模型训练，包括模型选择、pruning等技术，也包括语料选取以及评价方法2.模型存储以

2012-03-02 12:24:32 1992 2

原创【推荐系统】评价

推荐系统的评价方法很重要，准确提供用户的需求，尽量全的cover item，看长尾理论，目前长尾市场极具商业价值，而具体实现其价值的方法，主要依赖推荐系统。具体方式1.准确度推荐系统最常用的方式针对评分预测系统，最小误差或者均方误差针对Top-N推荐系统，recall and precision2.覆盖度推荐系统很重要任务就是解决长尾问题，能打多大比例的

2012-03-02 11:33:53 2204 2

原创 [推荐系统]分类

参照xlvector的博士论文，分类方式有二1.基于数据的分类2.基于模型的分类目前商业上使用较广泛的，是基于数据的分类的一些算法，主要包括：1.协同过滤仅仅利用用户的行为信息，基于用户的历史兴趣进行推荐，包括itemCF， userCF。2.基于内容的过滤利用用户兴趣和item之间的相似度，基于Data内容上的相似性进行推荐，比如电影的导演、主演等

2012-03-02 11:30:51 2658

原创记录一下近几年工作的一些心得

入职几年，先做了1年多的搜索相关项目，比如相关搜索、智能导航等，又做了2年多输入法，都算是从头搞到尾，也碰到很多问题，现在回过头来想想，应该把这个过程记录下来，对自己有帮助，也可以帮助后来的同学

2012-02-29 16:00:54 1171

原创排序之线性排序(counting sort, radix-sort, bucket-sort)

Counting SortCount sort的约束是：排序key可用有限的k描述出来。Count sort有约束的情况下，O(n)的复杂度，stable排序。空间复杂度也为O(n)Counting-Sort(A, B, k) For i Do C[i] For j Do C[A[j]] For I Do C[i] For j

2010-11-15 13:27:00 2344

1、google面试题：（1）一个数组存放了2n+1个整数，其中有n个数出现了2次，1个数出现了1次，找出出现1次的数是多少？（可能不少人遇到过，但是当时我是第一次遇到，我把我的经过给大家讲一遍） A. 由于想在最短时间内解决，我首先想到最简单的办法，使用映射统计的办法，借助辅助数组（长度为n+1，元素为一结构体（包含数值和个数两个成员））进行计数，但是时间复杂度为O(n*n)，空间复杂度为O(n+1)，面试官让我改进。 B. 接着我在纸

2010-11-14 19:03:00 1220

原创设计模式开放封闭原则 OCP

设计模式，开放封闭原则 OCP

2010-09-24 08:51:00 1047

原创设计模式单一职责原则SRP

设计模式单一职责原则 SRP

2010-09-23 23:35:00 1130

原创堆的实现，提供 min_heap and max_heap功能

主要完成维护一个min-heap or max-heap，如果push的个数超过heap的大小，则进行替换，依赖于compare函数。其中min-heap需要定义 return a b在空间不够的情况下，min-heap保留最大的k个元素，max-heap相反。code:templateclass LessThan{ public: bool operator()(const Type& first, const Type& second) { re

2010-09-16 07:34:00 3123

原创 Markov HMM ME MEMM 整体的一些看法

1.Markov假设有限历史以及平稳。有限历史指的是和有限的历史相关平稳指的是两个状态的关系和时间无关。 2.HMM 给定观察序列{O1,O2,O3...}，每个观察Oi对应隐状态序列{S1,S2....Sn}。 HMM解决三个问题： 1.计算观察序列的概率利用forward算法即可 2.跟定观察序列，计算出对应概率最大的隐状态序列 Viterbi算法，提供O(N*N*T)的复杂度 3.给定观察序列以及状态集合，估计参数 A(状态转移矩阵) B(发射概率) EM算法，

2010-09-01 07:59:00 2250

原创 Expectation Maximization(EM) algorithm

ML可以进行参数估计L(a) = Pr(X|a)，则a = argmax L(a) = argmaxPr(X|a) 求解时，如果 X与参数(model)关系比较简单，比如X直接由高斯分布， bonuli 分布等产生，这种情况下，给定 model 以及相应的观察数据，来估计 model 的参数 a 时，比较简单，直接可以计算 P(X|a) ，最大化后求出 a 值。但是如果input和Output之间没有必然的联系，也就是说无法直接计算p(X|a)时，就需要EM算法，EM是用来计算ML的一种算法框架

2010-08-31 06:53:00 1853

转载 Bloom Filter概念和原理

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。集合表示和元素查询 下面我

2010-08-26 13:09:00 558

原创 Maximum likelihood estimate

似然估计P(Sample|Model) 已知样本Sample和假定模型Model，模型中有待定参数，P(Sample|Model, α)。最大似然估计：在给定的model下，找到α，保证P(Sample|Model)的概率最大，也就是最有可能是该Model产生的。 case1: n次独立实验，事件A发生了k次，则事件A发生的概率p是多少。 Model=柏松分布，则服从泊松分布的情况下，事件A发生k次的概率，为P(S|Model,p)= (n,k)*p^k * (1-p)^(n-k) max-l

2010-08-24 14:30:00 1639

原创信息论[渐进均分性]

None

2010-08-22 08:44:00 2929

原创 FSM

FSM 1.acceptor & transducer Acceptors :Input是否被FSM接收 produce a binary output, saying either yes or no to answer whether the input is accepted by the machine or not. All states of the FSM are said to be either accepting or not accepting

2010-07-23 09:03:00 970

原创 jordan公式和的使用

n个人将帽子混合在一起，随机取一个，至少一个人取对的概率 m和观众，随机走进n个会场，每个会场至少有一个观众的概率。 事件Ai发生的概率，最后求p(A1 U A2....UAn)

2010-07-23 07:35:00 6094

原创面试记录

1.HMM，互信息 2.特征选择 3.分类算法，最大熵以及优点 4.C++基础 5.N个数字中选取最大的k，单机和并行处理 6.N个字符串，取出包含字母完全相同的字符串 7.利用辅助结构，O(1)时间获取栈中剩余元素的最大值。 还有就是项目了。

2010-07-08 09:53:00 624

原创矩阵概念

1.singular matrix 奇异矩阵 奇异矩阵的判断方法：首先，看这个矩阵是不是方阵（即行数和列数相等的矩阵。若行数和列数不相等，那就谈不上奇异矩阵和非奇异矩阵）。然后，再看此方阵的行列式|A|是否等于0，若等于0，称矩阵A为奇异矩阵；若不等于0，称矩阵A为非奇异矩阵。同时，由|A|≠0可知矩阵A可逆，这样可以得出另外一个重要结论:可逆矩阵就是非奇异矩阵，非奇异矩阵也是可逆矩 阵。 2.行列式 |A|,计算规则查阅。高阶的用低阶的描述<br /

2010-07-07 08:27:00 980

原创 language model perplexity计算

在lm中需要计算模型在test data的Perplexity， pp = 10^(log(prop)/word); 其中 prop为所有sentence的概率的乘积，word为词的数目

2010-06-28 08:06:00 3554

原创似然比

2010-06-26 09:52:00 5520

原创标准概率分布

概率分布就是对随机变量的描述，也就是说在随机变量取什么值的时候，概率是多少。1。离散分布二项分布，伯努利分布b(r,n,p)=（n,r）p^r * (1-p)^(n -r)，其中(n, r) = (n!)/((n-r)!r!)n次独立实验中，成功的次数为r的概率，其中p表示成功的概率其中r为随机变量

2010-06-26 09:37:00 776

page rank 介绍

空空如也