jr1261181988-CSDN博客

原创基石7 VCbound

只要成长函数露出曙光、资料量够多，就能确保Ein和Eout接近一线曙光的意义是什么？跟VC维度有关如果成长函数mH(N)在某个k的地方露出了一线曙光的话，就会被某个上线函数bound，上线函数又会被k-1次方的多项式bound住当N、k够大的时候，N^k-1次方已经比上限大很多。所以简单的把成长函数写成N^k-1,可以把成长函数，带换成上限的上限的上限，mH的上限bound...

2019-01-22 11:23:14 395

原创机器学习基石（6）

希望m最终能取代M（假设集大小）到底m会不会涨的很慢？假设的数量不会太多？如果长得很慢，能不能取代掉原来的M？mH成长函数：到底这个假设集，在N个点上，到底能产生多少种dichotomies？如果是positive rays，在N=2时候就露出破绽，不能产生那种情形如果是positive interval，在N=3露出破绽，有一些做不出来如果是convex set，没有丝毫...

2019-01-21 22:10:40 157

原创机器学习基石（5）

Eout能够确定是足够接近Ein吗？我们能让Ein足够小吗？ M：假设集。M到底有多大，跟这两个问题有什么关系？M比较小的时候，两者就很接近。但演算法选择就有限。M很大的时候，演算法就有很多选择。但坏处在于坏事情发生的机率增加了，演算法多，选的数据集容易踩到雷所以M必须适中。不仅Ein要接近0，而且Eout才是test集，test才要接近0；那么回到这两个问题...

2019-01-19 13:15:57 238

原创机器学习基石-机器学习所做不到的

天下没有白吃的午餐如果给机器data，机器学，那在资料以外没有任何办法保证结果除非有一些假设。如果坚持f是不知道，那data之外，一定没有把握取样样本够大的时候，真实值和取样的结果相差很小比如丢铜板，比如打电话做民意调查。给定u（sample），十个样本中v小于0.1的概率是多少？那N=10，参数等于0.3，代入就可以求解。假设有一个固定的h在手上，每一个...

2019-01-17 22:47:45 242

原创机器学习基石笔记01

是非题，如何用电脑来解？给定使用者，银行判断是否要给他信用卡。使用者有很多个维度，年龄，薪水，工作年限，债务等，把维度综合起来给他一个分数，超过门限就给信用卡，否则不给信用卡，x=(x1,x2,x3,...,xd)w=(w1,w2,w3,...,wd)h(x)=sign(wixi-门限)=sign(wixi+(-门限)*(+1))=sign(wixi+w0*x0),（令x0为1...

2019-01-14 23:39:31 243

原创《数学之美》读书笔记（十）（十一）

搜索结果的排名：取决于两组信息：关于网页的质量信息，和每个网页的相关性信息pagerank算法：在互联网上，如果一个网页被很多其他网页所连接，说明他受到普遍的认同和信赖，那么它的排名就高，这就是核心思想。对不同网页的链接区别对待，因为排名高的网页链接更可靠。于是要给这些链接更大的权重。权重具体是多少？取决于这些网页本身的排名？鸡生蛋还是蛋生鸡？把这个问题看成

2017-01-24 20:31:47 258

原创《数学之美》读书笔记（六）（七）（八）（九）

信息的度量和作用信息熵条件熵互信息相对熵贾里尼克布尔代数和搜索引擎二进制的布尔代数索引：搜索引擎为什么可以在如此短的时间内找如此巨量的内容？建立索引。每个网站就像图书馆里的一本书，我们不可能在图书馆书架上一本一本找，而是要通过搜索卡片找到他的位置。最简单的索引是用一个很长的二进制数表示一个关键字是否出现在一篇文献中；有多少篇文献，

2017-01-24 10:24:53 239

原创《数学之美》读书笔记（五）

隐含马尔科夫模型典型的通信系统：发送者发送信息，采用一种能够在媒体中传播的信号，比如语音或者电话线的调制信号，这个过程是广义的编码；然后通过媒体传播到接受方，这个过程是信道传输。在接受方，接收者根据事先约定好的方法，将这些信号还原成发送者的信息。这个过程是广义上的解码。用S1，S2，S3...代表信息源发出的信号，用O1，O2，O3...代表接收器收到的信号。解码就是根据

2017-01-23 09:17:29 308

原创《数学之美》读书笔记（四）

关于分词统计语言模型方法进行分词最好的一种分词方法应该保证分完词后这个句子出现的概率最大；如果穷举所有可能的分词方法并计算每种可能性下句子的概率，计算量相当大。可以看成动态规划问题Dynamic Programming，并利用维特比Viterbi解码算法快速找到最佳分词。孙茂松教授的贡献：解决了没有词典时的分词吴德凯教授：将中文分词方法用于英文词组的分割，并且将

2017-01-22 16:03:53 338

原创《数学之美》阅读笔记（一）（二）（三）

一：今后各章节讨论的重点：通信的原理和信息传播的模型信源编码和最短编码解码的规则，语法聚类校验位双语对照文本，语料库和机器翻译多义性和利用上下文消除歧义性二：自然语言处理从基于规则到基于统计三：统计语言模型用数学的方法描述语言规律：一个句子是否合理，看他的可能性大小如何。至于可能性就用概率来衡量。假定S描述一个有意义的句子，w1，

2017-01-22 10:40:05 378

原创对2011年王山雨《面向产品领域的细粒度情感分析技术》的理解概括

第二章：进行情感词词典扩展。第三章：采用条件随机场模型和最大熵模型在产品属性抽取任务中进行比较分析；第四章：产品属性跨领域移植的方法。第二章：文本情感资源建设扩展现有极性词典常用的词语相似度计算方法：1、基于语料库统计的方法2、基于语义词典的方法3.基于网络资源。 1.基于词语相似度计算扩展词典点互信息PMI： x，y不相关时，

2017-01-20 20:10:17 705

原创加州理工机器学习与数据挖掘（一）

第一讲：一个例子：预测一个观看者将如何评价一个电影一家出租电影的公司将对这个问题感兴趣。如果一家公司想提升内部系统性能？的百分之10，他在你登陆的时候会推荐一些他们认为你们可能会喜欢的电影因为他觉得你会对这些电影评价很高所以他们创建一个系统，并希望能够改善他。10百分之的改善有多大帮助呢？一百万，很多的意思。简单说就是这个工作有意义。比如财务预测时候的应用。

2017-01-19 09:24:33 834

原创 Towards Scalable Emotion Classification in Microblog Based on Noisy Training Data

Towards Scalable Emotion Classification in Microblog Based on Noisy Training Data基于噪声训练数据的在微博上的可扩展情感分类原文见附件目的：用自然标注的数据丰富训练集。构建了一个框架：先用高质量（人工标注）的数据，训练分类器，判断想要利用的自然标注的数据，所带的标签是否符合要求（制定了

2017-01-18 21:43:13 274

jr1261181988的博客