znsw-CSDN博客

原创 IT24-7

We are excited to introduce “The Server Unleashed” ad campaign featuring Windows Server 2008 personified as a robot delivering super-human reliability, stability, management and security. Just as Wi

2008-05-19 13:10:00 451

原创 Query level ranking learning

首先介绍一下一堆符号d为文档，q为查询，s为某个查询返回的文档集中的文档的分数，pi为通过分数排序后的序x为训练样例，这里面x=f(q,d)，将qd对作为一个样例。Query Level的loss function1）基于qd对的 lf，（每个对+一个这个对的评价）作为训练样例，这种方法最直接2）基于文档序列对的lf，将排序问题转换为二值分类问题，这种方法最易实现3）基于查询级别的lf，将每个

2008-04-29 14:21:00 371

原创 VSS( visual source safe 2005 ) Internet Access Configuration

VSTS虽好但对机器的要求太高，VSS2005支持Internet Access足以满足我现阶段的需求，但没想到设置会这么麻烦。 1. 我安装的VSS2005是VSTS for Dev里面的。 2. 配置IIS and 注册ASP.NET V2.0 (aspnet_regiis -i, 64位的机器如何配置请参考MSDN上面那篇文章，链接在文后) 3. 那么在VSS Administrator中建

2008-04-29 13:55:00 635

原创微软 vs2008 sample 项目总结--Start

微软vs2008 sample项目就要结束了，还差我的最后一个华容道的code review。呵呵，今天开始回顾并总结一下整个的项目进程。项目发布在 http://code.msdn.microsoft.com/PRCVS2008Samples大概在9月份的时候，那时我的研究生生活刚刚开始。谢老师（一个微软的mvp，老板的左膀右臂之一）给我打电话，说接了一个微软的项目，为vs2008做一个samp

2008-04-29 08:47:00 532

转载理解矩阵2

接着理解矩阵。上一篇里说“矩阵是运动的描述”，到现在为止，好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念，在数学和物理里是跟微积分联系在一起的。我们学习微积分的时候，总会有人照本宣科地告诉你，初等数学是研究常量的数学，是研究静态的数学，高等数学是变量的数学，是研究运动的数学。大家口口相传，差不多人人都知道这句话。但是真知道这句话说的是什么意思的人，好像也不

2007-12-11 14:42:00 484

原创 s04e08 Back

The past is never truely behind us, ghosts lerk in shadow eager to remind us the choices we make, but if we look back, we might find a old friends with open-arms or an old enemy with a hidden agenda o

2007-12-08 18:21:00 328

原创 s04e06 Thoughts

There was much to be afraid in the world,but what we feared was nothing to do with horror masks or plastic spiders or life-like monsters.No.Its the thought in our head we terrified the most.what if s

2007-12-08 18:20:00 358

原创 Deception

Deception, you find it in all the best homes. Parents reling it when dealing with inquisitive children, women use it to keep secrets big and small, loves need it to cover up inconvenient accident. Why

2007-12-08 18:20:00 396

转载 ftp工作模式

FTP两种工作模式：主动模式（Active FTP）和被动模式（Passive FTP）在主动模式下，FTP客户端随机开启一个大于1024的端口N向服务器的21号端口发起连接，然后开放N+1号端口进行监听，并向服务器发出PORT N+1命令。服务器接收到命令后，会用其本地的FTP数据端口（通常是20）来连接客户端指定的端口N+1，进行数据传输。在被动模式下，FTP库户端随机开启一

2007-12-08 18:19:00 384

原创上课还是自学？

作为学生，上课本是常理之事，可现在开的课，确实让我很无奈。周一的形式语言与自动机太无聊，因为本来就没学过编译原理，所以想在这节课上好好补一补，没想到，老师就只在黑板上“咣咣”猛写，不管下面的死活，上课听不懂这简直就是对人精神上的摧残啊。刚才听师姐说那帮去的人（包括女生）竟然是为了看一位坐在第一排的mm，因为视力太差了，这种眼福也没了。。。周三（忘了周几了）的政治课太前卫了，

2007-12-08 18:18:00 421

原创 Prank

大家总说这个prank，我今天也研究了一番，找了这篇经典的《Pranking with Ranking》Koby Crammer and Yoram Singer，看了一下午终于看明白了通俗讲，就是通过分割一条直线，弄出N个格子，利用感知机建立基础模型，通过感知机输出来确定样例在哪个格子里面，通过训练数据来训练感知机，具体的方法和普通的机器学习方法好像一样（这个方向错了，就往反方向来点）

2007-12-08 18:15:00 632

原创关于研究方法的疑惑

文本挖掘和数据挖掘是不同的，数据挖掘仅仅是对简单的大量数据进行操作，发现关联相似度。文本挖掘所面对的数据是人类创造的文本，是人类智慧的结晶，是利用了有限的词汇所构造的千变万化的东西（想一想为什么会有诺贝尔文学奖），文本所带有的信息量并不是简简单单的用一些tfidf就能描述的。文本是利用词作为载体，利用不同的词和位置顺序来表达人类思想。但是现在的文本挖掘仍然利用原始的数据挖掘的方法来抽取简单的特征，

2007-12-08 18:14:00 484

原创随机数与人工智能

我一直钟爱“随机数”，因为我认为只有计算机产生真正的随机数，我们才能真正实现人工智能。计算机的软件和硬件无非是一些规则的体现，而这些规则是完完全全确定的。所以我们不能指望着我们的机器能够给我带来多大的惊喜，它只能给我们带来人类自己思路的一种有限的扩展、一种已知集合闭包内的关系。我认为现在的计算机与人类或是生物最本质的区别就是计算机不能产生真正的随机数，也就是说计算机不能产生不可预知的结

2007-12-08 18:13:00 555 1

原创本科论文工作总结与新的想法

本科毕业论文的主题为“自动问答系统”，现在谈一下什么叫自动问答系统和从自动问答系统所引出的理论、技术思考。自动问答系统的对外暴露的特征是以自然语言为提问方式，输出准确的答案。它的实质是语言建模、信息检索、答案抽取。从自动问答系统的整个运行流程上看1，首先语言建模首先会对用户的问题进行建模，使机器理解用户的提问文本2，通过语言模型和信息检索，将与语言模型有关的文档返回。3，从相关

2007-12-08 18:12:00 557

原创 co-training

大致意思就是利用2个视角训练出来2个分类器，然后对未标注数据进行分类，每个里面得到最确定的一些交给对方的分类器去训练（要利用条件概率和联合概率）。重复上面的过程，知道2个分类器达到一致利用两个分类器来互相影响，来泛化分类器

2007-12-08 18:10:00 519

原创半监督学习

大概过程：首先将样例分为labeled样例和unlabeled样例，然后通过labeled样例来训练model，通过model的自身的某种约束来将自身的关系传递给unlabeled，这时unlabeled的样例就具有了某些标签，可以将其作为labeled数据看待，然后利用带有model关系的labeled数据训练model，重复这个过程。半监督学习的大概过程如上，但具体到某一个应用还有具体

2007-12-08 18:09:00 859

原创 Transductive

Step1. 首先对有标签样本进行一次初始学习,得到一个初始分类器,并按照某个规则指定一个无标签样本中的正标签样本数N. Step2. 用初始分类器对无标签样本进行分类,根据对每一个无标签样本的判别函数输出,对输出值最大的 N 个无标签样本暂时赋正标签值,其余的赋负标签值 Step3. 对所有样本重新训练,对新得到的分类器,按一定的规则交换一对标签值不同的测试样本的标签符号,使得优化问

2007-12-08 18:08:00 449

原创机器学习之评估假设

评估假设这一章其实只是机器学习的一个外层实验方法的一种描述，并不触及到机器学习的核心。因为机器学习是想通过有限的样例来训练出一个较为通用的model，而这有限的样例是否能够代表全体样例空间呢？通过这有限的样例训练的model能否具有通用性呢？评估假设就是通过统计理论来讨论这件事情。评估假设介绍了有限样本、假设、学习算法之间的好坏等等与真实之间的关系，这些关系通过概率理论中的置信区间来描

2007-12-08 18:06:00 469

原创写论文的悲哀

今天听完师兄的开题报告，深有感触，不是因为其的精妙，而是如暴风骤雨般的批评与不屑。而这样的场面又何止出在这位师兄上，几乎每一位既是看论文的疑问者又是写论文的被问者。在我儿时的记忆里，论文是高深的代名词，爷爷出的书是我那时的仰慕。不想我现在也是一流学府的研究生了，哈哈，原来论文是这么回事，是个升迁的依仗、交差的载体、浮躁时代的产物。论文的悲哀在于人们赋予了它太多的使命，以至于千篇一律，

2007-12-08 18:04:00 259

原创排序学习

排序学习问题和机器学习中的分类学习和回归学习有着密切的联系，但是排序学习又有自己的特点。分类学习的输出空间是离散且无序的集合，如二值分类问题的输出空间为{+1，-1} ，其中+1 和-1只是代表不同的类别，并没有区分其大小；回归学习的输出空间为实数集合或者实数轴的一段，其中包含了无穷个元素，并且元素之间定义了序和度量。排序学习介于分类学习和回归学习之间，与分类学习相比，排序学习的输出空间虽然也

2007-12-08 17:59:00 244