自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 KMP算法的学习心得

今天看了半天的KMP算法,算法看完后不是很难,但是觉得,为什么knute能想到,我为什么想不到呢,所以把ouKMP算法琢磨了半天,首先应该想到的有:我们必须利用曾经得到的信息。当模式匹配时,主字符串并不需要回指针,而只需要将模式的往右移动,但问题是,往右移动距离怎么算,这其实不难想到,当模式的第j个字符与主串中的第i个字符不等时,我们得到的数据有前j-1个,可以充分利用这个信息。假设往右移

2008-05-21 01:00:00 664

原创 KMP算法的学习心得

今天看了半天的KMP算法,算法看完后不是很难,但是觉得,为什么knute能想到,我为什么想不到呢,所以把ouKMP算法琢磨了半天,首先应该想到的有:我们必须利用曾经得到的信息。当模式匹配时,主字符串并不需要回指针,而只需要将模式的往右移动,但问题是,往右移动距离怎么算,这其实不难想到,当模式的第j个字符与主串中的第i个字符不等时,我们得到的数据有前j-1个,可以充分利用这个信息。假设往右移

2008-05-21 01:00:00 579

转载 C#中的interface,abstract和virtual(转)

interface用来声明接口1.只提供一些方法规约,不提供方法主体.  如:public interface IPerson{    void getName();//不包含方法主体}2.方法不能用public abstract等修饰,无字段变量,无构造函数。3.方法可包含参数。  如    public interface IPerson  {    void getAge(string s)

2007-11-03 20:21:00 2701

转载 c#编程规范以及好习惯

C# 编码规范和编程好习惯-->静夜思转移翻译:杨贺宏谁都会写代码!几个月的编程经验可以让你写出“可运行应用程序”。让它可运行容易,但是以最有效率的方式编码就需要下更多的功夫!要知道,大多数程序员在写”可运行代码,“而不是”高效代码“。我们在这个指南课程前面提到,你想成为你们公司”最尊贵的专业人员“吗?写”高效代码“是一项艺术,你必须学习和实践它。命名惯例和规范注记 : P

2007-11-02 23:40:00 643

原创 ICTCLAS

ICTCLAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,该版的Free版开放了源代码,为初学者提供了宝贵的学习材料。我们可以在“http://sewm.pku.edu.cn/QA/”找到FreeICTCLASLinux.tar的C++代码。可是目前该版本的ICTCLAS并没有提供完善的文档,所以阅读起来有一定的难度,所幸网上可以找到一些对ICTCLAS进行代码分

2007-10-29 20:49:00 1584 1

原创 调用dll vc++(转自msdn)

   在本演练中,您将创建一个动态链接库 (DLL),其中包含可供其他应用程序使用的有用例程。使用 DLL 是一种重用代码的绝佳方式。您不必在自己创建的每个程序中重新实现这些例程,而只需对这些例程编写一次,然后从需要该功能的应用程序引用它们即可。本演练使用本机 C++。有关使用本机 C++ 创建静态库的演练,请参见演练:创建和使用静态库。有关使用面向公

2007-10-29 20:05:00 1215 2

原创 多线程c#

心路 执子之手,与子偕老。

2007-10-23 12:58:00 1397

原创 通过代理服务器验证后在抓取网页内容

 C#用HttpWebRequest通过代理服务器验证后抓取网页内容 。。。。。 string urlStr = "http://www.domain.com";                            //設定要獲取的地址HttpWebRequest hwr = (HttpWebRequest)HttpWebRequest.Create(urlStr);    //建立

2007-10-23 12:46:00 1095

原创 c#多线程抓取网页内容(转)

 蜘蛛/爬虫程序的多线程控制(C#语言)      在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的:1.       分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作(C#语言)》中已经介绍了爬虫程序的两个步骤:分析和下载。在单线程的程序中,两者是无法同时进行

2007-10-23 12:44:00 5931 1

转载 c# html2txt(转载)

using System;public class Html2Text{    public static void Main(string[] args)    {        if (args.Length  1)        {            Console.WriteLine("usage: Htm2Txt xxxx.htm [target.txt]");        }  

2007-10-22 15:34:00 1407

转载 htm2txt c#源代码(转载)

 using System;public class Html2Text{    public static void Main(string[] args)    {        if (args.Length  1)        {            Console.WriteLine("usage: Htm2Txt xxxx.htm [target.txt]");        } 

2007-10-22 15:12:00 639

转载 (转)加速sql查询的特征函数法

http://www.chinaitlab.com/www/news/article_show.asp?id=1455    1. 查询问题的挑战                                                                关系数据库的查询优化始终是一个重要而实际的问题,在那些以查询为主的应用系统中,   这几乎是一个成败攸关的问题。但迄今为止,关

2007-10-13 21:00:00 863

转载 lucene.net的一些基本使用方法和概念

<!--google_ad_client = "pub-8908527459010687";google_ad_width = 728;google_ad_height = 90;google_ad_format = "728x90_as";google_ad_type = "text_image";google_ad_channel = "";google

2007-10-10 20:47:00 738

转载 数学之美 系列八– 贾里尼克的故事和现代语言处理

数学之美 系列八-- 贾里尼克的故事和现代语言处理2006年6月8日 上午 09:15:00uT("time114968814161581622");发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他

2007-09-28 16:57:00 565

原创 数学之美 系列七 – 信息论在信息处理中的应用

数学之美 系列七 -- 信息论在信息处理中的应用2006年5月25日 上午 07:56:00uT("time114822338683782989");发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,

2007-09-28 16:56:00 631

原创 数学之美 系列六 – 图论和网络爬虫 (Web Crawlers)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日 上午 07:15:00uT("time114733040963327560");发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互

2007-09-28 16:55:00 518

转载 数学之美 系列五 – 简单之美:布尔代数和搜索引擎的索引

数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引2006年5月10日 上午 09:10:00uT("time114722733511630150");发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名)

2007-09-28 16:54:00 461

原创 数学之美 系列四 – 怎样度量信息?

数学之美系列 4 -- 怎样度量信息?2006年4月26日 上午 08:11:00uT("time114601014752665451");发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少

2007-09-28 16:52:00 467

原创 数学之美 系列三 – 隐含马尔可夫模型在语言处理中的应用

 数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00uT("time114523190259377514");发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不

2007-09-28 16:51:00 479

原创 数学之美系列2(转载)谈谈中文分词

 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是最简单的分词办法就是查字典。这种方法最早

2007-09-28 16:50:00 413

转载 数学之美系列一(转载)

数学之美 系列一 -- 统计语言模型2006年4月3日 上午 08:15:00uT("time114399197227125143");从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它

2007-09-28 16:47:00 411

原创 spider

通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。  为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是:  1、发送HttpRequest请求。  2、接收HttpResponse返回的

2007-09-25 00:16:00 461

原创 c#编写spider

 "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛程序到底是怎样工作的呢?  蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上

2007-09-25 00:08:00 1277 1

原创 webrequest and webresponse(转载)

Determining Whether the Device Is ConnectedMost network applications need to know whether the device is currently connected to the network. A well-designed mobile application allows the user to

2007-09-23 18:34:00 1035

算法导论英文版(introduction to algorithm)

很经典的书籍,英文版,chm格式,MIT出版社

2008-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除