自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(0)
  • 资源 (35)
  • 收藏
  • 关注

空空如也

nes音乐提取nsf工具包,转换wav MP3.rar

注意事项: 程序右键属性 里面的兼容性要设置成 windows xp以前的版本才可以工作正常 windows 2000 和windows 98都可以

2020-08-20

A COMMENTARY ON THE SIXTH EDITION UNIX OPERATING SYSTEM

A COMMENTARY ON THE SIXTH EDITION UNIX OPERATING SYSTEM J. Lions. Department of Computer Science The University of New South Wales

2009-10-30

《点集拓扑学》 pdf 熊金城

《点集拓扑学》 pdf 熊金城 著 《点集拓扑学》 pdf 熊金城 著

2009-10-07

拓扑学奇趣.pdf В.Г.巴尔佳斯基 В.А.叶弗来莫维契著 裘光明译

[General Information] 书名=拓扑学奇趣 作者=[俄]В.Г.巴尔佳斯基 В.А.叶弗来莫维契著裘光明译责任编辑: 页数=182 SS号=10340521 出版日期=

2009-10-07

严蔚敏:数据结构题集(C语言版).pdf

严蔚敏:数据结构题集(C语言版).pdf

2009-10-07

英文版Practical.programing.c.pdf

英文版Practical.programing.c.pdf

2009-10-07

C语言程序设计之《南开一百题无错版》

全国计算机等级考试 三级C语言程序设计上机考试习题集(2004年版) 南开100题 【终极无错2.0版】 2004年11月11日 修订者:李蓝

2009-09-26

王爽老师《汇编语言》教材.pdf

只要是看过王爽老师的这本《汇编语言》教材后的人,如果他还说这是本垃圾书的话,那我很难相信他是个正常人[如果不是记不住英文字母的第二个字母是什么的话,我一定会用最粗俗的言语、最流行的骂法来形容这类人]。事实证明,此书确实是好评如潮。如果你认为本人是为此书做广告或对本人的说法仍持怀疑态度,那你大可去网上搜索关于此书的资料,从而让事实来说服你自己。

2009-09-26

一种可扩展的高效链接提取模型的实现和验证_苏杭_北京大学学士论文

随着WWW(World Wide Web)越来越广泛的发展与应用,搜索引擎已经成为人们从中查找信息的重要工具;在搜索引擎的系统实现中,如何通过链接提取发现更多更广的Web资源又是影响搜索引擎性能的重要因素之一。 本文总结了设计链接提取模块所要求的“容错性”、“正确性”、“全面性”、“高效性”和“可扩展性”等五个目标,并从这些角度去分析传统的链接提取方法的不足,并作为改进,提出了一种新的设计思路。 本文将链接提取的过程划分为信息提取,信息加工,信息分析以及信息储存四个过程来进行研究。信息的获取通过HTML文法分析方法从文档中得到初始URI(Uniform Resource Indetifier)数据;信息加工阶段通过运用URI解析算法对初始数据进行精练;然后在信息分析过程中进一步地筛选与过滤;最后将结果存储在一个双链表结构中。 基于上述方法,本文实现了一个新的链接提取模型,并将该模型运用于北京大学天网WWW搜索引擎;在获得足够的实验数据之后,全面的比较了这种新的链接提取模式与传统方法在各项指标上的优劣。结果表明该模型有明显的优势。

2009-07-08

Web数据模型以及获取、存储方法研究_北京大学硕士论文

Web上信息就像一条河流,从我们身边不停流过。已经有很多人认识到这些信息的价值,从而展开了对Web信息多方面的研究。本文阐述的内容就是基于这些研究,并希望能够对他人的相关工作带来方便。文章围绕的中心是Web数据的高效获取与存储,为此也专门研究了信息在Web上大量重复出现的现象和原因。 本文的主要内容包括: (1) 有关Web信息状况的一些统计数据,结合一些Web的基本概念,这些数据让读者对Web宏观上能有一些具体的认识。这是理解本文其他部分的基础, (2) 提出了同义主机的概念。在Web上有很多不同的域名代表着相同的主机,负责获取网页的系统如果不知道这种信息,就会重复的获取这台主机上的网页。这样导致网络资源和机器资源的浪费,并且对相应的Web服务器也造成额外负担,本文通过分析IP地址与域名的关系,总结出哪些主机名有同义关系,从而避免了网页的重复获取;另外,对于消除Web上存在的重复或相似的网页,本文提出了多种算法,一一进行评测,并选择最好的用于实际的网页消重中。 (3) 本文还具体的讨论了Web数据获取系统的设计目标,并给出了计算系统效率的方法。然后参照这些设计目标,比较了两种具体的收集系统结构。 (4) 同时,论文还基于Web InfoMall的目标,给出了一种海量网页存储系统的设计方案以及实现的种种考虑。

2009-07-08

面向主题的中文搜索引擎的设计与实现_陈静_北京大学硕士论文

WWW网络的迅猛增长使得搜索引擎面临了前所未有的挑战,搜索引擎如何适应这种规模的急剧膨胀,成为一个备受关注的问题。面向主题搜索引擎可以有选择性的抓取与主题相关的网页。选取的对象是一个或一组事先预定义的主题,其特征由样本网页标志,而不是关键词。一般性的搜索引擎总是抓取尽量多的网页以满足所有可能的查询请求;而主题搜索被设计为只抓取与选定主题相关的网页。这不仅能够大大减少系统对硬件和网络资源的需求,而且还有助于提高抓取的准确率和搜索结果的更新速度。 本文首先对比通用搜索引擎与主题搜索引擎的区别,总结主题搜索引擎的优点;然后介绍目前世界上主题搜索引擎技术的发展状况。接着,综述了面向主题中文搜索引擎的设计,详细介绍涉及该领域的三个核心技术:文档分类技术、中文处理技术和网页搜集预测技术。对于以上三种技术,我们在简述已知算法的基础上,都阐述了具体系统的实现方案。其中中文切词问题作为工作的重点,在文章中有比较详尽的介绍,包括中文处理的背景知识,中文切词软件的基本原理和中文切词词典的改进。

2009-07-08

搜索引擎的日志分析:方法、技术和应用_单松巍_北京大学硕士论文

论 文 摘 要 本文首先介绍了Internet及WWW的迅速发展状况,分析了Internet信息资源的特点。在介绍已有的搜索引擎之后,分析了这些搜索引擎的特点。 随后,本文对“天网”搜索引擎系统进行了介绍,给出了该系统的总体结构、技术特征,并分析了该系统的性能。 然后,文章介绍了“天网”系统中的信息统计子系统。信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。

2009-07-08

海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文

论 文 摘 要 本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。 搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。 最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。

2009-07-08

一个大规模、高性能的搜索引擎系统—北京大学硕士研究生学位论文

本文首先回顾了WWW的起源和发展。面对极其大量的信息,人们通常依靠搜索引擎来为他们在WWW上进行导航,这给搜索引擎技术带来了巨大的挑战。自1994年问世以来,搜索引擎的发展经历了四代。我们对每一代搜索引擎及其特色进行了简要的陈述。 搜索引擎是一个集多种技术于一体的综合性系统。在本文的第二章,我们就搜索引擎涉及到的某些核心背景技术,如搜索技术、IR技术、超文本链分析技术、用户行为分析技术,进行了讨论,并说明了这些技术对搜索引擎发展的影响和作用。 “天网”是国家“九五”攻关项目中的一个子专题。在借鉴和参考大量国内外相关研究的同时,根据中国WWW的特点,我们设计了一个大规模、高性能的搜索引擎系统。在第三章,我们根据WWW的特点和搜索引擎的功能,根据图论、集合论及关系模型构建了“天网”搜索引擎的理论模型,并且以理论模型为出发点,设计了整个系统的体系结构。 在文章的主体部分,我们以搜索引擎中数据流程为主线,描述了搜索引擎的几个子系统:搜集子系统、分析子系统、索引子系统、检索子系统以及用户界面和日志挖掘子系统。在这些章节中,特别强调“天网”所采用的相关技术和关键算法:分布式并行搜集技术、启发式搜集策略、镜像消除技术、中英文特征项提取技术、高效索引技术、词典更新技术、超链分析技术、快速检索技术、相关度评价策略、Hash排序算法、Cache策略、中文词汇学习技术和用户行为分析技术。 最后,我们简要的介绍了系统的实现和性能,并对“天网”系统提出了一些今后的发展设想。

2009-07-08

文档自动分类技术及其在搜索引擎中应用的研究_北京大学硕士论文

本文首先介绍了Internet的发展状况,指出Internet是一个庞大、杂乱、瞬息万变的信息源泉,仅仅依靠网页上的超文本链用户是无法方便、快捷地找到自己所需的信息的,提供WWW信息导航服务的搜索引擎是解决这个问题的一个途径。在介绍了传统的Spider式搜索引擎和基于人工分类的目录式搜索引擎的特点并对它们作了比较之后,指出支持分类目录是Spider式搜索引擎发展的趋势,而应用文档自动分类领域的研究对收集的网页自动分类,实现对分类目录的支持是一种可行的方法。然后,本文介绍了天网搜索引擎的现状,分析了它的特点,说明要进一步发展天网系统,应当采用文档自动分类技术支持分类目录。 接下来,本文介绍了文档自动分类的意义和算法的分类,然后分别介绍了m-ary分类系统和Independent Binary分类系统常用的算法和各个算法的特点,接着介绍了从m-ary分类系统转换到Binary Independent分类系统常用的三种算法以及这两种分类系统的性能评价指标,然后分析了特征项选取对分类系统的影响,介绍了常用的五种特征项选取的方法。 结合现有的天网搜索引擎,本文提出了天网系统支持分类目录的设计方案,详细介绍了自动分类系统的实现,说明了分类系统选用的分类算法的是KNN算法,选用的评价特征项重要性的指标是CHI统计量,选用的转换算法是Scut算法,然后讨论了自动分类系统在实现过程中遇到的问题以及解决的办法:1 使用两个文件描述分类目录,用Begin——End结构表示类之间的层次结构;2 通过限制文档向量最大分量的值显著地提高了系统分类的性能指标;3 使用稀疏矩阵在程序中表示文档向量,极大地缩短了分类响应时间,节省了占用的内存空间。在说明了分类系统使用的分类目录、训练集和测试集之后,本文给出了系统的测试数据。 最后,本文详细介绍了将自动分类系统集成在现有的天网系统中的方法,讨论了对天网系统各个子系统的改造。

2009-07-08

中英文发现系统的转接层子系统、索引子系统的设计与实现_雷鸣_北京大学硕士论文

中国于1994年进入INTERNET,之后INTERNET在中国得到了迅速的发展,中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的,它们或支持中文的能力很差,或根本不支持中文。个别支持中文搜索的搜索引擎,它们的数据库中所包含的中文信息的数量十分小,搜索的结果非常不理想。对于日益增长的中国INTERNET来说,实现一个具有大量中文信息数据库,能够良好支持中文检索的搜索引擎已是一种迫切的需求。 本论文所描述的系统即是作者参与设计和实现的一个支持中文的搜索引擎。它即支持对中文,英文的简单检索,又支持逻辑运算,模糊匹配等高级检索。它通过对中文的分词,实现了对在中文词汇一级检索的支持;通过对中文,英文的编码,实现了对中文,英文系统核心实现的一致化;通过两级索引机制和索引项的特殊设计,实现了检索的快速命中。 论文首先介绍了系统设计和实现的一些背景资料,介绍了WWW的发展于现状,世界主要搜索引擎及其比较,中文的特点与搜索引擎对中文的支持。之后,描述了系统的整体设计,详细介绍了转接层子系统和索引数据库子系统的设计。

2009-07-08

基于文本的Web图片搜索引擎的研究-北京大学硕士研究生学位论文

硕士研究生学位论文 题目:基于文本的Web图片搜索引擎的研究 姓 名: 王鹏云 学 号: 10108093 系 别: 计算机科学技术系 专 业: 计算机应用 研究方向: 网络与通讯 导 师: 宋再生 教授 二零零四年五月

2009-07-08

第三代搜索引擎与天网

北京大学学报(自然科学版) &)国家“九五”重点科技攻关项目 &)和国家“’"!”支持项目 第三代搜索引擎与天网 雷鸣王建勇赵江华单松巍陈葆珏 (北京大学计算机科学技术系) 摘要论述了三代搜索引擎的发展,着重介绍了第三代搜索引擎的体系结构,详细讨论了该搜索 引擎的几个核心技术———大规模搜集技术、超链分析技术和用户行为分析技术。介绍了作者参与研 发的第三代搜索引擎———“天网”的研究进展,并指出了搜索引擎未来几个研究的热点方向。 关键词CCC;搜索引擎;信息检索;超链分析;用户行为分析

2009-07-08

海量web搜索引擎系统中用户行为的分布特征及其启示

统计了大规模搜索引擎用户行为的分布模式特征

2009-07-08

“天网”中的并行与分布

“天网”中的并行与分布处理* 赵江华 闫宏飞 王建勇 李晓明 北京大学计算机科学技术系网络与分布式系统实验室 北京 100871 {zhaojh,yhf,lxm}@net.cs.pku.edu.cn 摘 要 本文介绍了“天网”搜索引擎系统2.0版本中所采用的分布并行处理系统结构和关键技术,主要包括搜集子系统和查询子系统两个部分。通过对设计、模拟、实现和实际运行评测等相关过程的描述,展现了系统在性能、负载平衡和扩展性等方面的性质和特点。 关键词 WWW,搜索引擎,信息检索,分布式系统,并行处理 Parallel and Distributed Processing in WebGather ZHAO Jianghua YAN Hongfei WANG Jianyong LI Xiaoming Networking & Distributed Computer Systems Laboratory Department of Computer Science and Technology, Peking University, Beijing 100871 {zhaojh, yhf, lxm}@net.cs.pku.edu.cn Abstract This paper presents parallel and distributed architectures and key technologies employed in crawling subsystem and retrieving subsystem of WebGather search engine version 2.0. Characteristics of the system, in terms of performance, load balance and scalability, are shown through design, simulation, implementation, and actual running measurement. Keywords WWW, search engine, information retrieving, distributed system, parallel processing

2009-07-08

搜索引擎的索引技术:INDEX TECHNIQUES

索引技术:INDEX TECHNIQUES 马秀娟 软件工程研究所 2009.04.21 课程大纲 谷歌的背后是啥? 搜索引擎示意 DOCUMENT COLLECTION USER INFORMATION NEED HOW TO DO IT? DOCUMENT REPRESENTATION Bag of words model Document-term incidence matrix(关联矩阵)

2009-07-08

网络编程概述及ASP与数据库设计幻灯片

网络编程概述及ASP与数据库设计幻灯片ppt格式 很好,不看后悔

2009-07-08

树的概念 与 遍历算法 ppt

树的概念 与 遍历算法 ppt-很好的幻灯片

2009-07-08

4U.M2TS.Converter.rar

转换sony高清MTS格式到avi,mpeg,wmv等等等等……的软件

2009-07-08

文本挖掘 – 信息提取 ppt

Text Mining (1) 文本本来是给人读的,不是计算机 大多数信息以文本形式存储 100 times as much online text as online DBs HTML网页是带有结构标记的文本(带来机会和挑战) 数据挖掘操作的是数据表 (i.e. numbers, fixed fields, adherence to data models).

2009-07-08

在基本IR模型之上的一些技术

VSM回顾 查询扩展(query expansion) Generalized Vector Space Model (GVSM) 最大边界相关法(Maximal Marginal Relevance) Summarization as Passage Retrieval(基于片段提取的文献综述)

2009-07-08

网页链接分析算法的研究进展

介绍了网页链接分析算法的研究的方法和进展情况

2009-07-08

计算机故障速查手册.pdf

计算机故障速查手册.pdf 计算机故障速查手册.pdf

2009-06-17

eyou_邮件系统使用维护说明书

文章详细描述:eyou_邮件系统使用维护说明书 pdf格式

2009-06-17

天网搜索引擎的数据结构

文章详细讲述了北京大学天网搜索引擎的数据结构

2009-06-17

正则表达式之道(A Tao of Regular Expressions)

正则表达式之道(A Tao of Regular Expressions).

2009-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除