- 博客(2)
- 资源 (6)
- 收藏
- 关注
小旋风垂直搜索平台,快速拱建垂直搜索引擎
小旋风垂直搜索平台 源代码共享计划
小旋风是什么?
小旋风是一款集多任务、多线程智能网络爬虫、基于xml / xpath的路径规则的数据抽取系统、无缝集成lucene.net2.3全文索引系统,高性能中文分词组件、多数据库支持的综合垂直搜索引擎平台。
它帮您快速搭建任何一个您期望中的垂直搜索平台,比如酷讯(kuxun.cn),比如去哪儿,比如搜职网,比如爱帮网等等。
为什么小旋风是客户端,它是基于什么平台开发的?
从程序使用的方便性及性能上考虑,我们为发挥客户端强大的权限优势,为您提供一个最容易上手的平台。
小旋风是基于微软下一代面向对象的开发语言C# 2.0开发,您使用前请确保您的系统安装了.net framework2.0。
小旋风上手困难吗?一般的采集程序都要求使用者了解正则表达式?
正则表达式定制规则存在几点问题。一是正则表达式对普通用户而言门槛太高。二是正则表达式的规则太难维护,源网站只要有一点点的变更,可能导致模板要重新更换。
我们从设计之初就重视并解决这个问题,采用国际标准的xml/xpath路径描述语言,在我们的系统,html自动转换为标准的xml文档。然后使用类似html/title这样的路径来指向我们需要采集的内容。
什么人需要小旋风?
如果您需要批量采集数据上,并且在数据变化时能够同步更新。
如果您是高校信息检索相关的研究生,正为搜索引擎相关论文发愁。
如果您希望搭建一个垂直搜索引擎
如果您喜欢c#,小旋风也将是一个不错的商业程序案例。
如果您…
作者联系方式:
Qq: 86820609
Email / msn: jerry_weijb@163.com
2008-12-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人