- 博客(0)
- 资源 (13)
- 收藏
- 关注
一个可以定制的爬虫
本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。</br>
如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。</br>
配置文件采用ini的格式.</br>
spider_config.ini蜘蛛的配置</br>
1. maxThreads 爬虫的线程数</br>
2. startURL 爬虫开始的URL</br>
3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配)</br>
4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配)</br>
sucker_config.ini 网页分析器的配置</br>
1. maxThreads 分析器的线程数</br>
2. pattern parser匹配的正则表达式</br>
3. parser 指定对应pattern的分析器</br>
本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉python。写好后运行compile编译承pyc就可以了
2007-04-06
Linux源码分析(ptrace)
Ptrace 提供了一种父进程可以控制子进程运行,并可以检查和改变它的核心image。它主要用于实现断点调试。一个被跟踪的进程运行中,直到发生一个信号。则进程被中止,并且通知其父进程。在进程中止的状态下,进程的内存空间可以被读写。父进程还可以使子进程继续执行,并选择是否是否忽略引起中止的信号。
2007-03-27
Linux网络设备分析
在本文中,首先概括了网络设备总体特征和工作原理,接着在分析了一个重要的数据结构device后,重点剖析了网络设备的整个初始化工作过程;简单地分析了设备的打开和关闭的操作后,是有关数据包的传输和接收的分析;在最后,本文对写网络设备驱动程序做了一个总结。以上的每部分的分析,都是在NE2000以太网卡的基础上进行的。在附录中是一个虚拟的字符设备驱动程序以及写这个程序的体会,该程序已成功使用过,它是在网络设备分析之前本人做的一个小小的试验。
2007-03-27
WinCVS 安装配置指南
WinCVS 是CVS 的一个客户端软件,它运行在Windows 平台上,采用图形化方式登录CVS 服务器,进行CVS 相关的操作与管理,不需要学习复杂的CVS 命令
2007-02-07
Linux入门教程
Red Hat在某种意义上几乎成了Linux的代名词 2001年4月16日Red Hat公司正式推出了Red Hat Linux 7.1版做为Red Hat Linux的忠实用户第一时间就在自己的爱机上安装了一套.在此将我的心得汇成本文希望能够帮助你驾驭它
2007-02-07
SAMS-Linux_Programming_Unleashed_Second_Edition
Linux英文原版图书系列 .SAMS-Linux_Programming_Unleashed_Second_Edition.pdf
2007-02-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人