- 博客(0)
- 资源 (3)
- 收藏
- 关注
用Python写网络爬虫不是扫描版pdf高清
作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。
《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。
《用Python写网络爬虫》介绍了如下内容:
通过跟踪链接来爬取网站;
使用lxml从页面中抽取数据;
构建线程爬虫来并行爬取页面;
将下载的内容进行缓存,以降低带宽消耗;
解析依赖于JavaScript的网站;
与表单和会话进行交互;
解决受保护页面的验证码问题;
对AJAX调用进行逆向工程;
使用Scrapy创建高级爬虫。
本书读者对象
本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。
2018-08-20
算法第四版已经ocr
Robert Sedgewick 斯坦福大学博士,导师为Donald E. Knuth,从1985年开始一直担任普林斯顿大学计算机科学系教授,曾任该系主任,也是Adobe Systems公司董事会成员,曾在Xerox PARC、国防分析研究所(Institute for Defense Analyses)和法国国家信息与自动化研究所(INRIA)从事研究工作。他的研究方向包括解析组合学、数据结构和算法的分析与设计、程序可视化等。
Kevin Wayne 康奈尔大学博士,普林斯顿大学计算机科学系高级讲师,研究方向包括算法的设计、分析和实现,特别是图和离散优化。
2018-08-15
数据结构c++ 清华邓俊辉 里面有习题 完整版
第1章 绪论
1.1 计算机与算法
1.2 复杂度度量
1.3 复杂度分析
1.4*递归
1.5 抽象数据类型
第2章 向量
2.1 从数组到向量
2.2 接口
2.3 构造与析构
2.4 动态空间管理
2.5 常规向量
2.6 有序向量
2.7*排序与下界
2.8 排序器
第3章 列表
3.1 从向量到列表
3.2 接口
3.3 列表
3.4 有序列表
3.5 排序器
第4章 栈与队列
4.1 栈
4.2 栈与递归
4.3 栈的典型应用
4.4*试探回溯法
4.5 队列
4.6 队列应用
第5章 二叉树
5.1 二叉树及其表示
5.2 编码树
5.3 二叉树的实现
5.4 遍历
5.5 Huffmann 编码
第6章 图
6.1 概述
6.2 抽象数据类型
6.3 邻接矩阵
6.4 邻接表
6.5 图遍历算法概述
6.6 广度优先搜索
6.7 深度优先搜索
6.8 拓扑排序
6.9*双连通域分解
6.10 优先级搜索
6.11 最小支撑树
6.12 最短路径
第7章 搜索树
7.1 查找
7.2 二叉搜索树
7.3 平衡二叉搜索树
7.4 AVL 树
第8章 高级搜索树 高级搜索树
8.1 伸展树
8.2 B—树
8.3*红黑树
8.4*kd—树
第9章 词典
9.1 词典 ADTADTADT
9.2*跳转表
9.3 散列表
9.4*散列应用
第10章 优先级队列
10.1 优先级队列 ADT
10.2 堆
10.3*左式堆
第11章 串
11.1 串及匹配
11.2 蛮力算法
11.3 KMP算法
11.4*BM 算法
11.5*Karp—Rabin算法
第12章 排序
12.1 快速排序
12.2*选取与中位数
12.3*希尔排序
附录
参考文献
插图索引
表格索引
算法索引
代码索引
关键词索引
2018-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人