lee's work-CSDN博客

原创 Chapter 9.3 项目练习-下载image

9.3　项目实战：下载360图片下面来完成一个使用ImagesPipeline下载图片的实战项目。360图片是一个知名的图片搜索网站，在浏览器中打开http://image.so.com，页面如图9.3-1所示。图9.3-1 其中，汽车分类下有大量字画图片，我们可以编写爬虫爬取这些图片。其中，汽车分类下有大量字画图片，我们可以编写爬虫爬取这些图片。![图9.3-2](https://img-blog.csdnimg.cn/882a8e1ae5eb49ee81edeca815cec180.p

2021-11-28 14:24:00 211 1

原创 Charpter9 下载文件和图片

第9章下载文件和图片下载文件也是实际应用中很常见的一种需求，例如使用爬虫爬取网站中的图片、视频、WORD文档、PDF文件、压缩包等。本章来学习在Scrapy中如何下载文件和图片。9.1　FilesPipeline和ImagesPipeline Scrapy框架内部提供了两个Item Pipeline，专门用于下载文件和图片：FilesPipelineImagesPipeline 可将这两个Item Pipeline看作特殊的下载器，用户使用时只需要通过item的一个特殊

2021-11-23 20:25:24 640

原创第8章 scrapy项目练习

第8章项目练习在一本书的页面中可以获取以下信息：●　书名√●　价格√●　评价等级√●　书籍简介●　产品编码√●　产品类型●　税价●　库存量√●　评价数量√8.1　项目需求爬取http://books.toscrape.com网站中的书籍信息。（1）其中每一本书的信息包括：　书名　价格　评价等级　产品编码　库存量　评价数量（2）将爬取的结果保存到csv文件中。8.2　页面分析页面分析工具：Chrome开发者工具常用的工具： scrapy shell 命令

2021-11-16 09:57:53 663

原创 chapter7 使用Exporter导出数据

第7章使用Exporter导出数据之前章节的学习了Scrapy中爬取数据、封装数据、处理数据的相关技术，本章学习如何将爬取到的数据以某种数据格式保存到文件中，即导出数据。在Scrapy中，负责导出数据的组件被称为Exporter（导出器），Scrapy内部实现了多个Exporter，每个Exporter实现一种数据格式的导出，支持的数据格式如下（括号中为相应的Exporter）：（1）JSON (JsonItemExporter)（2）JSON lines (JsonLinesItemE

2021-11-10 15:59:09 1282

原创 Chapter6 使用LinkExtractor提取链接

第6章使用LinkExtractor提取链接在爬取一个网站时，想要爬取的数据通常分布在多个页面中，每个页面包含一部分数据以及到其他页面的链接，提取页面中数据的方法大家已经掌握，提取链接有使用Selector和使用LinkExtractor两种方法。本章来学习如何提取页面中的链接。1．使用Selector 因为链接也是页面中的数据，所以可以使用与提取数据相同的方法进行提取，在提取少量（几个）链接或提取规则比较简单时，使用Selector就足够了。2．使用LinkExtractor

2021-11-09 10:33:35 966

原创 scrapy 使用mongo连接数据库的三种方法

scrapy 使用mongoDB的三种方法（1）硬编码pipelines.pyfrom scrapy.item import Itemimport pymongo #提前用pip安装class MongoDBPipeline(object): DB_URI = 'mongodb://localhost:27017/' #直接将DB_URI，DB_NAME 写下具体的内容，随后在setting中配置 DB_NAME = 'scrapy_data' def open_spider(self, s

2021-11-03 11:01:02 1034

原创 chapter 5 使用Item Pipeline处理数据

第5章使用Item Pipeline处理数据在之前的章节中，我们学习了提取数据以及封装数据的方法，这一章来学习如何对爬取到的数据进行处理。在Scrapy中，Item Pipeline是处理数据的组件，一个Item Pipeline就是一个包含特定接口的类，通常只负责一种功能的数据处理，在一个项目中可以同时启用多个ItemPipeline，它们按指定次序级联起来，形成一条数据处理流水线。以下是Item Pipeline的几种典型应用：●　清洗数据。●　验证数据的有效性。●　过滤掉重复

2021-11-01 23:58:26 408

原创 chapter 4 使用Item封装数据

第4章使用Item封装数据在第3章中，我们学习了从页面中提取数据的方法，本章来学习如何封装爬取到的数据。以爬取某图书网站的书籍信息为例，对于网站中的每一本书可以提取出书名、价格、作者、出版社、出版时间等多个信息字段。应该用怎样的数据结构来维护这些零散的信息字段呢？最容易想到是使用Python字典（dict）。为了让代码变得：（1）代码可读（2）字段检查（3）携带元数据在Scrapy中可以使用自定义的...

2021-11-01 11:43:10 223

原创 Chapter3.4/3.5 scrapy-css选择器及本章小结

3.4　CSS选择器 CSS即层叠样式表，其选择器是一种用来确定HTML文档中某部分位置的语言。 CSS选择器的语法比XPath更简单一些，但功能不如XPath强大。实际上，当我们调用Selector对象的CSS方法时，在其内部会使用Python库cssselect将CSS选择器表达式翻译成XPath表达式，然后调用Selector对象的XPATH方法。表3-2列出了CSS选择器的一些基本语法。表3-2　CSS选择器表达式描述例子

2021-10-29 16:13:44 152

原创 Chapter3.3 xpath内容整理

文章目录3.3 XPath3.3.1　基础语法3.3 XPath XPath即XML路径语言（XML Path Language），它是一种用来确定xml文档中某部分位置的语言。 xml文档（html属于xml）是由一系列节点构成的树，例如：<html> <body> <div > <p>Hello world<p> <a href="/home">Click here</a> </

2021-10-28 15:57:22 64

原创 2021-04-21

显卡配置略低 965，借鉴各类博客配置了conda3三种环境1.python3.9.4 尝试使用jupyter 嵌入扩展插件用于数据分析与可视化2.python3.7 内置tensorflow 2.0 avx编译版，测试有效3.tensor1.6 gpu ，python3.6.3环境，亲测有效，可以运行tensorflow4.tensor 1.7 cuda9.1不支持，不可使用gpu...

2021-04-21 14:01:05 62