Cehae-CSDN博客

原创 idea、pycharm、datagrip2023版全家桶安装+激活+性能优化

win11环境以idea2023最新版本为例教大家安装激活并优化性能

2024-04-02 22:35:46 2582

原创爬虫实战八、爬虫程序防封策略配置

通俗来说， robots.txt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。本人不保证内容的正确性。读者可将本文提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本人及相关权利人的合法权利。在前几天的爬虫实践中，由于防封措施做得不好，被豆 * 封了，必须登录才能打开豆 * 的网站，但是我又不想登录，所以今天做了一些防封的配置供大家参考。

2024-04-08 11:20:52 2043

原创爬虫实战七、使用Scrapyd部署Scrapy爬虫到远程服务器

在部署项目之前要保证scrapyd服务开启。在http://node100:6800/jobs 中查看任务，也可以查询Log日志。调度爬虫需要使用curl，以下命令可以在dos窗口对应的项目目录下执行，打开 http://node100:6800/ 查看。###4-2、移除远程服务器上面部署的爬虫工程。也可以在PyCharm中的命令行执行。###4-1、查看远端服务器上面的爬虫。进入本地爬虫工程的目录，任务执行完毕，查看数据。###4-3、启动爬虫。###4-4、取消爬虫。#一、准备好爬虫程序。

2024-04-08 11:19:59 145

原创爬虫实战六、Scrapy爬虫部署工具Scrapyd服务搭建

scrapyd是一个用于部署和运行scrapy爬虫的程序，它允许你通过JSON API来部署爬虫项目和控制爬虫运行。scrapyd可以管理多个项目，并且每个项目允许有多个版本，但是只有最新的版本会被用来运行爬虫。最方便的版本管理就是利用VCS工具来记录你的爬虫代码，版本比较不是简单的通过字母排序，而是通过智能的算法，和一样，例如: r10比r９更大。scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们。

2024-04-07 14:37:03 1839

原创爬虫实战五、Scrapy生产环境（CentOS7+Anaconda3）搭建

如果没看到让你输入的地方，并且末行显示–More–，可以按Z键翻页，或者按Q跳到最后。Anaconda3-5.0.1-Linux-x86_64下载完毕上传至Linux自定义的安装目录中。使用conda安装其他包，此处以pymysql为例，安装其他包大同小异。安装成功后，在python命令行再次测试，未报错代表成功。在python命令行下面验证，没有报错代表安装成功。是否将安装目录配置到PATH中，输入yes即可。更新依赖包，输入yes。更新依赖包，输入yes。测试，如下图安装成功。发现并无scrapy。

2024-04-07 14:35:57 340

原创爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL

的基础（PyCharm配置完Scrapy）之上，选中mySpider项目，点击PyCharm中下方的Terminal，进入对应的命令行，执行命令创建doubanSpider项目。点击File-> Settings->Project: mySpider->Project Interpreter，导入pymysql包。连接MySQL的工具有很多，Pycharm本身也可以连接MySQL和其他多种数据库，并且提示功能比较强大，这里我使用Pycharm连接MySQL数据库。设置连接别名，主机，数据库，用户名，密码。

2024-04-03 14:43:08 545

原创爬虫实战三、PyCharm搭建Scrapy开发调试环境

点击File-> Settings->Project: mySpider->Project Interpreter。注意：如果有多个Python版本，为防止冲突可以选择第一个虚拟环境，此处我只有一个环境，选择配置系统解释器。一般情况下Anaconda已经安装了很多类库，我们只需安装scrapy即可。注意此截图已经配置好完毕，如果没有Project Interpreter，点击下图红框处添加。###2-2、配置Project Interpreter。解释器安装完毕，点击右下方的+号，查询包。

2024-04-03 14:20:17 739 1

原创爬虫实战一、Scrapy开发环境（Win10+Anaconda3）搭建

Scrapy开发环境搭建

2024-04-02 23:14:48 711

Cehae的博客