AlwaysBeFriday-CSDN博客

原创 pyppeteer-配置及常见问题

官方文档https://miyakogi.github.io/pyppeteer/reference.html读取 option # options是dict类型, 初始化时使用 await launch(self.options)options 选项 # 是否忽略https错误，默认为False ignoreHTTPSErrors ...

2019-12-06 10:41:04 1494

原创 pyppeteer-安装及简单命令

官方文档https://miyakogi.github.io/pyppeteer/reference.html安装# 需要 pyppeteer.chromium_downloaderpip install websockets==7.0# 默认安装driver路径C:\Users\xxx\AppData\Local\pyppeteer\pyppeteer\local-chromi...

2019-12-06 10:36:31 1683

原创 python 01- 路径和init.py文件

1.__init__.py文件 __init__.py文件标识该目录是一个python的包，会被python识别为model package，可导入其模块和函数当直接导入一个包，会执行__init__.py文件 __init__.py文件也可用于定义函数或声明变量，当前包内的其他模块可使用from . import variable，variable即在__init...

2019-09-17 13:57:59 1084

原创分布式爬虫 02-爬虫管理

scrapy是一个成熟的框架，便于编写，易于扩展。但本身并不支持分布式，可使用scrapy-redis组件进行分布式抓取，简单的说，利用redis作为任务队列，scrapy作为worker，多个worker从一个队列中获取任务，进行抓取，解析，清洗，并入库。但多个worker往往分布在各个服务器上，不便于统一管理以及监控。此时可以使用scrapyd，进行简单的管理。如果采用...

2019-09-06 11:36:52 160

原创 RabbitMQ 01-基本操作

安装配置 yum安装erlang，然后安装rabbitmq-server 配置配置文件路径：/etc/rabbitmq/rabbitmq.config 配置内容：允许外部访问，设置{loopback_users, []}，默认为guest，如需要外部访问，配置此项日志文件路径：/var/log/rabbitmq/ 启动 systemctl start rab...

2019-07-23 15:08:17 122

原创 Git 03-Gogs

安装配置 https://blog.csdn.net/hwm_life/article/details/82969005 配置问题域名：ip，不带port 访问端口，默认3000，如需要修改需要修改gogs配置文件启动 ./gogs web，前台启动 nohup ./gogs web，后台启动使用 git init，git add ，git comm...

2019-07-22 15:31:21 76

原创 Git 02-git私有仓库

github私有库在github上申请团队库开源免费，私有付费 git私有库：在服务器中搭建私有仓库服务端安装，开启git服务建立git用户，设置密码初始化仓库：git -bare init 或使用git init，但需要修改：.git/config，添加[receive] denyCurrentBranch=ignore 如果为常用地...

2019-07-22 15:28:40 177

原创 Git 01-git基本操作

git init，目录初始化 git init 在一个文件目录下使用 git pull ，拉仓库到本地，必须在仓库文件中使用，如果不是git仓库，初始化：git init git pull http://192.168.10.123:3000/test01/test_resp01 master git pull origin master 没有建立远程连接，使用仓库的u...

2019-07-22 15:00:50 133

原创分布式爬虫 02-爬虫管理

scrapy是一个成熟的框架，便于编写，易于扩展。但本身并不支持分布式，可使用scrapy-redis组件进行分布式抓取，简单的说，利用redis作为任务队列，scrapy作为worker，多个worker从一个队列中获取任务，进行抓取，解析，清洗，并入库。但多个worker往往分布在各个服务器上，不便于统一管理以及监控。此时可以使用scrapyd，进行简单的管理。如果采用...

2019-06-05 00:13:19 512

原创关于代理 01-综述

为什么需要代理之所以使用代理，可能是因为：1.加速访问速度；2.隐藏主机真实ip简单的说，网络通信需要ip地址，ip地址提供主机在网络中的位置，而公共网络ip地址具有唯一性。ip可以理解为主机的门牌号，要保证网络信息的快递顺利送达，必须保证门牌号的唯一性。而就因为是具有唯一性的，所以直接访问对方站点，对方会被明确的告知(写在请求头中)源地址。网络爬虫往往并不能告知对方自己的ip，因为站...

2019-04-14 13:03:29 98

原创分布式爬虫 01-综述

分布式爬虫爬虫，即模拟网络请求，获得目标页面数据的一种方式。简单的爬虫，比如单线程爬虫，一个爬虫处理所有内容：拿到任务，发起请求，处理反爬，解析内容，入库。但效率低下，为了加快速度，可以使用多线程，多进程爬虫，相当于多个爬虫，每个爬虫除了任务可能不同，其他的过程从请求到入库全部一样。速度可以较大幅度的获得提升，但速度提升是有限的。并且这种单个线程或进程进行的一条龙式的运行，本身并不是最合理...

2019-03-16 16:40:22 147

原创 docker 01-快速部署redis

一般情况下，linux环境安装redis，需要编译安装，配置，启动服务等步骤，需要一点时间，而使用docker进行redis部署，迅速简洁，过程也较为间单。首先使用docker搜索redis[root@192]# docker search redisNAME DESCRIPTION ...

2019-03-16 15:56:08 410

原创 mysql 01-整数类型

1.类型选择根据mysql手册，MySQL支持的整数类型所需的存储和范围：类型存储（字节）最小值签名最小值无符号最大值签名最大值无符号 TINYINT 1 -128 0 127 255 SMALLINT 2 -32768 0 32767 65535 MEDIUMINT 3...

2019-03-16 14:58:27 1172

weixin_42130135的博客

原创 pyppeteer-配置及常见问题

原创 pyppeteer-安装及简单命令

原创 python 01- 路径和init.py文件

原创分布式爬虫 02-爬虫管理

原创 RabbitMQ 01-基本操作

原创 Git 03-Gogs

原创 Git 02-git私有仓库

原创 Git 01-git基本操作

原创分布式爬虫 02-爬虫管理

原创关于代理 01-综述

原创分布式爬虫 01-综述

原创 docker 01-快速部署redis

原创 mysql 01-整数类型

空空如也

空空如也