自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

La.vvv

比你优秀的人往往比你更努力

  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

原创 mysql命令总结

查看有哪些数据库show databases 使用数据库use database 查看当前数据库select database() 创建数据库craeate database 数据库名 charset=utf8 删除数据库drop database 数据名创建表create table table_name( id int unsigned ,...

2018-08-18 21:50:31 155

原创 关于scrapy流程的总结分析

自己总结的一些分析,可能比较散乱,凑合看下,有遗漏的请指教以爬虫为起点: 1.爬虫提取start_url(列表或元组)的地址, 组装成request对象,给爬虫中间件,然后发送给引擎 由引擎传递给调度器 2.调度器从请求队列中提取request发送给引擎, request通过引擎传递下载器中间件,再给下载器 3.下载器通过发送request,获得响应,响应再通过下...

2018-08-17 16:12:05 535 1

转载 ASCII、unicode和UTF-8的起源

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为”字节”。再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为”计算机”。开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们...

2018-08-19 17:11:58 245

原创 关于代理ip检测

整理了一些方法,可以参考下。 1.retrying模块使用demoimport requestsfrom retrying import retryheaders = {}@retry(stop_max_attempt_number=3) #最大重试3次,3次全部报错,才会报错def parse_url(url) response = requests.get(url...

2018-08-19 17:02:21 2184

转载 关于GIL的一些理解总结

GIL全局解释器锁(cpython) 一个线程运行python,而其他N个睡眠或者等待I/O (即保证同一时刻只有一个线程对共享资源进行存取) Python线程也可以等待threading.lock或者线程模块中的其他同步对象,线程处于这种状态也称之为“睡眠”。线程如何切换?协同式多任务处理: 就是线程睡眠或等待网络I/O ,其他线程有机会获取GIL执行代码,礼貌的运行方式,它允许...

2018-08-18 16:04:27 482

原创 HTTP与HTTPS请求

网络爬虫工作过程可以理解为模拟浏览器操作的过程,浏览器的主要功能是向服务器发出请求,在浏览器窗口中展示服务器返回的网络资源。一、浏览器处理网页的过程: 1.在浏览器输入URL地址,浏览器先通过DNS服务器查找URL的域名对应的IP地址。2.浏览器会向IP地址对应的web服务器发送HTTP请求,去获取该IP所对应的的html文件,Web服务器响应请求,将html文件发送回给浏览器3.浏...

2018-08-18 15:38:56 953

原创 正则表达式小结

RE模块的操作:Regular Expression (描述某种规则) Match object (匹配对象) result = re.match (正则表达式,要匹配的字符串) match方法返回匹配对象,否则返回None.(注意不是空字符串“”) 匹配对象Macth Object具有group方法,用来返回匹配对象。匹配单个字符 字符 功能. 匹配任意 1 个字符(除了\...

2018-08-18 12:23:44 144

原创 网络编程小知识点

1.网络分层 (1)链路层——链路层(通过广播找到对应网卡,会引起广播风暴,优化出现了网络层)mac地址(理论上全球唯一)》》》》网卡(设备)(2)网络层——网络层(通过ip地址划分不同的子网,避免广播风暴)ip地址》》》》电脑(主机)ip分为ipv4 跟ipv6(ivp4公网用完了,现实用的是子网) (3)传输层——传输层端口》》》》网络程序(进程)每一个使用网卡的程...

2018-08-18 12:11:14 135

原创 通过Fiddler进行手机抓包

通过Fiddler进行手机抓包 通过Fiddler抓包工具,可以抓取手机的网络通信,但前提是手机和电脑处于同一局域网内(WI-FI或热点),然后进行以下设置:1.用Fiddler对Android应用进行抓包 2在Connections里设置允许连接远程计算机,确认后重新启动Fiddler 1.在命令提示符下输入ipconfig查看本机IP 2.打开Android设备的“设置...

2018-08-18 11:50:55 2471

原创 反爬以及解决思路

常见的反爬手段和解决思路明确反反爬的主要思路 反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,不清楚哪些有用,哪些没用的情况下,只能够...

2018-08-18 11:26:40 465

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除