昼将歌-CSDN博客

原创爬虫的浏览器伪装

常见的反爬虫机制： 1）分析headers信息 2）判断同一个IP是否在短时间内频繁访问对应网站进行分析 3）通过动态网页增加爬虫爬取的难度，达到反爬虫的目的 User-Agent: Fiddler/5.0.20182.28034 (.NET 4.7.1; WinNT 10.0.17134.0; zh-CN; 4xAMD64; Auto Update; Full Instance; Extensi...

2018-10-22 21:41:44 79

原创 Fiddler（后续会补充）

1）Fiddler是一种常见的抓包分析软件，我们利用它可以详细地对HTTP请求分析，并模拟对应的HTTP请求。 2）网络爬虫是自动爬取网页的程序，在爬取的过程中必然涉及客户端与服务器端的通信，自然需要发送一些HTTP的请求，并接收服务器返回的结果。在一些稍微复杂的网络请求中，我们直接看网址变化是看不出规律的，所以我们需要使用工具截获这些请求，对于这些请求进行分析，这个过程使用抓包软件配合进行则会更...

2018-10-20 10:31:47 132

原创菜菜之正则表达式

正则表达式就是描述字符串排列的一套规则。（re模块）基础知识 1、原子原子是正则表达式最基本的组成单位，每个正则表达式中至少包含一个原子。原子的种类：普通字符、非打印字符（如换行符）、通用字符、原子表（1）普通字符作为原子 import re pattern=&amp;amp;quot;yue&amp;amp;quot; string=&amp;amp;quot;http://yum.qianyue.com&amp;am

2018-10-08 11:30:33 114

原创菜菜之Urllib&URLErr

网络爬虫分为四类： PS：文末附常用打开文件的模式列表、以及python如何在代码中换行的几种方式通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 Urllib库：使用urllib.request进行操作爬取百度。注：读取文件常见的有三种方式： file.read()读取文件的全部内容，把读取的内容赋给一个字符串变量。 file.readlines（）读取文件的全部内容，读...

2018-09-25 17:36:59 178

原创关于数据和人工智能之间的框架联系

2018-09-24 11:31:10 152

转载 Python os库的使用

Python os库的使用路径操作 os.path子库以path为入口，用于操作和处理文件路 13个函数需要了解 os.path.abspath(path) 返回path在当前系统中的绝对路径 os.path.normpath(path) 归一化path的表示形式，统一用\分隔符 os.path.relpath(path)返回当前程序与文件之间的相对路径（relative path） os.pa...

2018-09-23 16:41:54 2121

weixin_41866449的博客

原创爬虫的浏览器伪装

原创 Fiddler（后续会补充）

原创菜菜之正则表达式

原创菜菜之Urllib&URLErr

原创关于数据和人工智能之间的框架联系

转载 Python os库的使用

QT制作简易秒表

空空如也

原创 爬虫的浏览器伪装

原创 Fiddler（后续会补充）

原创 菜菜之正则表达式

原创 菜菜之Urllib&URLErr

原创 关于数据和人工智能之间的框架联系

转载 Python os库的使用

QT制作简易秒表

空空如也

原创爬虫的浏览器伪装

原创菜菜之正则表达式

原创菜菜之Urllib&URLErr

原创关于数据和人工智能之间的框架联系