自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫的浏览器伪装

常见的反爬虫机制: 1)分析headers信息 2)判断同一个IP是否在短时间内频繁访问对应网站进行分析 3)通过动态网页增加爬虫爬取的难度,达到反爬虫的目的 User-Agent: Fiddler/5.0.20182.28034 (.NET 4.7.1; WinNT 10.0.17134.0; zh-CN; 4xAMD64; Auto Update; Full Instance; Extensi...

2018-10-22 21:41:44 79

原创 Fiddler(后续会补充)

1)Fiddler是一种常见的抓包分析软件,我们利用它可以详细地对HTTP请求分析,并模拟对应的HTTP请求。 2)网络爬虫是自动爬取网页的程序,在爬取的过程中必然涉及客户端与服务器端的通信,自然需要发送一些HTTP的请求,并接收服务器返回的结果。在一些稍微复杂的网络请求中,我们直接看网址变化是看不出规律的,所以我们需要使用工具截获这些请求,对于这些请求进行分析,这个过程使用抓包软件配合进行则会更...

2018-10-20 10:31:47 132

原创 菜菜之正则表达式

正则表达式就是描述字符串排列的一套规则。(re模块) 基础知识 1、原子 原子是正则表达式最基本的组成单位,每个正则表达式中至少包含一个原子。 原子的种类:普通字符、非打印字符(如换行符)、通用字符、原子表 (1)普通字符作为原子 import re pattern="yue" string="http://yum.qianyue.com&am

2018-10-08 11:30:33 114

原创 菜菜之Urllib&URLErr

网络爬虫分为四类: PS:文末附常用打开文件的模式列表、以及python如何在代码中换行的几种方式 通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 Urllib库: 使用urllib.request进行操作 爬取百度。 注:读取文件常见的有三种方式: file.read()读取文件的全部内容,把读取的内容赋给一个字符串变量。 file.readlines()读取文件的全部内容,读...

2018-09-25 17:36:59 178

原创 关于数据和人工智能之间的框架联系

2018-09-24 11:31:10 152

转载 Python os库的使用

Python os库的使用 路径操作 os.path子库以path为入口,用于操作和处理文件路 13个函数需要了解 os.path.abspath(path) 返回path在当前系统中的绝对路径 os.path.normpath(path) 归一化path的表示形式,统一用\分隔符 os.path.relpath(path)返回当前程序与文件之间的相对路径(relative path) os.pa...

2018-09-23 16:41:54 2121

QT制作简易秒表

自己写的小作业 

2018-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除