自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 实战:图片的复制粘贴

'''复制图片'''primary_photo_place = input('请输入原图片的地址:')new_photo_place = input('请输入型图片保存的地址:')COPYINFOS = Nonedef read_photo(): ''' 读取待复制的图片,用二进制保存在中间变量COPYINFOS中。 ''' with open(pr...

2020-04-08 11:25:40 974

原创 python字典常用操作

clear :清除字典中所有的项。get :访问字典中那个键对应的那个值。这个方法不会抛出异常。pop :用来获得对应于给定键的值,然后将这个键盘和值的项从字典中删除。会返回这个值。popitem :随机的移除字典中的一项。因为字典是无序的,所以是随机的。update :用一个字典更新另外一个字典,如果碰到相同的键,则会覆盖。...

2020-04-06 23:54:39 734

原创 python列表常用操作

append :在列表末尾添加元素。count :统计某个元素在列表中出现的次数。extend :将一个列表中元素追加到另外一个列表中。index :找出列表中第一个某个值的第一个匹配项的索引位置,如果没有找到,则抛出一个异常。insert :将某个值插入到列表中的某个位置。pop 方法:移除列表中最后一个元素,并且返回该元素的值。remove 方法:移除列表中第一个匹配的元素,不会...

2020-04-06 21:17:57 715

原创 python字符串常用操作

find :返回查找字符串的下标位置。如果返回的是-1,代表的是没有查找到该字符串。 rfind 是从右边到左边。index :和 find 非常类似。只不过当查找不到这个字符串的时候,不是返回-1,而是抛出一个异常。 rindex 是从右边开始查找。len :获取字符串字符的长度。count :用来获取子字符串在原来字符串中出现的次数。replace :新创建一个字符串,把原来字符串中...

2020-04-05 22:11:09 111

原创 爬取知乎壁纸:selenium模拟登陆获取cookies,再将cookies传递给requests

selenium很好用,但是爬取大量数据时速度较慢。通过selenium模拟登陆,获取cookies,再将cookies传递给requests,通过requests爬取加快速度。以为知乎网爬取壁纸为例,代码如下:from selenium import webdriverimport requestsfrom lxml import etreeimport timeimport ...

2020-03-27 01:00:32 329

转载 爬取网页时,通过pyautogui定位鼠标坐标并操作

1、定位鼠标坐标import pyautoguitime.sleep(5)x,y = pyautogui.position()print('鼠标位置:x=%d,y=%d'%(x,y))2、定位到坐标后,进行操作import pyautoguiimport time # 正负数 表示向上或向下 数值越大滚动幅度越大pyautogui.scroll(200) # 向上滚动s...

2020-03-22 13:30:32 3228

原创 字体反爬

字体反爬原理网页开发者自己创造一种字体,因为在字体中每个文字都有其代号,那么以后在网页中不会直接显示这个文字的最终的效果,而是显示他的代号,因此即使获取到了网页中的文本内容,也只是获取到文字的代号,而不是文字本身。因为创造字体费时费力,并且如果把中国3000多常用汉字都实现,那么这个字体将达到几十兆,也会影响网页的加载。一般情况下为了反爬虫,仅会针对0-9以及少数汉字进行自己单独创建...

2020-03-15 21:02:46 212

原创 实战:利用requests,lxml.etree,csv等库,通过xpath爬取ZOL平板电脑信息

直接上代码:#1.找出主网页中的每个链接#2.处理第一步中爬取的链接#3.从处理后的链接中抓取相关数据#4.保存数据为csvimport requestsfrom lxml import etreeimport csvheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537....

2020-03-15 00:40:51 803 1

原创 动态网页爬虫

什么是动态网页爬虫和AJAX技术:动态网页,是网站在不重新加载的情况下,通过ajax技术动态更新网站中的局部数据。比如拉勾网的职位页面,在换页的过程中,url是没有发生改变的,但是职位数据动态的更改了。AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。前端与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重...

2020-03-13 22:34:03 409

原创 多线程threading详解

什么是多线程:默认情况下,一个程序只有一个进程和一个线程,代码是依次线性执行的。而多线程则可以并发执行,一次性多个人做多件事,自然比单线程更快。如何创建一个基本的多线程:使用threading模块下的Thread类即可创建一个线程。这个类有一个target参数,需要指定一个函数,那么以后这个线程执行的时候,就会执行这个函数的代码。示例:import threadingimport ti...

2020-03-11 21:03:16 1070

原创 python数据存储详解(JSON,CSV,EXCEL)

JSON字符串处理:什么是JSON字符串:JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输...

2020-03-07 18:52:08 661

原创 实战:用正则爬取豆瓣新书速递

直接上代码:ps:保存为csv的部分并不完美,待学习后续章节后更正。import requestsimport reimport csvheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Sa...

2020-03-07 18:19:55 333

原创 正则表达式详解

单字符匹配:# 匹配某个字符串:text = "abc"ret = re.match('b',text)print(ret.group())# 点(.):匹配任意的字符(除了'\n'):text = "\nabc"ret = re.match('.',text)print(ret.group())# \d:匹配任意的数字:text = "aab"ret = re.matc...

2020-03-06 09:45:02 528

原创 实战:利用requests和bs4,爬取快代理IP并保存

直接上代码import requestsfrom bs4 import BeautifulSoupimport timeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari...

2020-03-06 09:04:09 514

原创 BeautifulSoup库详解

BeautifulSoup4库和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。安装和文档:安装:pip install bs4中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html几大解析工具对比:...

2020-03-04 09:48:16 393

原创 实战:利用requests库、lxml库的etree,采用xpath方法抓取boss直聘网岗位信息

编写思路:获取每个岗位的页面url。进入url,获取需要的各项信息(岗位、工资、待遇)。保存成csv(保存的csv文件若想用excel打开且不出现乱码,需要在with open 中加入参数:encoding=‘utf-8-sig’)。封装,over。编写后的感想:该方法爬取各网站的套路大体一致,多写几遍就会了。boss直聘网站的cookie更新太频繁,测试代码时很耗时。(哪位大...

2020-03-04 00:39:32 1971

原创 爬虫数据解析:通过Xpath和lxml模块

111

2020-03-02 19:06:31 196

原创 requests库详解

安装和文档地址:通过cmd安装:pip install requests通过pucharm安装:文件–设置–项目–Project Interpreter发送GET请求import requests# 添加headers和查询参数headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit...

2020-03-02 02:14:24 878

原创 实战:模拟登录美食杰网站(http.cookiejar模块:用CookieJar来提供用于存储cookie的对象)

CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar实例...

2020-03-01 22:03:15 327

原创 实战:模拟登录知乎网站(添加cookie)

from urllib import requesturl = "https://www.zhihu.com/hot"headers = { "user-agent": "从浏览器检查的network中复制user-agent的内容", "cookie":"用浏览器登录网站后,从network中复制cookie的内容"}rq = request.Request(url,headers...

2020-03-01 20:25:08 1207 2

原创 实战:使用urllib.request爬取猫眼票房数据

代码编写心路流程:第一步:张飞式粗暴获取from urllib import requesturl = "https://piaofang.maoyan.com/dashboard?date=2019-07-26"rq = request.urlopen(url)print(rq.read())问题:返回错误urllib.error.HTTPError: HTTP Error 40...

2020-03-01 02:55:15 616 1

原创 urllib库(python内置库)

urlopen函数:创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。url:请求的url。data:请求的data,如果设置了这个值,那么将变成post请求。返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象。有read(size)、readline、readlines以及getcode等方法。例...

2020-02-29 23:26:04 411

原创 Chrome抓包工具

Elements:可以帮助我们分析网页结构,获取我们想要的数据。但是Elements下是最终呈现的网页数据,有时候网页数据是通过ajax请求得到的,因此Elements下的数据不能完全相信。Console:用来打印网页的一些信息。Sources:整个网页所加载的所有文件。Network:查看整个网页发送的所有网络请求。一般我们想要去查看某个请求的信息,...

2020-02-29 23:16:28 357

原创 Http协议

Http协议介绍:Http协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML(HyperText Markup Language)页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。更多介绍请参考:https://baike.baidu.co...

2020-02-29 23:15:05 211

原创 Python爬虫基础

爬虫前奏什么是爬虫:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并把数据抓取下来,然后使用一定的规则提取有价值的数据。爬虫应用场景:搜索引擎(百度或谷歌等) 伯乐在线。 惠惠购物助手。 数据分析。 抢票软件等。为什么用Python写爬虫:PHP:PHP是世界是最好的语言,但他天生不是做这个的,而且对多线程、异步支持不是很好,并发处理能力弱。爬虫是工具性程序...

2020-02-29 23:09:05 171

原创 用urllib.request,opener模拟请求头;用requests模拟请求头

import urllib.request#模拟请求头headersurl = "https://www.csdn.net/"# 注意:此处的headers要写为一个元组类型才可以。写为字典类型的话会报错!headers = ("user-agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li...

2020-02-29 16:09:17 1861 3

原创 常用的正则表达式符号

符号 含义 例子 匹配结果 * 匹配前面的字符、子表达式或括号里的字符0次或多次 a*b* aaaaaaaa; aaabbbbb; bbbbbbbb; + 匹配前面的字符、子表达式或括号里的字符至少1次 a+b+ aaaaaaab; aaabbbbb; abbbbbbb; ...

2020-02-27 11:53:35 227

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除