leedeancsdn-CSDN博客

原创实战：图片的复制粘贴

'''复制图片'''primary_photo_place = input('请输入原图片的地址:')new_photo_place = input('请输入型图片保存的地址:')COPYINFOS = Nonedef read_photo(): ''' 读取待复制的图片，用二进制保存在中间变量COPYINFOS中。 ''' with open(pr...

2020-04-08 11:25:40 974

原创 python字典常用操作

clear ：清除字典中所有的项。get ：访问字典中那个键对应的那个值。这个方法不会抛出异常。pop ：用来获得对应于给定键的值，然后将这个键盘和值的项从字典中删除。会返回这个值。popitem ：随机的移除字典中的一项。因为字典是无序的，所以是随机的。update ：用一个字典更新另外一个字典，如果碰到相同的键，则会覆盖。...

2020-04-06 23:54:39 734

原创 python列表常用操作

append ：在列表末尾添加元素。count ：统计某个元素在列表中出现的次数。extend ：将一个列表中元素追加到另外一个列表中。index ：找出列表中第一个某个值的第一个匹配项的索引位置，如果没有找到，则抛出一个异常。insert ：将某个值插入到列表中的某个位置。pop 方法：移除列表中最后一个元素，并且返回该元素的值。remove 方法：移除列表中第一个匹配的元素，不会...

2020-04-06 21:17:57 715

原创 python字符串常用操作

find ：返回查找字符串的下标位置。如果返回的是-1，代表的是没有查找到该字符串。 rfind 是从右边到左边。index ：和 find 非常类似。只不过当查找不到这个字符串的时候，不是返回-1，而是抛出一个异常。 rindex 是从右边开始查找。len ：获取字符串字符的长度。count ：用来获取子字符串在原来字符串中出现的次数。replace ：新创建一个字符串，把原来字符串中...

2020-04-05 22:11:09 111

原创爬取知乎壁纸：selenium模拟登陆获取cookies，再将cookies传递给requests

selenium很好用，但是爬取大量数据时速度较慢。通过selenium模拟登陆，获取cookies，再将cookies传递给requests，通过requests爬取加快速度。以为知乎网爬取壁纸为例，代码如下：from selenium import webdriverimport requestsfrom lxml import etreeimport timeimport ...

2020-03-27 01:00:32 329

转载爬取网页时，通过pyautogui定位鼠标坐标并操作

1、定位鼠标坐标import pyautoguitime.sleep(5)x,y = pyautogui.position()print('鼠标位置：x=%d,y=%d'%(x,y))2、定位到坐标后，进行操作import pyautoguiimport time # 正负数表示向上或向下数值越大滚动幅度越大pyautogui.scroll(200) # 向上滚动s...

2020-03-22 13:30:32 3228

原创字体反爬

字体反爬原理网页开发者自己创造一种字体，因为在字体中每个文字都有其代号，那么以后在网页中不会直接显示这个文字的最终的效果，而是显示他的代号，因此即使获取到了网页中的文本内容，也只是获取到文字的代号，而不是文字本身。因为创造字体费时费力，并且如果把中国3000多常用汉字都实现，那么这个字体将达到几十兆，也会影响网页的加载。一般情况下为了反爬虫，仅会针对0-9以及少数汉字进行自己单独创建...

2020-03-15 21:02:46 212

原创实战：利用requests,lxml.etree,csv等库，通过xpath爬取ZOL平板电脑信息

直接上代码：#1.找出主网页中的每个链接#2.处理第一步中爬取的链接#3.从处理后的链接中抓取相关数据#4.保存数据为csvimport requestsfrom lxml import etreeimport csvheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537....

2020-03-15 00:40:51 803 1

什么是动态网页爬虫和AJAX技术：动态网页，是网站在不重新加载的情况下，通过ajax技术动态更新网站中的局部数据。比如拉勾网的职位页面，在换页的过程中，url是没有发生改变的，但是职位数据动态的更改了。AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。前端与服务器进行少量数据交换，Ajax 可以使网页实现异步更新。这意味着可以在不重...

2020-03-13 22:34:03 409

原创多线程threading详解

什么是多线程：默认情况下，一个程序只有一个进程和一个线程，代码是依次线性执行的。而多线程则可以并发执行，一次性多个人做多件事，自然比单线程更快。如何创建一个基本的多线程：使用threading模块下的Thread类即可创建一个线程。这个类有一个target参数，需要指定一个函数，那么以后这个线程执行的时候，就会执行这个函数的代码。示例：import threadingimport ti...

2020-03-11 21:03:16 1070

原创 python数据存储详解（JSON,CSV,EXCEL）

JSON字符串处理：什么是JSON字符串：JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输...

2020-03-07 18:52:08 661

原创实战：用正则爬取豆瓣新书速递

直接上代码：ps：保存为csv的部分并不完美，待学习后续章节后更正。import requestsimport reimport csvheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Sa...

2020-03-07 18:19:55 333

原创正则表达式详解

单字符匹配：# 匹配某个字符串：text = "abc"ret = re.match('b',text)print(ret.group())# 点（.）：匹配任意的字符(除了'\n')：text = "\nabc"ret = re.match('.',text)print(ret.group())# \d：匹配任意的数字：text = "aab"ret = re.matc...

2020-03-06 09:45:02 528

原创实战：利用requests和bs4，爬取快代理IP并保存

直接上代码import requestsfrom bs4 import BeautifulSoupimport timeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari...

2020-03-06 09:04:09 514

原创 BeautifulSoup库详解

BeautifulSoup4库和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。安装和文档：安装：pip install bs4中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html几大解析工具对比：...

2020-03-04 09:48:16 393

原创实战：利用requests库、lxml库的etree，采用xpath方法抓取boss直聘网岗位信息

编写思路：获取每个岗位的页面url。进入url，获取需要的各项信息（岗位、工资、待遇）。保存成csv(保存的csv文件若想用excel打开且不出现乱码，需要在with open 中加入参数：encoding=‘utf-8-sig’)。封装,over。编写后的感想：该方法爬取各网站的套路大体一致，多写几遍就会了。boss直聘网站的cookie更新太频繁，测试代码时很耗时。（哪位大...

2020-03-04 00:39:32 1971

原创爬虫数据解析：通过Xpath和lxml模块

111

2020-03-02 19:06:31 196

原创 requests库详解

安装和文档地址：通过cmd安装：pip install requests通过pucharm安装：文件–设置–项目–Project Interpreter发送GET请求import requests# 添加headers和查询参数headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit...

2020-03-02 02:14:24 878

原创实战：模拟登录美食杰网站（http.cookiejar模块：用CookieJar来提供用于存储cookie的对象）

CookieJar：管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失。FileCookieJar (filename,delayload=None,policy=None)：从CookieJar派生而来，用来创建FileCookieJar实例...

2020-03-01 22:03:15 327

原创实战：模拟登录知乎网站（添加cookie）

from urllib import requesturl = "https://www.zhihu.com/hot"headers = { "user-agent": "从浏览器检查的network中复制user-agent的内容", "cookie":"用浏览器登录网站后，从network中复制cookie的内容"}rq = request.Request(url,headers...

2020-03-01 20:25:08 1207 2

原创实战：使用urllib.request爬取猫眼票房数据

代码编写心路流程：第一步：张飞式粗暴获取from urllib import requesturl = "https://piaofang.maoyan.com/dashboard?date=2019-07-26"rq = request.urlopen(url)print(rq.read())问题：返回错误urllib.error.HTTPError: HTTP Error 40...

2020-03-01 02:55:15 616 1

原创 urllib库(python内置库)

urlopen函数：创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。url：请求的url。data：请求的data，如果设置了这个值，那么将变成post请求。返回值：返回值是一个http.client.HTTPResponse对象，这个对象是一个类文件句柄对象。有read(size)、readline、readlines以及getcode等方法。例...

2020-02-29 23:26:04 411

原创 Chrome抓包工具

Elements：可以帮助我们分析网页结构，获取我们想要的数据。但是Elements下是最终呈现的网页数据，有时候网页数据是通过ajax请求得到的，因此Elements下的数据不能完全相信。Console：用来打印网页的一些信息。Sources：整个网页所加载的所有文件。Network：查看整个网页发送的所有网络请求。一般我们想要去查看某个请求的信息，...

2020-02-29 23:16:28 357

原创 Http协议

Http协议介绍：Http协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收HTML（HyperText Markup Language）页面的方法。服务器端口号是80端口。 HTTPS协议：是HTTP协议的加密版本，在HTTP下加入了SSL层。服务器端口号是443端口。更多介绍请参考：https://baike.baidu.co...

2020-02-29 23:15:05 211

原创 Python爬虫基础

爬虫前奏什么是爬虫：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并把数据抓取下来，然后使用一定的规则提取有价值的数据。爬虫应用场景：搜索引擎（百度或谷歌等）伯乐在线。惠惠购物助手。数据分析。抢票软件等。为什么用Python写爬虫：PHP：PHP是世界是最好的语言，但他天生不是做这个的，而且对多线程、异步支持不是很好，并发处理能力弱。爬虫是工具性程序...

2020-02-29 23:09:05 171

原创用urllib.request，opener模拟请求头；用requests模拟请求头

import urllib.request#模拟请求头headersurl = "https://www.csdn.net/"# 注意：此处的headers要写为一个元组类型才可以。写为字典类型的话会报错！headers = ("user-agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li...

2020-02-29 16:09:17 1861 3

原创常用的正则表达式符号

符号含义例子匹配结果 * 匹配前面的字符、子表达式或括号里的字符0次或多次 a*b* aaaaaaaa; aaabbbbb; bbbbbbbb; + 匹配前面的字符、子表达式或括号里的字符至少1次 a+b+ aaaaaaab; aaabbbbb; abbbbbbb; ...

2020-02-27 11:53:35 227

leedean的博客