自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 python爬虫抓取天猫商品评论模板,有详细教程

详细教程,天猫和淘宝是一样的,在我主页里有淘宝的,在这发下天猫的import requestsimport reimport time#需要修改的参数#url_1#a和b#cookie不能用时重新修改def set_up():#打开商品的主页面链接 url_1 = 'https://detail.tmall.com/item.htm?id=548071255763&am...

2020-01-02 11:35:07 2660 15

原创 requests+cookie爬取淘宝任意商品评论。超详细教程!

首先使用的工具:python3.7,火狐浏览器思路分析:现在网页版淘宝搜索商品之后,点进去,基本上都会弹出登录框,当我们直接把一个商品的链接去爬取的时候,返回的会是登陆页面的Html,所以我们第一步就是先在网页版登陆淘宝。然后思考,为什么会返回登陆页面呢,因为淘宝的反爬会识别你的参数,也就是浏览器请求头的信息,里面包含了什么浏览器伪装,cookie了,如下图。(记住打开的是淘宝的商品,不是天猫...

2020-01-02 11:31:17 7436 20

原创 最新网易云盾滑块验证码破解,代码可以直接用

代码请勿商用,后果自付,仅供学习。from PIL import Image, ImageEnhancefrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support imp

2020-06-05 11:37:40 6208 1

转载 最新腾讯防水墙滑块验证码破解,代码可以直接运行

此代码请勿用来商用,后果自负。仅供学习。import numpy as npimport randomimport requestsfrom selenium.webdriver import ActionChainsimport timefrom selenium import webdriverfrom PIL import Imageimport osfrom selenium.webdriver.support.ui import WebDriverWaitimport cv

2020-06-05 11:35:33 7609 6

原创 mongodb保存本地csv文件中文乱码解决方案

右键csv文件,记事本打开,选择另存为,右下的编码方式选择ANSI,然后点击确定即可解决。

2020-04-06 10:54:20 675

原创 pymysql读取本地表格存入数据库(二)

读取表格使用pandasimport pymysqlimport pandas as pd#这个是表格的路径filepath =r'C:\Users\22053\Desktop\总部\同学信息\学生信息采集表.xlsx'connect = pymysql.connect('localhost','root','root','data_2')cursor= connect.curso...

2020-03-20 15:35:11 471

原创 pymysql数据库表格创建插入删除读取操作详解(一)

首先你需要提前安装好数据库mysql,python模块pymysql,以及数据库可视化管理工具Navicat(方便我们来查看数据内容)一、创建数据库打开我们的Navicat,先新建一个我们自己的连接,软件基础操作教程网上都有,右键创建好的连接,选择新建数据库,数据库名字随便起,字符集选择最下面的utf8,排序规则随意选择一个,然后确定,如下二、创建表格打开我们的pycharm,先导入...

2020-03-20 11:03:09 655

原创 python多线程爬虫教学,清晰易懂。

首先需要知道什么是多线程,多线程的作用。首先举个例子,并发和并行:并发:并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。并行:并行是指“并排行走”或“同时实行或实施”。在操作系统中是指,一组程序按独立异步的速度执行,不等于时间上的重叠(同一个时刻发生)。例子:吃一碗米饭和菜。并发...

2020-01-21 15:00:52 522 2

原创 python读取open本地文件。

打开并读取文件。注意文件的路径,open()里面的参数是文件的路径,例如:r’C:\User\22053\Desktop\myfile.txt’。最好前面带上r,防止反斜杠\转义。F=open('myfile.txt').read()print(F)读取文件的第一行。F=open('myfile.txt').readline()print(F)...

2020-01-21 13:25:56 2780 3

转载 FaskApi教程:比Falsk更好用速度更快的FaskApi

文章转载自:https://mp.weixin.qq.com/s?__biz=MzI2MzEwNTY3OQ==&mid=2648978169&idx=1&sn=87fedaf0ee4037a4b4760a547bc50532&chksm=f2506f19c527e60f0cb4e0e550c4683f247f97891721b872c7f1cf43d1ed5fcd4...

2020-01-20 08:41:50 3683

原创 python笔记新手常用函数方法总结—3

insert():在列表的指定位置添加元素。a=[1,2,3,4]a.insert(0,100)#在下标为0处,添加元素100print(a)>>>[100,1,2,3,4]items():将字典的键和值组合为元组的形式,总体是一个列表,能够遍历,但是不能使用下标方法。a={'0':'a','1':'b'}for i in a.items(): print(i[...

2020-01-19 15:58:22 557 1

原创 python笔记新手常用函数方法总结—2

今天带来十个常用方法:get()函数:返回字典键的值。dict={'name':'a','age':'21'}print(dict.get('age')) #get()里面填键的名字>>>21index()方法:返回元素下标。a=[1,2,3,4]print(a.index(3)) #index()里面填写元素,注意元素有没有引号,没有就不加。>>...

2020-01-18 15:15:24 294

原创 python笔记新手常用函数方法总结—1

python我主要学的是爬虫,在这里开始总结一下经常会用到的实用性比较大的函数或者方法。怕自己寒假期间忘掉,也方便新手一起学习。输出结果我用>>>提示。zip()函数zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表,如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为...

2020-01-17 15:32:59 604 2

原创 Session提高requests的抓取速度小技巧

使用requests抓取数据的时候,爬虫会模拟浏览器的行为,但是可能不知道,当打开一个网页的时候,requests.get()可能速度很快,但是如果几十个上百个网址的时候呢,这个差距就出来了,例如下面。import requestsimport timestart = time.time()for _ in range(100): resp = requests.get('ht...

2020-01-17 14:43:08 2388

原创 IP代理池proxy,自建,免费,详细教程

这篇文章教你如何白嫖免费代理网站构造自己的一个ip代理池,不在为反爬检测而烦恼。思路就是找到一个免费ip网站,然后抓取上面的ip,去一个一个测试,能用的返回,不能用的扔掉。网站:http://www.nimadaili.com/。import requests as rfrom pymongo import MongoClientimport lxml.htmlurl = 'http...

2020-01-02 17:41:57 8387 4

原创 pyppeteer网络协议问题

遇到这种错误:pyppeteer.errors.NetworkError: Protocol error Network.getCookies: Target close方法:卸载websockets 7.0 安装6.0版本就行了。pip uninstall websockets #卸载websocketspip install websockets==6.0 #指定安装6.0版本亲测成...

2019-12-31 14:41:40 1123

原创 如何将mongodb数据保存到本地txt、json、csv,超详细!

第一步打开cmd,如果不知道怎么打开,在左下角搜索里面输入cmd,然后记住“右键管理员身份打开”!!!,反正我不这样的话最后保存文件会提示没有权限。打开之后用cd mongodb所在位置,如下:然后回车,输入 mongoexport -h localhost:27017 -d 演示2 -c scrapy -o ./演示2.txt其中27017是数据库的端口,没改变的话应该默认是27017,...

2019-12-31 11:38:11 2737

原创 Python创建文件夹并保存图片、文本、视频、影音。简单详细!

创建文件夹这里使用的是os模块.import osos.makedirs('文件夹演示',exist_ok=True)data = '123456'with open(os.path.join('文件夹演示','1.txt'),'w') as f: f.write(data)如上所示,makedirs()里面有两个参数,第一个是所要创建的文件夹名称,第二个是当文件夹已经存...

2019-12-31 11:20:34 5540

原创 多线程爬取视频~,超详细,超简单

对于多线程我在这使用的是threading模块,反正挺好用的,这个模块是有大致格式的,比如下面的先定义一个myspider类,然后__init__函数,run函数了,这些都是必须的。首先导入我们需要的模块 ,os是为了创建文件夹,redis是为了将视频链接导入redis来进行去重操作,redis需要提前打开,没安装的可以去搜索一下教程,安装好之后,先cmd进入redis下载的文件夹下,然后输入r...

2019-12-30 17:25:19 53805

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除