我心心念的爬虫啊-CSDN博客

原创 python爬虫抓取天猫商品评论模板，有详细教程

详细教程，天猫和淘宝是一样的，在我主页里有淘宝的，在这发下天猫的import requestsimport reimport time#需要修改的参数#url_1#a和b#cookie不能用时重新修改def set_up():#打开商品的主页面链接 url_1 = 'https://detail.tmall.com/item.htm?id=548071255763&am...

2020-01-02 11:35:07 2660 15

原创 requests+cookie爬取淘宝任意商品评论。超详细教程！

首先使用的工具：python3.7，火狐浏览器思路分析：现在网页版淘宝搜索商品之后，点进去，基本上都会弹出登录框，当我们直接把一个商品的链接去爬取的时候，返回的会是登陆页面的Html，所以我们第一步就是先在网页版登陆淘宝。然后思考，为什么会返回登陆页面呢，因为淘宝的反爬会识别你的参数，也就是浏览器请求头的信息，里面包含了什么浏览器伪装，cookie了，如下图。（记住打开的是淘宝的商品，不是天猫...

2020-01-02 11:31:17 7436 20

原创最新网易云盾滑块验证码破解，代码可以直接用

代码请勿商用，后果自付，仅供学习。from PIL import Image, ImageEnhancefrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support imp

2020-06-05 11:37:40 6208 1

转载最新腾讯防水墙滑块验证码破解，代码可以直接运行

此代码请勿用来商用，后果自负。仅供学习。import numpy as npimport randomimport requestsfrom selenium.webdriver import ActionChainsimport timefrom selenium import webdriverfrom PIL import Imageimport osfrom selenium.webdriver.support.ui import WebDriverWaitimport cv

2020-06-05 11:35:33 7609 6

原创 mongodb保存本地csv文件中文乱码解决方案

右键csv文件，记事本打开，选择另存为，右下的编码方式选择ANSI，然后点击确定即可解决。

2020-04-06 10:54:20 675

原创 pymysql读取本地表格存入数据库(二)

读取表格使用pandasimport pymysqlimport pandas as pd#这个是表格的路径filepath =r'C:\Users\22053\Desktop\总部\同学信息\学生信息采集表.xlsx'connect = pymysql.connect('localhost','root','root','data_2')cursor= connect.curso...

2020-03-20 15:35:11 471

原创 pymysql数据库表格创建插入删除读取操作详解（一）

首先你需要提前安装好数据库mysql，python模块pymysql，以及数据库可视化管理工具Navicat（方便我们来查看数据内容）一、创建数据库打开我们的Navicat，先新建一个我们自己的连接，软件基础操作教程网上都有，右键创建好的连接，选择新建数据库，数据库名字随便起，字符集选择最下面的utf8，排序规则随意选择一个，然后确定，如下二、创建表格打开我们的pycharm，先导入...

2020-03-20 11:03:09 655

原创 python多线程爬虫教学，清晰易懂。

首先需要知道什么是多线程，多线程的作用。首先举个例子，并发和并行：并发：并发，在操作系统中，是指一个时间段中有几个程序都处于已启动运行到运行完毕之间，且这几个程序都是在同一个处理机上运行，但任一个时刻点上只有一个程序在处理机上运行。并行：并行是指“并排行走”或“同时实行或实施”。在操作系统中是指，一组程序按独立异步的速度执行，不等于时间上的重叠（同一个时刻发生)。例子：吃一碗米饭和菜。并发...

2020-01-21 15:00:52 522 2

原创 python读取open本地文件。

打开并读取文件。注意文件的路径，open()里面的参数是文件的路径，例如：r’C:\User\22053\Desktop\myfile.txt’。最好前面带上r，防止反斜杠\转义。F=open('myfile.txt').read()print(F)读取文件的第一行。F=open('myfile.txt').readline()print(F)...

2020-01-21 13:25:56 2780 3

转载 FaskApi教程：比Falsk更好用速度更快的FaskApi

文章转载自：https://mp.weixin.qq.com/s?__biz=MzI2MzEwNTY3OQ==&mid=2648978169&idx=1&sn=87fedaf0ee4037a4b4760a547bc50532&chksm=f2506f19c527e60f0cb4e0e550c4683f247f97891721b872c7f1cf43d1ed5fcd4...

2020-01-20 08:41:50 3683

原创 python笔记新手常用函数方法总结—3

insert()：在列表的指定位置添加元素。a=[1,2,3,4]a.insert(0,100)#在下标为0处，添加元素100print(a)>>>[100,1,2,3,4]items()：将字典的键和值组合为元组的形式，总体是一个列表，能够遍历，但是不能使用下标方法。a={'0':'a','1':'b'}for i in a.items(): print(i[...

2020-01-19 15:58:22 557 1

原创 python笔记新手常用函数方法总结—2

今天带来十个常用方法：get()函数：返回字典键的值。dict={'name':'a','age':'21'}print(dict.get('age')) #get()里面填键的名字>>>21index()方法：返回元素下标。a=[1,2,3,4]print(a.index(3)) #index()里面填写元素，注意元素有没有引号，没有就不加。>>...

2020-01-18 15:15:24 294

原创 python笔记新手常用函数方法总结—1

python我主要学的是爬虫，在这里开始总结一下经常会用到的实用性比较大的函数或者方法。怕自己寒假期间忘掉，也方便新手一起学习。输出结果我用>>>提示。zip()函数zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表，如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为...

2020-01-17 15:32:59 604 2

原创 Session提高requests的抓取速度小技巧

使用requests抓取数据的时候，爬虫会模拟浏览器的行为，但是可能不知道，当打开一个网页的时候，requests.get()可能速度很快，但是如果几十个上百个网址的时候呢，这个差距就出来了，例如下面。import requestsimport timestart = time.time()for _ in range(100): resp = requests.get('ht...

2020-01-17 14:43:08 2388

原创 IP代理池proxy，自建，免费，详细教程

这篇文章教你如何白嫖免费代理网站构造自己的一个ip代理池，不在为反爬检测而烦恼。思路就是找到一个免费ip网站，然后抓取上面的ip，去一个一个测试，能用的返回，不能用的扔掉。网站：http://www.nimadaili.com/。import requests as rfrom pymongo import MongoClientimport lxml.htmlurl = 'http...

2020-01-02 17:41:57 8387 4

原创 pyppeteer网络协议问题

遇到这种错误：pyppeteer.errors.NetworkError: Protocol error Network.getCookies: Target close方法：卸载websockets 7.0 安装6.0版本就行了。pip uninstall websockets #卸载websocketspip install websockets==6.0 #指定安装6.0版本亲测成...

2019-12-31 14:41:40 1123

原创如何将mongodb数据保存到本地txt、json、csv，超详细！

第一步打开cmd，如果不知道怎么打开，在左下角搜索里面输入cmd，然后记住“右键管理员身份打开”！！！，反正我不这样的话最后保存文件会提示没有权限。打开之后用cd mongodb所在位置，如下：然后回车，输入 mongoexport -h localhost:27017 -d 演示2 -c scrapy -o ./演示2.txt其中27017是数据库的端口，没改变的话应该默认是27017，...

2019-12-31 11:38:11 2737

原创 Python创建文件夹并保存图片、文本、视频、影音。简单详细!

创建文件夹这里使用的是os模块.import osos.makedirs('文件夹演示',exist_ok=True)data = '123456'with open(os.path.join('文件夹演示','1.txt'),'w') as f: f.write(data)如上所示，makedirs()里面有两个参数，第一个是所要创建的文件夹名称，第二个是当文件夹已经存...

2019-12-31 11:20:34 5540

原创多线程爬取视频~，超详细，超简单

对于多线程我在这使用的是threading模块，反正挺好用的，这个模块是有大致格式的，比如下面的先定义一个myspider类，然后__init__函数，run函数了，这些都是必须的。首先导入我们需要的模块，os是为了创建文件夹，redis是为了将视频链接导入redis来进行去重操作，redis需要提前打开，没安装的可以去搜索一下教程，安装好之后,先cmd进入redis下载的文件夹下，然后输入r...

2019-12-30 17:25:19 53805

JJ_BoY的博客