帅帅的橙子-CSDN博客

原创四库一平台网站的爬取

1.序言因为工作内容原因需要对四库一平台全站数据进行抓取，这次爬取经历了两次方案进行抓取，现在一一记录下来。网站有多处反爬，今天在这里会对所有反爬与爬虫细节进行细化分析。2.正文首先打开网站这里有个数据服务，点击进入就会有具体数据的列表页了。今天只介绍企业数据如何进行抓取，因为其他的数据都是相同的手法，了解了一个其他的就知道了。我使用的是chrome浏览器，F12进行检查。可以看见网站返回的内容都是进行加密的，这个时候我们就要进行查看其加密的方式是怎么样的了，这样才能进行解密。

2020-12-15 09:20:54 3993 19

原创 python爬虫之pyppeteer的合理使用

1.背景使用因为工作原因的原因去爬取部分政府网站的公开数据，因为政府网站的反爬一直以来是属于比较难的，比如今天就遇到一个比较*蛋的网站：此网站定眼一看是个post请求，常规方法加上data去请求一般就可以处理了但是让人头疼的一点是它的下一页不在post的data内，这样的话常规请求只能请求一页就很麻烦了。就没法获取所有的数据了。一般这样的网站使用常规手段就没法用了，所以在这里告诉各位朋友一个非常搞笑的东西——pyppeteer！！！2.正文pyppeteer 是一款类似s..

2020-08-31 15:06:16 1353

原创中国裁判文书网(2020最新版)

1.序言因业务需要去爬取裁判文书网，查看了网上的诸多教程发现裁判文书网的反爬更新频率很高，但是从19年8月份更新之后再也没有新的更新了。估计是现在的反爬已经足够使用了，裁判文书网的反爬主要有四种。听我一一道来2.正文裁判文书网的反爬主要分为两部分，第一部分是请求列表页的data内有三个加密的参数：(1).pageid(2).ciphertext(3).__RequestVerificationToken这三个参数的加密方式其实很容易就能找到，通过chrome的network的全局

2020-06-19 16:44:47 8965 35

原创 python scrapy 请求post的url时报 ValueError: not enough values to unpack(expected2,got 1)

当使用scrpay框架去写爬虫的时候会遇到post请求方式的url，一般遇到这种url会添加headers与data。往常data会要求有多种格式，比如字符串或者json格式。因为使用scrapy框架请求不会像requests模块那样。我们需要使用scrapy内置的请求方式。往往这就导致了data格式出问题。之前爬取就遇到了一次：看到这个错误很是懵13，因为从来没遇到过而且报错的行是sc...

2019-07-17 15:25:25 1756 3

原创 Pandas之将保存的数据写入到Excel的多个sheet

工作之中一个excel内会有多个sheet。但是将两组数据先后保存到一个excel内会发现只有后一组保存的数据，因为前一组的数据被后写入的数据覆盖了。如：这是两组数据，df1与df2，我们分别使用to_excel将这两组数据保存到同一个excel内。这里我们将sheet_name这个参数改成不同的但是结果只有一个df2，即df1被df2这组数据覆盖了。但是能不能两组数据同时写入...

2019-03-18 16:02:54 29124 8

原创 pandas 改变DataFrame的列的类型

最近爬取了一个外国网站，爬取的内容要保存到excel内，但是保存的格式出了问题，正常是用过一个字段一个sheet，但是最后出结果时有三个字段被放放到一个字典内，成了一个sheet，本来4个sheet结果成了2个sheet。就想到用pandas来进行数据操作。错误格式：正确的格式：思路：先单独拿出需要改变的这一列，然后使用tolist()这个函数将其变成列表a，再重新定义一个新列表...

2019-02-26 16:51:12 3681

原创 Python之.loc与.iloc的用法

当利用Pandas建立好DataFrame之后，需要对其进行一系列的操作，如增、删、改、查等。在进行这一系列的操作之前都需要先选取数据。这有一个DataFrame：如果要选取某一列如果选取多列： ...

2019-02-21 09:45:48 23909

原创 python爬虫存储excel表！

前段时间老板给了一个任务是让爬取百度搜索页内的url、时间和标题并存储到excel表内，获取内容很简单，但是存储到excel表的时候被难倒了。因为自己之前并没有做过，当时第一想法是先存储到数据库中，然后用pandas导出来并以csv的格式存储，但是失败了，然后就想直接存txt格式，自己在手动改，但是数据量太大也放弃了。最后知道python有个函数，是专门用来存储成excel表的内容，最后也成功了，...

2019-01-21 16:29:38 8831 1

原创 requests多进程爬取数据

好长时间没有更新，今天更新一次！！。因为工作原因，一直在使用pyspider框架有半年没有用过scrapy框架了，知识点也忘记了很多，今天写了一个多线程爬取APP的图片时间的脚本，供大家参考！import re, random, time, json, requests, datetime, osfrom pyquery import PyQuery as pqfrom multip...

2019-01-21 15:56:02 1785 1

原创 pyspider入门

一下内容全是根据自己理解所写，如果有异议欢迎提出！！！前言：因为公司项目需要批量爬取网站内容，所以就学习了pyspider爬虫框架，博主之前用爬虫都是scrapy框架的，接触了pyspider框架之后感觉中国人还是相当牛批的，能写出这么好的轻量级的框架。话不多说，进入正题！！！内容：1.既然要使用pyspider框架肯定要先下载，博主是从命令行内下载的--pip instal...

2018-10-24 16:45:07 410

原创 python———两个栈实现一个队列

1.先说一下栈和队列的定义(自己的理解不做深入的解析):栈是一个只能在一端进行删除和插入操作的线性表，它是一个先进后出。队列也是一个线性表，但是其只能在表的前端进行删除操作，在表的后端进行插入操作，它是一个先进先出。2.下面就用python代码来实现两个栈实现一个队列功能！class Solution: def __init__(self): #初始化并定义两个...

2018-10-09 16:40:35 1215

原创 python爬虫爬取图片并保存

今天爬了美丽说网站首页的图片可是等把图片的url获取之后却不知道怎么保存了。。（感觉自己当时脑子短路了）然后自己上网查看了一些方法。。1.网上有说 urllib模块中有个urlretrieve函数可以直接下载保存，于是我天真的写了urllib.urlretrieve(pic,fliename)可是pycharm报错了说urllib没有urlretrieve函数，瞬间懵了。2.之后自...

2018-09-19 11:16:44 2297

原创 python爬虫---爬取有道翻译

这两天在学习爬虫，老师让我破解有道翻译的反爬虫机制爬取内容。话不多说直接上代码from urllib import request,parseimport time,json,random,hashlibcontent=input("请输入要翻译的内容：")base_url='http://fanyi.youdao.com/translate?smartresult=dict&...

2018-03-27 19:55:48 2153

原创 python--微信自动回复

from itchat.content import *import re#登陆itchat.auto_login(enableCmdQR=True,hotReload=True)itchat.run#监听@itchat.msg_register(INCOME_MSG)def text_reply(msg): print(msg) match= re.search...

2018-03-21 16:53:38 279

原创 python-生成二维码

#安装pillow模块#1.pip install 模块名#2.conda install 模块名import qrcode#根据url生成一个二维码def qrcodeByUrl(url): image = qrcode.make(url) image.save("url.png")#根据文字内容生成一个二维码def qrcodeByText(text): ...

2018-03-21 16:31:58 177

原创迭代器

迭代器~是访问集合的一种方式。可以记住遍历的位置。~对象从集合的第一个元素开始访问，直到所有的元素被访问完后结束。只能前进不能后退。1、可迭代对象(1)容器类集合：字符串、列表、元组、字典、集合(2)生成器：判断对象是否可被迭代isinstance(对象，Iterable)可以被next()函数调用并不断返回下一个值的对象称为迭代器对象：Iterator判断对象是否为迭代对象...

2018-03-21 15:50:27 112

原创 python--生成器写斐波那契数列

最近刚学了一个python生成器，用生成器实现斐波那契数列def fib(items): n=0 a,b=0,1 while n<=items: yield a a,b=b,a+b n+=1num_str = input("请输入一个数：")num=int(num_str)...

2018-03-21 15:34:49 1418 1

原创列表推导式写99乘法表

Python——九九乘法表list1=[1,2,3,4,5,6,7,8,9]list2=[1,2,3,4,5,6,7,8,9]result=[str (i) + '*' + str (a) + '=' +str (a*i) for i in list1 for a in list2 if a>=i]print(result)

2017-12-15 19:19:11 5264 1

qq_39697564的博客