自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 问答 (1)
  • 收藏
  • 关注

原创 四库一平台网站的爬取

1.序言因为工作内容原因需要对四库一平台全站数据进行抓取,这次爬取经历了两次方案进行抓取,现在一一记录下来。网站有多处反爬,今天在这里会对所有反爬与爬虫细节进行细化分析。2.正文首先打开网站这里有个数据服务,点击进入就会有具体数据的列表页了。今天只介绍企业数据如何进行抓取,因为其他的数据都是相同的手法,了解了一个其他的就知道了。我使用的是chrome浏览器,F12进行检查。可以看见网站返回的内容都是进行加密的,这个时候我们就要进行查看其加密的方式是怎么样的了,这样才能进行解密。

2020-12-15 09:20:54 3993 19

原创 python爬虫之pyppeteer的合理使用

1.背景使用 因为工作原因的原因去爬取部分政府网站的公开数据,因为政府网站的反爬一直以来是属于比较难的,比如今天就遇到一个比较*蛋的网站:此网站定眼一看是个post请求,常规方法加上data去请求一般就可以处理了但是让人头疼的一点是它的下一页不在post的data内,这样的话常规请求只能请求一页就很麻烦了。就没法获取所有的数据了。一般这样的网站使用常规手段就没法用了,所以在这里告诉各位朋友一个非常搞笑的东西——pyppeteer!!!2.正文pyppeteer 是一款类似s..

2020-08-31 15:06:16 1353

原创 中国裁判文书网(2020最新版)

1.序言因业务需要去爬取裁判文书网,查看了网上的诸多教程发现裁判文书网的反爬更新频率很高,但是从19年8月份更新之后再也没有新的更新了。估计是现在的反爬已经足够使用了,裁判文书网的反爬主要有四种。听我一一道来2.正文裁判文书网的反爬主要分为两部分,第一部分是请求列表页的data内有三个加密的参数:(1).pageid(2).ciphertext(3).__RequestVerificationToken这三个参数的加密方式其实很容易就能找到,通过chrome的network的全局

2020-06-19 16:44:47 8965 35

原创 python scrapy 请求post的url时报 ValueError: not enough values to unpack(expected2,got 1)

当使用scrpay框架去写爬虫的时候会遇到post请求方式的url,一般遇到这种url会添加headers与data。往常data会要求有多种格式,比如字符串或者json格式。因为使用scrapy框架请求不会像requests模块那样。我们需要使用scrapy内置的请求方式。往往这就导致了data格式出问题。之前爬取就遇到了一次:看到这个错误很是懵13,因为从来没遇到过 而且报错的行是sc...

2019-07-17 15:25:25 1756 3

原创 Pandas之将保存的数据写入到Excel的多个sheet

工作之中一个excel内会有多个sheet。但是将两组数据先后保存到一个excel内会发现只有后一组保存的数据,因为前一组的数据被后写入的数据覆盖了。如:这是两组数据,df1与df2,我们分别使用to_excel将这两组数据保存到同一个excel内。这里我们将sheet_name这个参数改成不同的但是结果只有一个df2,即df1被df2这组数据覆盖了。但是能不能两组数据同时写入...

2019-03-18 16:02:54 29124 8

原创 pandas 改变DataFrame的列的类型

最近爬取了一个外国网站,爬取的内容要保存到excel内,但是保存的格式出了问题,正常是用过一个字段一个sheet,但是最后出结果时有三个字段被放放到一个字典内,成了一个sheet,本来4个sheet结果成了2个sheet。就想到用pandas来进行数据操作。错误格式:正确的格式: 思路:先单独拿出需要改变的这一列,然后使用tolist()这个函数将其变成列表a,再重新定义一个新列表...

2019-02-26 16:51:12 3681

原创 Python之.loc与.iloc的用法

当利用Pandas建立好DataFrame之后,需要对其进行一系列的操作,如增、删、改、查等。在进行这一系列的操作之前都需要先选取数据。这有一个DataFrame:                                       如果要选取某一列                                         如果选取多列:         ...

2019-02-21 09:45:48 23909

原创 python爬虫存储excel表!

前段时间老板给了一个任务是让爬取百度搜索页内的url、时间和标题并存储到excel表内,获取内容很简单,但是存储到excel表的时候被难倒了。因为自己之前并没有做过,当时第一想法是先存储到数据库中,然后用pandas导出来并以csv的格式存储,但是失败了,然后就想直接存txt格式,自己在手动改,但是数据量太大也放弃了。最后知道python有个函数,是专门用来存储成excel表的内容,最后也成功了,...

2019-01-21 16:29:38 8831 1

原创 requests多进程爬取数据

好长时间没有更新,今天更新一次!!。因为工作原因,一直在使用pyspider框架有半年没有用过scrapy框架了,知识点也忘记了很多,今天写了一个多线程爬取APP的图片时间的脚本,供大家参考!import re, random, time, json, requests, datetime, osfrom pyquery import PyQuery as pqfrom multip...

2019-01-21 15:56:02 1785 1

原创 pyspider入门

一下内容全是根据自己理解所写,如果有异议欢迎提出!!! 前言:因为公司项目需要批量爬取网站内容,所以就学习了pyspider爬虫框架,博主之前用爬虫都是scrapy框架的,接触了pyspider框架之后感觉中国人还是相当牛批的,能写出这么好的轻量级的框架。话不多说,进入正题!!!内容:1.既然要使用pyspider框架肯定要先下载,博主是从命令行内下载的--pip instal...

2018-10-24 16:45:07 410

原创 python———两个栈实现一个队列

1.先说一下栈和队列的定义(自己的理解不做深入的解析):栈是一个只能在一端进行删除和插入操作的线性表,它是一个先进后出。队列也是一个线性表,但是其只能在表的前端进行删除操作,在表的后端进行插入操作,它是一个先进先出。2.下面就用python代码来实现两个栈实现一个队列功能!class Solution: def __init__(self): #初始化并定义两个...

2018-10-09 16:40:35 1215

原创 python爬虫 爬取图片并保存

今天爬了美丽说网站首页的图片 可是等把图片的url获取之后却不知道怎么保存了。。(感觉自己当时脑子短路了)然后自己上网查看了一些方法。。1.网上有说 urllib模块中有个urlretrieve函数可以直接下载保存,于是我天真的写了urllib.urlretrieve(pic,fliename)可是pycharm报错了 说urllib没有urlretrieve函数,瞬间懵了。2.之后自...

2018-09-19 11:16:44 2297

原创 python爬虫---爬取有道翻译

这两天在学习爬虫,老师让我破解有道翻译的反爬虫机制爬取内容。话不多说直接上代码from urllib import request,parseimport time,json,random,hashlibcontent=input("请输入要翻译的内容:")base_url='http://fanyi.youdao.com/translate?smartresult=dict&...

2018-03-27 19:55:48 2153

原创 python--微信自动回复

from itchat.content import *import re#登陆itchat.auto_login(enableCmdQR=True,hotReload=True)itchat.run#监听@itchat.msg_register(INCOME_MSG)def text_reply(msg): print(msg) match= re.search...

2018-03-21 16:53:38 279

原创 python-生成二维码

#安装pillow模块#1.pip install 模块名#2.conda install 模块名import qrcode#根据url生成一个二维码def qrcodeByUrl(url): image = qrcode.make(url) image.save("url.png")#根据文字内容生成一个二维码def qrcodeByText(text): ...

2018-03-21 16:31:58 177

原创 迭代器

迭代器~是访问集合的一种方式。可以记住遍历的位置。~对象从集合的第一个元素开始访问,直到所有的元素被访问完后结束。只能前进不能后退。1、可迭代对象(1)容器类集合:字符串、列表、元组、字典、集合(2)生成器:判断对象是否可被迭代isinstance(对象,Iterable)可以被next()函数调用并不断返回下一个值的对象称为迭代器对象:Iterator判断对象是否为迭代对象...

2018-03-21 15:50:27 112

原创 python--生成器写斐波那契数列

最近刚学了一个python生成器,用生成器实现斐波那契数列def fib(items):    n=0    a,b=0,1    while n<=items:           yield a            a,b=b,a+b            n+=1num_str = input("请输入一个数:")num=int(num_str)...

2018-03-21 15:34:49 1418 1

原创 列表推导式写99乘法表

Python——九九乘法表list1=[1,2,3,4,5,6,7,8,9]list2=[1,2,3,4,5,6,7,8,9]result=[str (i) + '*' + str (a) + '=' +str (a*i)  for i in list1   for a in list2  if a>=i]print(result) 

2017-12-15 19:19:11 5264 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除