自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 问答 (1)
  • 收藏
  • 关注

原创 马蜂窝分享

马蜂窝爬虫分享今天早上爬马蜂窝的数据,还在检查报错的时候,就发现自己的ip被ban,真心惨,数据没拿到,ip还被封,新手太天真,“挑逗”这种大型内容分享平台的反爬虫,因此想做一个简单的总结,希望自己的经验可以对大家,以及自己以后的爬虫之旅有帮助user_agent+cookie,不够使1.这次并不是完全的裸爬。稍微带了点伪装,还是被发现了。马蜂窝必带cookie,不然会报502。但是它的co...

2020-03-14 08:30:39 215

原创 百度te吧

百度贴吧解决了上一次为解决的问题,引入selenium可以实现对动态页面的爬取,代码复杂化了,有很多步骤可以优化百度系列:上一次的百度贴吧1.0爬虫百度贴吧实现翻译下小功能,里面的问题应该也可以用同样的思路被解决# -*- coding: utf-8 -*-"""Created on Sat Feb 29 15:33:00 2020@author: Administrator"...

2020-03-05 16:13:50 250

原创 bili弹幕爬

我爱哔哩哔哩总结:①正则是盲点,最近在想办法努力突破②python提取xml文件中的字段,可用beautifulsoup包,nice# -*- coding: utf-8 -*-"""Created on Sun Mar 1 18:11:56 2020@author: Administrator"""import requestsimport jsonimport re...

2020-03-03 23:35:58 391

原创 简单网站爬取:糗事百科

简单网站爬取:糗事百科总结遇到的问题:①xpah在响应页面定位时:首先分组,分组后的子元素定位,是在当前定位内进行搜寻,因此点非常重要,他表示在当前目录中进行定位,不然可能出现,分组内爬取的内容一样,循环无效-----------------************************=-------------------------错误代码示例:item["u-user-na...

2020-03-01 16:45:58 111

原创 百度贴吧爬虫

百度贴吧爬虫问题总结1. 问题1response.content.decode() **解决**这里有不少小伙伴会遇到编码问题,需要从本质理解编码对后续代码可能产生的影响, ①后续xpath可接受的数据类型 ②xpaht在定位元素时,自己输入的字符与网页响应字符可能存在差异; ③文件写入时,txt默认编码格式与爬取文件的编码格式冲突。 ***如果在这三个方面加以注意,后面应该不...

2020-03-01 12:03:43 582

原创 豆瓣影视资料数据爬取--多类目

豆瓣数据爬取爬取韩剧、英剧…的豆瓣影视资料# -*- coding: utf-8 -*-"""Created on Thu Feb 27 10:26:36 2020@author: Administrator"""import requestsimport jsonimport osos.chdir(r"H:\01\spyder")class Douban: de...

2020-02-27 15:39:29 181

原创 爬虫之实现百度翻译小功能

小白求指点:这里没有办法获取百度翻译头部文件中的不变 From Data,应该如何思考,来成功访问百度翻译的接口import requestsimport osimport jsonos.chdir(r"H:\01\spyder")url_fanyi = "https://fanyi.baidu.com/v2transapi?from=zh&to=en"headers = {'...

2020-02-26 11:52:02 249

原创 requests模块学习

requestsresponse = request.get(url)print(response) // 获取请求状态码response.textresponse.encoding // 推测网页编码response.content // byte形式显示原始网页response.content.decode() //解码p = requests.get("https:...

2020-02-26 10:42:41 97

原创 飞机大战基本功能实现

基本功能包括:玩家飞机显示玩家发射子弹敌机显示敌机发射子弹# -*- coding: utf-8 -*-"""Created on Mon Feb 24 08:09:08 2020@author: Administrator"""import pygame,sys,time,randomfrom pygame.locals import *class PlayerP...

2020-02-24 11:28:03 1131

原创 Linux系统学习

03 系统信息相关命令时间和时期date // 查看系统时间 cal & cal -y // 查看系统日历 或查看一年的日历磁盘和目录空间df -h // 显示磁盘剩余空间 du -h[目录名] // 显示目录的空间占用【-h :以人性化的格式显示文件大小】进程信息ps aux // 查看所有执行程序的详细情况;a选项可显示其他用户的进程,u显示详细进程...

2020-02-19 09:36:25 65

原创 1.1 linux系统学习

**Ⅰ Linux终端命令学习**一 常见终端命令01 查看当前文件夹下的内容02 查看当前所在文件夹03 切换文件夹04 如果文件不存在,新建文件05 创建目录06 删除指定的文件名二 终端命令格式command [-options] [parameter]// []表示可选项command:命令名,相应功能的英文单词或单词缩写[-options]:选项,可用来对命...

2020-02-18 15:47:45 69

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除