自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 简单的scrapy爬虫:豆瓣剧情片排行榜

目标:简单的scrapy练习,抓取豆瓣剧情片排行榜前20%并写入文件保存网址:https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85%E7%89%87&type=11&interval_id=100:90&action=网页说明:   1,网址中100:90部分控制排行榜中分数最高的20%...

2018-08-17 11:54:35 432

原创 关于爬虫时url去重的初步探讨(上)

博客第十五天测试内容:自己写init_add_request(spider,url:str)方法实现url去重(本次仅测试)工具:Python3.6,Pycharm,scrapy,工程内容:     1. 准备:# spider.pyimport scrapyfrom scrapy.http import Requestclass DuanDian(scrapy.Spider): ...

2018-03-28 11:20:29 950

原创 萌新的Python学习日记 - 爬虫无影 - 爬取豆瓣电影top250并入库:豆瓣电影top250

博客第九天测试页面:豆瓣电影 Top 250https://movie.douban.com/top250?start=0&filter=目的:抓取该页面中每部电影的名称,链接,评分,评语工程内容:Python3.5,jupyter notebook工具包:requests,BeautifulSoup代码(可翻页):import requestsfrom bs4 import Beauti...

2018-03-22 20:56:30 1049

原创 萌新的Python学习日记 - 爬虫无影 - 爬取58二手车指定页面内容存储并查询:58二手车

博客第八天测试页面:58二手车:http://bj.58.com/ershouche/0/pn1/,目的:爬取前三页列表中每个对象的指定信息并存储,工程内容:Python3.5,jupyter notebook工具包:requests, BeautifulSoup,pymongo代码(前三页):import requestsimport pymongofrom bs4 import Beautif...

2018-03-21 08:26:31 1347 1

原创 萌新的Python学习日记 - 爬虫无影 - 爬取58同城指定页面的内容:bj.58.com

博客第六天测试页面:58:http://bj.58.com/pbdn/?PGTID=0d305a36-0000-1b29-d7c1-bc8b28eaff0b&ClickID=5,目的:爬取页面中个人分类列表中每个对象的指定信息,工程内容:Python3.5,jupyter notebook工具包:requests, BeautifulSoup,代码(不可翻页):# 获取个人商户itemim...

2018-03-19 17:57:14 804

原创 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + urlretrieve 抓取并保存图片:weheartit

博客第三天测试页面:weheartit:https://weheartit.com/inspirations/taylorswift?page=1&scrolling=true&before=308888434,目的:爬取并存储页面上的图片,工程内容:Python3.5,jupyter notebook工具包:requests, BeautifulSoup,urllib.reque...

2018-03-16 21:41:22 798

原创 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取动态网页内容:Knewone

博客第二天测试页面:Knewone:https://knewone.com/discover?page=,目的:爬取第一区类的title,img,各对象href,工程内容:Python3.5,jupyter notebook工具包:requests, BeautifulSoup,time,pandas代码(可翻页):import requestsfrom bs4 import BeautifulS...

2018-03-15 22:21:04 934

原创 萌新的Python学习日记 - 爬虫无影 - 添加headers抓取动态网页内容:TripAdvisor(上)

博客第二天测试页面:TripAdvisor:https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html#FILTERED_LIST,目的:爬取第一区类的title,img,cate,工程内容:Python3.5,jupyter notebook工具包:requests, Beautiful...

2018-03-15 22:20:58 461

原创 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取自己想要网页内容

博客第一天测试页面:★豆瓣高分电影榜★ (上)9.7-8.6分:https://www.douban.com/doulist/240962/,目的:抓取该页面中每部电影的名称,图片链接,剧组信息,简介,评语工程内容:Python3.5,jupyter notebook工具包:urllib.request,BeautifulSoup代码(单页内容):from bs4 import Beautiful...

2018-03-14 13:34:41 1855

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除