在技术海洋里潜泳-CSDN博客

原创穿越网页表单与登录窗口进行爬取

穿越网页表单与登录窗口进行爬取今天本文将见绍简单的网页表单与登录窗口爬取，主要说明如何进行前期的网络表单穿越与登录窗口，如有任何不足之处，望批评指正，谢谢！一、提交一个基本表单测试表单网址：http://pythonscraping.com/pages/files/form.html参考代码： `import requestsparams={'firstname':'Ryan','lastname':'Mitchell'}r=requests.post('http://pythonscra

2020-05-30 17:38:44 245

原创利用Scrapy爬取网易新闻

利用Scrapy爬取网易新闻本次利用Scrapy爬取网易新闻当天的新闻标题，内容，来源等信息并存储到csv文件中，具体操作如下。爬取在items.py中提前设置好相关的爬取内容函数：import scrapyclass NewsItem(scrapy.Item): # define the fields for your item here like: # name ...

2020-05-03 22:48:49 650

原创求解：Scrapy采用正则爬取后成功显示，但是无法定位到准确Url

求解：Scrapy采用正则爬取后成功显示，但是无法定位到准确Url今天使用scrapy进行爬虫，已经能够正常输出，但是输出内容无法定位准确URL，具体情况如图：cmd中输出的代码url应该是类似于https://new.qq.com/omn/20200501/20200501A07F2Q00.html这个问题困扰了我很久，希望路过的大佬能够指点我一下，谢谢！...

2020-05-01 15:14:04 200 6

原创 Scrapy爬虫之解决“'Rule' object is not iterable”

Scrapy爬虫之解决“‘Rule’ object is not iterable”Scrapy爬虫出现“‘Rule’ object is not iterable”时，意思是rule规定的正则表达式无法迭代，无法进一步爬取到所规定的页面，现有以下几种解决方式供参考。解决方法检查是否有相关代码打错。完善正则表达式rules=( Rule(LinkExtractor(a...

2020-05-01 14:45:50 765

原创结构化爬虫——通过搜索抓取网站

结构化爬虫——通过搜索抓取网站本次主要分享如何像人类使用搜索条一样爬取网站，即在网站上搜索关键词或者主题并收集搜索结果。前期准备通过搜索抓取网站会随着网站的不同而有很大可变性的任务，因此在爬取之前要注意分析url的共同点并且构造好相关函数。本次爬取选取百度网站来抓取几个不同关键词的结果（因为国内可用的搜索引擎差距不大，所以只选取百度一个来进行演练。）网站分析：可以发现，百度网址资讯板块里...

2020-04-25 20:39:31 2635 1

原创 “百度百科六度分隔理论”（简单版）

“百度百科六度分隔理论”（简单版）相信大家都听说过“维基百科六度分隔理论”，本文在此只研究该理论的前期过程，即构建一个从一个页面到另一个页面的爬虫。本文选用百度百科的金融词条进行测验。前期准备解决url乱码问题：百度百科的url显示出来会出现乱码，以下为解决办法。#https://baike.baidu.com/item/%E9%87%91%E8%9E%8D/860from urll...

2020-04-18 19:57:30 1468

原创文档树——节点内容

文档树——节点内容本文此次分享运用BeautifulSoup获取节点内容。一、获取直接子节点import requests#爬虫库from bs4 import BeautifulSoup#解析库headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...

2020-04-11 16:49:51 331

原创利用爬虫破解简单Custom font

利用爬虫破解简单Custom font持续更新第二弹！前期准备前提说明：本次选取实习僧的代码字体加密进行破解，需要注意的是，实习僧的字体加密每隔一段时间会发生变化，但破解方法大同小异。对象说明：本次选取实习僧网页中Python实习薪资进行破解，前面一些代码不做过多叙述，主要分享破解方法。代码破解铺垫代码展示：import requestsfrom bs4 import Be...

2020-04-09 22:46:04 127

原创利用爬虫爬取简单页码类网页数据

利用爬虫爬取简单页码类网页数据本人作为一名爬虫初学者，会每天分享自己的爬虫心路历程，希望能够帮助到有需要的小伙伴们。第一次写博客，有许多规矩不太了解，若有冒犯，请多多谅解，同时也希望大家多多指正本文中的不合理之处，谢谢大家！一、前期准备对象选择：本次爬取选择具有代表性的页码类网页——糗事百科，本次只爬取前四页的标题、笑话文字等内容。浏览器使用：chrome模块使用：requests、B...

2020-04-08 20:57:04 1263

qq_46273905的博客