自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 问答 (1)
  • 收藏
  • 关注

原创 Python+正则表达式编写多线程百度贴吧网页爬虫

其实本来是想做一个利用Python+XPath的贴吧爬虫,但是遇到了一些很奇怪的问题搞了一天也没有解决,所以只有用简单的正则表达式来代替XPath。 这个小爬虫是用于爬取一个帖子所有的回帖人+回帖内容+回帖时间,并导出到本地的文件中保存。本次测试的贴吧地址为:https://tieba.baidu.com/p/3905531791?pn中1-5页的所有内容。 利用多线程可以大大提高爬虫爬取速度。

2017-08-25 21:12:18 669

原创 Python+Requests安装及抓取网页源码中文乱码问题的解决

Python+Requests安装及抓取网页源码中文乱码问题解决 刚开始自学Python课程,学习到自制单线程小爬虫,第一步就是自动抓取网页源码,但碰到源码中中文编码不同会出现乱码问题。

2017-08-23 15:45:57 3837

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除