- 博客(2)
- 问答 (1)
- 收藏
- 关注
原创 Python+正则表达式编写多线程百度贴吧网页爬虫
其实本来是想做一个利用Python+XPath的贴吧爬虫,但是遇到了一些很奇怪的问题搞了一天也没有解决,所以只有用简单的正则表达式来代替XPath。 这个小爬虫是用于爬取一个帖子所有的回帖人+回帖内容+回帖时间,并导出到本地的文件中保存。本次测试的贴吧地址为:https://tieba.baidu.com/p/3905531791?pn中1-5页的所有内容。 利用多线程可以大大提高爬虫爬取速度。
2017-08-25 21:12:18 669
原创 Python+Requests安装及抓取网页源码中文乱码问题的解决
Python+Requests安装及抓取网页源码中文乱码问题解决 刚开始自学Python课程,学习到自制单线程小爬虫,第一步就是自动抓取网页源码,但碰到源码中中文编码不同会出现乱码问题。
2017-08-23 15:45:57 3837
空空如也
Python+XPath网页爬虫问题
2017-08-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人