自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 MongoDB常用命令

show dbs //显示所有的数据库show tables // 显示当前库的表db //显示当前库的名称use dbname //如果数据库不存在,则创建数据库,否则切换到指定数据库。db.dropDatabase() //删除当前数据库db.tablesname.drop() //删除tablesname这个表use test //使用test库db.test.insert...

2019-01-21 10:55:19 176

原创 Redis常用命令

Redis 一个内存数据库,通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中,所以访问速度非常快,因此 Redis 大量用于缓存系统,存储热点数据,可以极大的提高网站的响应速度。keys * //获取所有的键keys ab* //获取以ab开头的键exists listab //判断名为lsitab的键是否存在del listab //删除名为...

2019-01-20 21:12:16 157

原创 新浪积分爬取数据存进数据库

今天爬取的网站是http://jifen.sina.com.cn/category今天遇到的两个难点是:一、通过xpath爬取img的src的属性结果是另一个图片的连接二、xpath爬取下来的内容存进mysql遇到的问题一边上代码 一边说问题import requestsimport mysql.connectorfrom lxml import etreeimport rando...

2019-01-14 20:50:51 342

原创 selenium二或者三层连接爬取

今天的案例以猫眼影院为例:爬取里面各个地区,各地的电影院的所有信息url:https://maoyan.com/cinemasimport requestsfrom lxml import etreefrom selenium import webdriverfrom urllib import request,parseimport timedirver=webdriver....

2019-01-11 20:53:22 505 2

原创 selenium爬取B站的弹幕制作词云

B站的弹幕的api是:"https://api.bilibili.com/x/v1/dm/list.so?oid=26495963oid是视频的id这个api用谷歌的开发者工具是看不到内容的,建议都用火狐来 找apifrom selenium import webdriverfrom lxml import etreeimport requests#这个是 B站弹幕爬取url="h...

2019-01-11 20:39:27 990

原创 selenium登录网页

如何使用selenium登录现在开始码代码from selenium import webdriverfrom lxml import etreeimport timeurl="https://www.douban.com/"# driver=webdriver.PhantomJS(executable_path=r'D:\ysc桌面\Desktop\phantomjs-2.1.1-...

2019-01-11 20:28:24 878

原创 selenium配合无界面浏览器

抓取必须浏览器打开的页面就要使用到selenium和无界面浏览器才能抓取到页面内容from selenium import webdriverimport timefrom selenium.webdriver.common.keys import Keys#找到路径driver=webdriver.PhantomJS(executable_path=r'D:\ysc桌面\Deskt...

2019-01-07 20:28:58 996 2

原创 pandas基础使用

pandas基础使用import pandas as pd#打开csv 文件 sep 分隔符一般为,# info_csv = pd.read_csv("info.csv",sep=",",encoding="gbk")#存储csv文件# info_csv.to_csv("123.csv",sep=",")#读取excel# date_excel=pd.read_excel("ab.

2019-01-07 19:53:11 143

原创 bs4 爬取招聘信息

今天进行爬取招聘信息网import requestsfrom bs4 import BeautifulSoupproxy = { "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; .

2019-01-05 15:02:57 296

原创 bs4的使用

需要安装的,命令窗口: pip install bs4import requestsfrom bs4 import BeautifulSoup# 代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}#伪装头headers = { 'User-Agent': 'Mozi...

2019-01-05 15:00:09 340

原创 requests使用案例 爬取信用中国

信用中国 获取某公司的所有信息不过该网站容易被限制ip而且服务器性能也不好 经常出现各种bug新手要耐心尝试信用中国网址:url = “https://www.creditchina.gov.cn/api/credit_info_search?&templateId=&pageSize=10”需要多层请求爬取代码有点长 但是代码简单 耐心看能看懂写博文时 没有进行精...

2019-01-05 14:45:14 3077 4

原创 xpath使用

使用xpath 需要导入lxml 这个包没有装的 可以 pip install lxml我们就以 http://langlang2017.com/ 为例简单介绍一下xpath的使用import requests#从lxml中导入etree 这个就是转化页面from lxml import etree#代理ipproxy = { "HTTP": "113.3.152.88:...

2019-01-05 14:40:24 248

原创 requests二次爬取全国邮编

全国邮编的网址:http://www.ip138.com/post/我们这次是爬取 每一个省里面的所有邮编信息这里要进行二次爬取,才能完全获取完数据.import requests,re#代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}#伪装头信息headers={ ...

2019-01-05 14:28:22 285

原创 requests爬取扇贝单词

import requests,reproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like...

2019-01-03 21:47:46 495

原创 requests 爬取电影

今天我们就以猫眼为例import requests,re#代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#爬取网址url="https://maoyan.com/board"#伪装头headers={ "User-Agent": "Mo

2019-01-03 21:44:56 194

原创 记录一个 scrapy 使用的bug!!!巨坑巨坑!

scrapy 配合selenium使用的注意问题今天使用scrapy 的中间件对request 进行封装!测试开始是一个网页,完美通过,然后准备大量爬!结果出来bug ,先上代码,或者其他大佬有更好的解决方法!!!!!有的请留言 让我学习一下! 关于这个scrapy框架 以后会上博客写使用详情 !##小项目是这样写:import scrapyfrom ..items import YDo...

2018-12-28 20:28:39 709

原创 requests 的session使用

0基础的人也能学会使用哦今天就用人人网登录为例子import requests#爬虫一定要使用代理 防止封IPproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#人人网登录网址login_url="http://www.renren.com/PLogin.do"#帐号密码填写自己的...

2018-12-27 22:26:14 4013 1

原创 requests

requests模块爬虫使用今天使用requests,爬取"http://langlang2017.com/立马上代码!#第一步使用代理#都是键值对,而且有HTTP 和HTTPS的代理import requestsproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#伪装请求头h...

2018-12-27 22:19:15 133

原创 urllib爬取电影

豆瓣电影排行榜的网址:https://movie.douban.com/chart找真实的url

2018-12-22 11:51:53 644

原创 urllib爬取异步加载,动态加密网页

爬取有道翻译有道在线翻译:http://fanyi.youdao.com/如果直接爬取,返回的信息几乎为0!第一步:浏览器上打开我们的开发者工具(F12)第二步:点到network第三步:在翻译处输入 内容接下来我们发现这才是我们提交的网址继续往下看这是我们提交的数据所以真实的url=“http://fanyi.youdao.com/translate_o?smartre...

2018-12-21 20:17:41 956

原创 urllib的异常处理

urllib的异常处理测试话不多说直接上代码import urllib,randomfrom urllib import request#代理列表proxy_list=[ {"HTTP": "113.3.152.88:8118"}, {"HTTPS":"58.210.136.83:52570"}, {"HTTPS":"219.234.5.128:3128"

2018-12-21 19:58:18 178

原创 urllib使用代理

在网上大型网站找到代理ip地址,我从某个网站获取几个代理ip地址:“HTTP”: “113.3.152.88:8118”,“HTTPS”:“58.210.136.83:52570”,“HTTPS”:“219.234.5.128:3128”,当你们使用的时候可能已经过期 或者别那个啥了!!所以还是自己去找找!#先导入urllib 如果没有这个 请用pip install urllib安...

2018-12-21 16:42:23 8066 2

原创 urllib制作活字典

简单爬取大型网站的在线翻译from urllib import request,parseimport jsonurl="https://fanyi.baidu.com/sug"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge...

2018-12-20 21:06:18 95

原创 爬虫urllib使用

爬虫urllib使用request 和parse使用request 和parse使用from urllib import request#例如爬取 百度首页#直接爬取 https://www.baidu.com/ html_obj=request.urlopen("https://www.baidu.com/ ")#然后读取爬取的内容 并以utf-8转码html_content=ht...

2018-12-20 19:53:13 129 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除