自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 爬虫user-agen大全

my_headers = [ "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36", 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Fi...

2019-09-26 12:15:36 789

原创 python字符串

字符串 string字符串操作字符串的内容几乎可以包含任何字符,英文字符也行,中文字符也行。字符串既可用单引号括起来,也可用双引号括起来假如字符串内容中包含了单引号,则可以使用双引号将字符串括起来语法内涵双引号,用单引号括,内涵单引号,用双引号括,否则语法错误如果内包含单引号,双引号 使用反斜线 \ 在要转义引号前使用拼接字符串长字符串可以使用...

2019-08-12 19:50:46 418

原创 python assert断言函数

Python assert断言函数及用法断言语句和 if 分支有点类似,用于对一个 bool 表达式进行断言,如果该 bool 表达式为 True,该程序可以继续向下执行;否则程序会引发 AssertionError 错误。if条件为True:程序会一直执行下面语句if 条件为False:程序引发AssertionError错误Error错误...

2019-08-12 19:47:01 170

原创 多线程

Python创建线程(2种方式)详解Python 提供了 _thread 和 threading 两个模块来支持多线程,其中 _thread 提供低级别的、原始的线程支持,以及一个简单的锁Python 主要通过两种方式来创建线程:使用 threading 模块的 Thread 类的构造器创建线程。继承 threading 模块的 Thread 类创建线程类。threading...

2019-08-12 19:46:03 100

原创 xpath使用

安装:pip3 install lxml绝对路径(每一个都是从根开始查找)查找了所有a标签的属性等于href属性值,利用的是/—绝对路径,列子:we_data = ‘’’ first item second item third item ...

2019-08-12 19:45:32 125

原创 scrapy命令

Scrapy一般通过指令管理爬虫项目,常用指令:startproject 创建爬虫项目genspider -l 查看爬虫模板genspider -t 模板 爬虫文件名 域名 创建爬虫crawl 运行爬虫list 查看有哪些爬虫bench 测试电脑性能fetch 直接爬某一个网页runspider 运行某一个爬虫项目也可直接运行scrapy新项目settings 设置shel...

2019-08-12 19:44:19 104

原创 scrapy安装步骤

安装scrapy:在https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml下载:根据自己电脑配置下载器ctrl+f搜索lxml:下载lxml包ctrl+f搜索Twisted:下载 Twisted包百度网盘连接:链接:https://pan.baidu.com/s/12vck1APKzarGT8BOh7uDKQ 提取码:zdil 复制这段内容...

2019-08-12 19:43:44 132

原创 re使用

导入:import re正则方法:全局函数使用格式:re.compile(‘要匹配的字符’,re.S).findall(‘字符’)建议加入re.S 返回列表包含元素如果匹配不到不会报错会返回一个空列表基础1:普通字符 正常匹配\n 匹配换行符\t 匹配制表符\w 匹配数字,下划线,字母\W 匹配除字母,数字,下划线\d 匹配十进制数字\...

2019-08-12 19:43:14 174

原创 requests使用

导入模块:import requests请求方式:如果网页是get请求:requests.get()如果网页是post请求:requests.post()如果使用put请求:requests.put()参数:params:用于设置get请求时候的参数headers:用于设置浏览器头部的,带着浏览器访问,相等于伪装成浏览器。proxies:设置ip代理...

2019-08-12 19:42:38 113

原创 Fiddler配置

安装fiddler软件:https://blog.csdn.net/SomeOne_yt/article/details/53120294配置浏览器:最好配置一个专一的浏览器:Firefox http协议配置:点击右上角—选项搜索框输入网络-----网络设置-----手动代理设置确定打开Firefox访问http协议网址,Fiddler会显示该网址的所有...

2019-08-12 19:42:21 141

原创 urllib使用

Http与Https区别协议https安全级协议http升级版http不加密传输信息,明文传输,https采用ssl/tls加密传输,安全性高http连接方式80端口,https连接方式443端口http连接无状态,https采用ssl/tls协议构建可加密传输,身份认证技巧:在爬取https网页发现爬取内容不理想,可以去掉s,使用http去爬取urllib快速爬取...

2019-08-12 17:26:22 208

原创 项目停用启用

创建mysql数据库主表名:设置两个外键 (停用 启用) (正常 检修中)建立一个状态表 默认值为1启用 0为停用设置状态表格式设为int 否则就要加引号为str主表外键外键表 停用启用 st外键表 正常 检修中 sttviews视图:def ting(request,id): s = Circuit.object...

2019-05-17 20:16:33 338

原创 综合总结

术语 解释 关系 公式 叫做线性回归用途:最简单预测连续值手段回归预测连续值(天气,速度,距离)用一条直线来拟合真实世界的一些规律属于有监督学习分类预测离散值(地名,品牌,颜色)属于监督学习有监督学习datasets(数据集)中的每一条样本(数据中的每一行),都有一个对应的label(结果)X --> YDa...

2019-05-17 20:12:23 328

原创 BeautifulSoup4的使用

BeautifulSoup去除打印时警告信息import warningswarnings.filterwarnings("ignore")html = """<tbody><tr class="h"> <td class="l" width="374">职位名称</td> <td>职位类别&...

2019-05-17 20:10:27 1295

原创 pandas处理丢失数据

pandas处理丢失数据Pandas将None和NaN视为可交换的,它们都可以用来指示丢失的数据。None可以代替丢失值(哨兵值)并不适合所有情况,只能用于数组的类型为对象的情况。 None会导致一些聚合操作,比如sum()和min()会报错。NaN 代替丢失值(另外一中哨兵值)一种特殊的浮点型数据,不管什么操作,只要有NaN,结果都为NaN(聚合操作能进行,但结果都是NaN)Numpy...

2019-05-17 20:07:31 288

原创 beautiful Soup方法

导入BeautifulSoupfrom bs4 import BeautifulSoup转至对象 括号可以加入url,要爬取得模板名,还可以加入‘lxml’解析器bs = BeautifulSoup(html,'lxml')格式化输出网页bs.prettify()匹配所有网页tr标签不加过滤条件,获取全部的tr标签bs.find_all('标签名')limit限制符合...

2019-05-17 20:01:28 218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除