自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 读取含有中文的数据集时报错

Python在读取中文数据的时候经常会出错例如,有以下代码,想要打印一下是否读取到了stopkey:stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', encoding='UTF-8').readlines()]print(stopkey)错误信息如下:UnicodeEncodeError: 'gbk' code...

2020-04-14 23:36:09 363

原创 使用scrapy爬虫时遇到的问题

main函数是如何决定爬取哪个页面?例如下图,execute函数中有3个参数,第三个元素决定着不同的网页需要注意的是,第三个元素是.py文件中class的name属性,而不是文件名:Scrapy爬虫返回403错误原因很有可能是获取robots没有获取到,推荐一种解决办法:https://blog.csdn.net/qq_31239371/article/details/8299939...

2020-04-02 15:11:05 307

原创 如何得到DOM树结构

通过 Fn+F12 进入开发者模式寻找标签所在路径再举个例子:基于电影天堂画的DOM树:

2020-04-02 14:48:20 513

原创 安装ES报错,闪退…

安装elasticsearch-7.4.1出错双击.bat文件后闪退,无法看到错误内容解决思路:启动powershell cd进入bin文件所在的目录。例如,路径为D:/software/es/bincd命令为:cd"D:/software/es/bin"输入以下命令:.\elasticsearch.bat>>self_test.txtbat文件所在的目录...

2020-04-01 15:00:51 730

原创 正则表达式的练习

正则表达式小练习实现目标代码实现运行结果相关学习资源实现目标代码作业-正则表达式:只用一种正则表达式把以下日期提取出来•”xxx出生于1995年6月1日”• ”xxx出生于1995/6/1”• ”xxx出生于1995-6-1”• ”xxx出生于1995-06-01”• ”xxx出生于1995-06”代码实现#!/usr/bin/python# -*- coding: UT...

2020-04-01 14:15:07 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除