自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 问答 (1)
  • 收藏
  • 关注

原创 关于echarts的前端数据可视化

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2022-02-25 01:33:32 969

原创 记录一次比赛试题及解答(数据采集、机器学习、可视化)

一、试题要求1.数据采集,以及预处理2.根据要求对数据可视化3.根据采集的数据建立模型,预测结果二、数据采集部分1.采集思路①由于出题方直接提供了html文件,因此采用本地解析页面的方法②利用XPath解析出结果,存储为scv2.代码部分from lxml import etreeimport csvimport pandas as pdimport osparser = etree.HTMLParser(encoding="utf-8")htmlelement = etree

2021-06-10 00:53:21 346

原创 关于Scrapy动态页面的数据采集——京东商城书籍

一、准备阶段1.网页观察①目标网址京东商城②网页为动态页面,需要伴随鼠标下拉显示所有内容二、代码逻辑1.利用splash请求目标网页2.编写lua_source脚本指令,目的是实现下拉操作以获取整张页面信息3.解析完整的html得到结果,存储在字典中4.scrapy crawl main -o res.csv 保存为csv格式文件三、环境搭建1.scrapy startproject jingdong2.scrapy genspider mian xxx3.安装splash,可以参考

2021-06-09 22:47:38 173

原创 关于起点中文网字体反爬的解决方法——以阅读指数榜为例

一、准备阶段1.目标网站观察①采集网页属于静态网页②网站做了字体反爬,关键信息在html中是乱码二、关于起点中文网的字体反爬1.什么是字体反爬① 网站采取的一种反爬措施② 通过自定义字体文件的方式,让前端显示正常,但在html中是乱码③ 一般自定义的字体文件是随机的,每次请求都会改变。还有一种字体反爬更加变态,在字体文件中还有一次随机,这样子即使获取到字体文件也很难找到字体Unicode与前端显示本文的正确对应关系,这种程度的反爬,我想应该需要通过机器学习来解决,本文并没有对此作答。2.

2021-06-09 22:07:01 3935 1

原创 关于天气后报网站的天气数据采集(以北上广深2020年为例)以及数据可视化

一、准备工作1.观察采集目标网站html结构①在入口网站可以采集到的每个月的空气质量链接,其中title属性会包含一个月份的标题信息②观察网页请求的返回信息发现,该网页是静态页面,爬取难度降低③数据被包含在table标签中2.搭建Scrapy 环境①scrapy startproject My_data②scrapy genspider main xxx二、采集思路1.通过入口网站,利用CSS选择器以“title*=“2020””为筛选条件采集到2020每个月份的空气质量网页链接2.获取

2021-06-09 16:11:41 1971 6

原创 关于2020年中国统计年鉴(教育部分)的数据采集

一、准备阶段1. 网站结构观察目标网站: http://www.stats.gov.cn/tjsj/ndsj/2020/indexch.htm观察结果:具体数据以图片的形式展现,在html中留有一个网址,需要一次请求获取图片*2.搭建Scrapy环境scrapy startproject statistical_yearbookscrapy genspider main http://www.stats.gov.cn/tjsj/ndsj/2020/indexch.htm*3. 代码逻辑1.利

2021-06-09 13:54:39 2465 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除