自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

登高自卑

最近忙考研,没时间看博客了,不好意思

  • 博客(23)
  • 问答 (1)
  • 收藏
  • 关注

原创 requests+bs4+正则爬取前程无忧招聘信息进阶版

整理思路获取所有职位信息的url通过正则去掉不符合要求的url爬取详情页信息解析详情页写入txt文件循环抓取提高速度多线程爬取先放上url:https://search.51job.com/list/000000,000000,0000,00,9,99,+,2,1.htmlurl的最后“1.html”中的1是指第一页第二页就是2.html以此类推我们可以使用一个变量替代实现循...

2019-03-24 13:43:26 1607 3

原创 pandas 分析NBA球员常规赛2007年到2018年常规赛数据

最近爬了一些NBA球员的数据,想用pandas来做一下简单的分析一下,主要用到的函数就三个:apply,group by ,sum处理思路:对数据按照球员名字进行分组统计每个球员每列数据的总和即2007年到2018年数据的合对列进行作商看一下球员数据:数据格式是json格式最外层是detail 和 name字段detail保存的是球员的详细数据,name字段保存的是球员的名字。...

2019-04-30 23:10:38 817

原创 python 爬取NBA中国官网球员数据

现在很多网站的数据都是通过Ajax动态加载的,我认为这恰恰降低了我们爬取的难度,因为我们无需考虑如何解析数据,只需要将json文件转换为字典形式,通过字典的键就可以取得我们所需要的数据。爬取网站:NBA中文官网用到的库:requests、json思路:分析页面找到保存有球员名字的json文件解析json文件获取球员名字获取保存球员数据的json文件解析json文件获取有用的数据将...

2019-04-26 20:32:22 4493 4

原创 MapReduce清洗json数据——去空去重并使用指定符号分隔数据

咳咳,终于要写mapreduce了,算是填上了以前挖的坑,虽然时间有点晚。。。。。。mapreduce去空去重并格式化输出数据前提:解析json的库:我使用的是阿里的fastjson思路:数据去重:map的输出<key,value>经过shuffle过程聚集成<key,value-list>后交给reduce,无论这个数据出现多少次,只要在最终结果中输出一次就可以了...

2019-04-24 23:10:35 4593 14

原创 hive启动报错:Relative path in absolute URI

hive启动的时候出现错误:Exception in thread “main” java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: KaTeX parse error: Expected '}', g...

2019-04-06 13:42:29 6387 1

原创 Flask+echarts实现招聘信息数据可视化

首先声明本人也是初学者如有错误欢迎指正,而且我在团队中主要负责爬虫和可视化数据清洗暂未学习我会在四月的某一天补上使用MapReduce进行数据清洗然后导入hive进行分析!这一篇主要写的是使用Blueprint对每个视图函数进行分包,基础步骤如连接数据库以及查询数据请参考我的另一篇文章(https://blog.csdn.net/qq_42844049/article/details/883642...

2019-03-25 17:21:46 5578 137

原创 Flask + echarts 实现数据可视化 jinja2模板变量代码块报错

最近在做一个数据可视化的项目使用的是flask + echarts 一直以来都是使用pycharm直接创建flask项目这几天想自己手写一个flask项目但是问题来了!!!jinja2模板标红了但是运行是没有问题的控制台也没有任何报错信息这个问题纠结了好几天,虽然运行没问题可是一直标红也不舒服下面看我的问题:先来看一下我的项目结构(手写):我使用了Blueprint分包然后在__init__...

2019-03-20 14:50:24 2333 3

原创 解决flask后台数据传递到前端字符被转义

今天在使用flask+echarts做数据可视化的时候发现后台数据传递到前台但是前台的图表却无法显示F12查看错误后发现数据中的引号被转义了原因是为了防止js注入我需要的数据格式为是一个列表如何不让引号转义呢很简单只需要在变量后面加tojson即可这样数据就正常显示了看一下正常数据:...

2019-03-12 16:47:18 5909 10

原创 scrapy命令行入门学习

Command line tool:其中全局命令可以不用进入项目使用项目命令必须进入项目使用Windows 下创建一个scrapy项目:打开cmdscrapy createproject 项目名如果你想在指定目录创建项目后面可以加上项目路径如:scrapy createproject myproject c:\\scrapycode或者是直接进入项目路径直接创建:c:cd ...

2019-03-11 19:22:51 168

原创 flask+mysql+ECharts+ajax+百度地图实现数据可视化

思路1:后台连接数据库创建session对象2:创建表关系映射3:查询数据4:将数据封装成特定格式(json)5:前台通过ajax请求指定路由异步加载数据并在地图上展示先来看一下效果地图参考:https://gallery.echartsjs.com/editor.html?c=map-china-dataRange准备:导入相应的库连接数据库:sqlalchemyfrom ...

2019-03-09 14:23:14 5514 74

原创 TXT文件导入mysql

今天在做数据可视化的时候原始数据是一个txt文件要求是在数据库中查询然后可视化所以要先把txt文件导入数据库我们先来看一下文件结构:可以看到文件主要包含 :职位、公司、地点、薪资、发布时间和职位描述,中间用’\t’分隔第一步:先建一张表包含职位、公司、地点、薪资、发布时间和职位描述等字段sql命令:create table recruit( id int primary key aut...

2019-03-04 18:22:11 9217 4

原创 BeautifulSoup4 css选择器选中一个html标签的class属性拥有多个值的标签

最近在学习bs4时遇到一个问题如果一个标签的class属性拥有多个值我们应该如何精确的选中它呢我只需要第一个div里的内容查阅了相关资料后找到了解决办法我们可以使用soup.select_one()方法返回第一个div里的内容但是这个div的class属性有两个值’e’ ‘e4’我们可以将两个属性都传入css选择器中soup.select_one('div.e.e4')这样就可以精确...

2019-02-26 20:15:46 6892

原创 hive启动报错拒绝连接

启动hive时出现错误拒绝连接检查后发现原来是hadoop进程没起!!!!!一定要仔细先启动hadoop进程再启动hive注意hadoop进程要全部启动

2019-02-26 19:03:26 8981 9

转载 hive启动时报错Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/Hive

今天在启动hive时一直报错Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf百思不得解又得百度记录一下解决方法:错误原因是我以前通过eclipse Java api写Hadoop程序时报错找不到hbase的包那时候我在hadoop-env.sh中加了...

2019-02-26 18:59:30 6885 1

转载 MySql服务启动报错"超时时间已过,......."

今天在将爬下来的数据导入数据库中时突然发现自己数据库进不去了关闭服务以后服务一直启动不了报错" 超时时间已过而服务却没启动"大概就是这意思吧,百度了一下,最后在百度经验找到一篇文章试了一下成功启动了服务步骤:右击我的电脑选择管理找到服务找到MySQL服务右击选择属性点击登陆选择本地系统账户然后点击应用–&gt;确定重启MySQL服务发现服务启动了有没有明白的大神给指点一下最后...

2019-02-26 18:47:10 4335 1

转载 用 sqoop 将本地数据库导入到虚拟机的hive中报错:Host is not allowed to connect to this MySQL server

错误原因是:本地数据库权限问题,本地数据库禁止远程登陆解决办法:打开cmd进入mysql的安装目录的bin目录先启动mysql命令:mysql -u root -p root(密码改成自己设置的密码)或者安装了mysql-command的直接打开mysql-command输入密码登陆执行grant all PRIVILEGES on movies.* to root@'192.168.27.1...

2019-02-23 14:09:45 441

转载 python使用pymysql连接mysql数据库报错:1042Can't get hostname for your address

python使用pymysql连接mysql数据库报错:1042Can’t get hostname for your address检查hosts文件路径:C:\Windows\System32\drivers\etc去掉前面的‘#’修改MySql的my.ini文件我的在C:\ProgramData\MySQL\MySQL Server 5.7找到mysqlid节点加入以下两项#跳...

2019-02-23 11:16:57 671

转载 module 'pip' no attribute 'main'

python 更新pip后pycharm运行报错:module ‘pip’ no attribute ‘main’打开pycharm安装目录找到helpers\packaging_tool.py文件建议用管理员身份运行pycharm打开文件因为python对缩进有严格要求用pycharm会比较方便不然前后缩进不一致会报缩进错误在文件中找到do_install()和do_uninstall()方...

2019-02-23 10:17:54 140

原创 flask模板加载js,css文件

flask模板加载js,css文件最近在做数据可视化的时候接到一个需求:要求在flask中用ECharts实现数据可视化这就涉及到了flask中模板静态文件加载的问题,我们使用传统的方法是不能导入文件的如&lt;script src="/js/echarts.js"&gt;&lt;/script&gt;用这样的方法Flask找不到资源文件。静态文件:通常是 CSS 和 JavaScript 文...

2019-02-20 23:02:23 19521 2

原创 vmware workstation14pro虚拟机开机黑屏处理办法

今天在安装win7虚拟机的时候发现虚拟机开机一直黑屏,以为镜像损坏,换了几个镜像后发现还是一直黑屏,然后百度了下发现了错误,尝试了以后确实可以,所以记录一下。错误原因:可能是由LSP引起的LSP(分层服务提供程序):LSP即分层服务提供商,Winsock 作为应用程序的 Windows 的网络套接字工具,可以由称为“分层服务提供商”的机制进行扩展。Winsock LSP 可用于非常广泛的实用用...

2019-02-19 10:27:58 4168 1

原创 flask WTF 与 SQLAlchemy实例——简单图书管理系统

思路梳理配置数据库a.导入SQLAlchemy扩展b.创建db对象并配置参数c.创建数据库添加书和作者模型a.设计表结构b.模型继承自db.Modelc._ _ tablename _ _ = ‘表名’d.db.Column 标明字段e.db.relationship 关系引用添加数据使用模板显示数据库查询数据a.查询所有作者信息,并把信息传递给模板b.模板for循环...

2019-02-10 17:21:04 742

原创 Flask-sqlalchemy模型之间的关联

仅仅是为了方便查询需要一些属性去便利的查询数据但这些数据不能出现在表的字段中一对多#在一的一方写关联users = relationship('User',backref=role)#参数为模型名,关系的另一个模型的反向引用,User表明与User模型发生了关联,backref表明role是User要用的属性效果完整代码from flask import Flaskfrom f...

2019-02-09 15:17:22 1031 2

原创 Flask-sqlalchemy扩展学习

flasqlalchemy数据库相关配置:引入相关模块from flask_sqlalchemy import SQLAlchemy创建数据库实例db = SQLAlchemy(app)配置数据库相关信息#数据库地址用户名及密码以及数据库名称app.config['SQLALCHEMY_DATABASE_URI'] = 'mysql://root:root@127....

2019-02-09 14:30:40 213

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除