自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 关于计算机浮点数存储(二进制)方式的总结

对浮点数存储二进制方式的总结

2019-09-08 11:41:10 166

原创 关于补码学习总结(补码来历及推导过程)

最近又重新温习了下C语言,同时对二进制又有了新的认识,以下就是我对二进制、补码等问题的思考,直接复制的笔记。

2019-09-08 11:38:36 738

原创 Spark-yarn-client模式报 "/etc/hadoop/conf.cloudera.yarn/topology.py" error=2, No such file or directoy

这个问题的报错是cloudera之前版本的一个bug解决办法就是把其他datanode中的/etc/hadoop/conf.cloudera.yarn/复制到执行spark-shell的这台机器上。

2019-07-15 20:30:15 840 1

原创 本地机器,跨接远程服务器连接远程mongo服务(ssh tunnel)

命令行中使用设置本地9999端口与远程服务器连接的27017端口建立联系(如果没有rsa,则提示输入密码) ssh -fN -l ubuntu -L 9999:{$remote_mongo_ip}(表示mongo的远程ip):27017 {$remote_server_ip}(可登录mongo的远程ip)启动本地9999端口mongo --host 127.0.0.1 --port 99...

2018-12-25 16:50:31 1177

原创 gitlab问题处理

用pycharm无意修改了git文件夹下的部分文件,但是之前修改的没有注意哪里修改的,又想git push本地代码到fork的项目,笨方法是重新git clone。其中ruyi代码fork的别人的源仓库,origin为fork别人后自己的远程仓库 后来上网查操作步骤大概是: git fetch ruyi #表示从远程ruyi拉项目到本地,不尽兴合并操作 git reset --...

2018-11-29 15:11:16 225

原创 京东商品列表反爬解析+下拉url接口构造(反爬虫)

由于京东运用ajax加载页面,正常的爬取页面不能获得全部页面内容,之前做过用Scrapy + Selenium实现京东商品列表摘要信息的爬取,今天又研究了一下其下拉后接口url的构造,终于发现了其中的奥秘!先用谷歌浏览器请求网页:https://search.jd.com/Search?keyword=手机&enc=utf-8&qrst=1&rt=1&stop=1...

2018-09-18 19:53:39 5735 1

原创 Mongodb数据库聚合自由查询显示的方法

Mongodb数据库查询显示的方法:今天用了好几个小时的时间翻阅各种资料,最后终于在Mongodb官方文档中找到,Mongodb数据库查询,展示数据时,字符串的截取功能,代码如下:db.boss_python.aggregate([{'$match':{'job_time':{'$regex':'2018-09.*'},'job_address':'城市:深圳'}}, ...

2018-09-17 20:57:27 1043

原创 python + pyecharts + wordcloud数据可视化

之前的文章写到了requests + 多进程对Boss直聘网的职位进行爬取,这次就对之前爬取的数据,进行可视化分析。Boss直聘网爬虫的文章在这里:https://blog.csdn.net/weixin_42350948/article/details/82288076进入正题:本篇文章主要讲python + pyecharts + wordcloud对爬取的数据进行数据分析...

2018-09-16 10:58:44 5420

原创 Mongodb数据库删除重复数据

具体代码如下:db.boss_python.aggregate([ { $group: { _id: {job_id: '$job_id'},count: {$sum: 1},dups: {$addToSet: '$_id'}} }, { $match: {count: {$gt: 1}} } ]).forEach(funct...

2018-09-12 19:51:54 2124 2

原创 Linux系统,下载文件_解压_添加的path

解压缩:tar -xvf xxx文件夹.tar.bz2将程序移动到合适的位置:sudo mv xxx文件夹 /usr/local/src/xxx文件夹创建软链接到环境变量中。这样可以直接在shell中使用xxx命令:sudo ln -sf /usr/local/src/xxx文件夹/bin/xxx /usr/local/bin/xxx其中的参数s表示为软链接,参数f表示...

2018-09-11 11:40:37 205

原创 Scrapy + Selenium 爬取京东商品列表

爬取思路框架:分析网页构成,用xpath解析网页; 2. 由于京东商品列表页为ajax请求,正常的请求只能拿到一半的数据,另一半数据需要下拉滚动条才会显示,因此我们用selenium模拟浏览器下拉操作访问网页,才能得到完整的数据。直接进入正题: 1、先创建一个scrapy项目 在系统命令行输入:scrapy startproject jd项目创建成功...

2018-09-10 19:29:19 3991 2

原创 Boss直聘网requests多进程爬虫,写入Mysql

学爬虫好久了,今天用requests库爬了一下,Boss直聘的python职位信息,解析后写入Mysql数据库首先要确定要做的具体框架:获取所爬城市的编号通过获取城市编码及python对应的编码,构造url进行请求,获取具体职位的url爬取具体职位url,解析需要的关键信息,同时写入数据库废话不说 开始上代码 首先导入所需要的模块:这里用到了’正则表达式’因此要导...

2018-09-01 16:14:20 2605 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除