- 博客(48)
- 资源 (5)
- 收藏
- 关注
原创 使用scrapy爬取古诗文网的前十页数据
内容简介使用scrapy爬取古诗文网的前十页数据创建scrapy框架设置scrapy项目写爬虫类设置爬取的内容保存数据标题设置多页爬取(在gsww_spider.py里面设置)使用scrapy爬取古诗文网的前十页数据创建scrapy框架使用cmd创建一个爬虫项目scrapy startproject gsww #创建新项目然后进入目录中,创建spidercd gsww scrapy genspider gsww_spider www.gushiwen.cn设置scrapy项目在s
2020-10-07 12:37:48 1251
原创 12306抢票一(登录)
12306抢票一(登录)找到登录的页面,由于账号密码登录比较麻烦就直接扫码登录所以要先找到登录页面的url,利用selenium进行登录。在实战中一般要先把框架给搭好,好后面添加代码。为了代码得简洁,可读性较高,所以整个过程在一个类中实现,类中又定义了不同的函数来实现不同的功能搭框架:有一个执行的入口,有一个主函数可以调用定义的类。class TrainSpider(object): def __init__(self, *args, **kwargs) pass def run(self
2020-09-22 13:23:20 416
原创 多线程爬取段子
使用多线程爬取段子请求网页响应获取源码由于使用多线程代码比较多,所以定义一个采集类class CrawlThread(threading.Thread): def __init__(self, name, url_queue, data_queue): super(CrawlThread, self).__init__() self.name = name self.url_queue = url_queue self.data_
2020-09-20 22:56:33 156
原创 多线程爬取王者荣耀游戏壁纸
多线程爬取王者荣耀游戏壁纸https://pvp.qq.com/web201605/wallpaper.shtml王者荣耀游戏壁纸的下载页面右键检查但是在网页源代码里找不到壁纸的链接这个文件是还需要进行一个解码操作,再提取壁纸的下载链接进行多线程爬虫时,把生产者和消费者各自创建一个类这个类要继承threading.Thread类还要写入run方法,类中需要传入参数需要重写父类的__init__()方法使用队列需要定义用到的队列1.定义生产者类class Producer
2020-09-18 17:37:06 846
原创 使用navicate11连接mysql8报错的解决方法
使用navicate11连接mysql8报错的解决方法使用navicate11连接mysql8,报错1251的错误1251- Client does not support authentication protocol requested by server consider upgrading MySQL client网上查找原因发现是mysql8 之前的版本中加密规则是mysql_native_password,而在mysql8之后,加密规则是caching_sha2_password, 解决
2020-09-16 15:54:55 1359
原创 爬取快代理的ip地址
爬取快代理的ip地址导入必备的库包import requestsfrom bs4 import BeautifulSoup准备url地址url = 'https://www.kuaidaili.com/free/inha/{}/'请求网页响应 data = requests.get(url, headers=headers)使用Beautifulsoup解析网页并提取内容data = requests.get(url, headers=headers)html =
2020-09-13 18:31:24 412
原创 scrapy 小项目——爬取豆瓣排行榜250
scrapy startproject douban #创建一个新的项目scrapy genspider Top250 douban.com #创建爬虫打开items.py,在DoubanItem中添加属性
2020-06-23 11:23:28 227
原创 from sklearn.linear_model import RandomizedLogisticRegression as RLR导入报错
遇到的问题:from sklearn.linear_model import RandomizedLogisticRegression as RLR导入报错from sklearn.linear_model import RandomizedLogisticRegression as RLRImportError: cannot import name ‘RandomizedLogisticRegression’ from ‘sklearn.linear_model’ (D:\anaconda\li
2020-06-19 14:20:07 6461 10
原创 爬取博客的发帖信息保存在csv文件中
使用xpath爬取我的博客的发帖信息并保存在csv文件中#! /usr/bin/env python# -*- coding:utf8 -*-import requestsimport csvfrom lxml import etreeurl = 'https://blog.csdn.net/qiaoenshi'headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb
2020-06-11 12:38:56 220 1
原创 pyecharts数据可视化应用
内容简介pyecharts的应用绘制树图绘制矩形树图绘制散点图矩阵绘制地图,标出销售数据绘制地理热点图绘制词云图绘制主题河流图pyecharts的应用绘制树图from pyecharts.charts import Tree, TreeMapimport pyecharts.options as optsfrom pyecharts.globals import ThemeTypeimport json #导入json模块with open('lianxi.json', 'r', enc
2020-06-10 13:23:54 666
原创 爬虫偷懒小插件——Katalon Recorder
简介Katalon Recorder——火狐浏览器中的小插件下载插件使用插件Katalon Recorder——火狐浏览器中的小插件此处附上一个莫烦python的教学视频有操作介绍:[https://morvanzhou.github.io/tutorials/data-manipulation/scraping/5-01-selenium/下载插件打开火狐浏览器如下图,点击附加组件然后,进入插件页面下载安装即可使用插件打开插件点击Record,开始录制录制完成后,点击stop
2020-06-06 19:56:51 934
原创 pyecharts在数据可视化中的应用
内容简介pycharts在数据可视化中的应用使用pychats需要导入的几个必要的库包折线图阶梯图堆叠柱状图极坐标系堆积柱状图pycharts在数据可视化中的应用附上pyecharts中文文档链接http://pyecharts.org/#/zh-cn/intro使用pychats需要导入的几个必要的库包#从pyecharts.charts导入绘制图表的类型from pyecharts.charts import Line, Bar , Pie, Polarfrom pyecharts.rend
2020-06-05 10:47:26 888
原创 pycharm和numpy不匹配
pycharm和numpy不匹配报错信息ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try ...
2020-05-05 20:19:20 1451
原创 两种limit和skip的比较
查询中limit、skip的顺序不影响结果 db.movie.find().limit(2).skip(2) db.movie.find().skip(2).limit(2) #顺序不一样不影响结果管道操作中limit、skip的顺序影响结果 db.movie.aggregate([{$skip:5},{$limit:2}]) db.movie.aggregate([{$limit...
2020-04-22 19:54:53 472
原创 aggregate 流水线操作
aggregate 流水线操作db.集合名.aggregate([{$match:{key:value}}, #筛选条件{$group:{_id:$分组字段,keyname:{"$sum:1"}}},#keyname指结果中返回的字段{$project:{key1:value1}},#过滤显示字段或生成新字段{$sort:{<field>:1}}, #按字段fi...
2020-04-21 21:45:50 246
原创 更新2
更新在数组中的操作$pushdb.class1.update({"name":"c语言程序设计"},{$push:{"category":"教育"}}) #添加内容$each db.class1.update( {"name":"小学六年级数学(上)"}, {$push:{"category":{$each:["图书","教育"]}}} ) #有多个数据时,一个...
2020-04-19 20:17:00 97
原创 爬取百度贴吧发帖信息并保存到scv文件中
爬取百度贴吧发帖信息并保存到scv文件中#爬取百度贴吧的发贴信息(https://tieba.baidu.com/f?kw=%E7%88%AC%E8%99%AB&ie=utf-8&pn=50),并通过正则表达式解析数据,包括发帖标题、发帖人、发帖时间,保存到csv文件。#导入需要的模块import requestsimport reimport csvurl="http...
2020-04-18 17:09:23 768 1
原创 monggodb 删除操作
删除数据库db.dropDatabase() remove和deleteMany可以清空整个集合,保留集合结构drop不保留集合结构db.集合名.remove/deleteOne/deleteMany({条件}) db.class1.remove({category:{$all:["食品","糖果"]}})db.class1.deleteMany({"price.零售价":...
2020-04-14 15:50:57 514
原创 mongodb更新
查询操作用法操作符用法$rename修改键名$set设置文档中键对应的值$unset从文档中删除指定值$mul将键对应的值乘以指定的数量$inc将键对应的值增加指定的数量$min如果指定的值小于现有的对应值,则更新指定的值$max如果指定的值大于现有的对应值,则更新指定的值$setOnInsert更新导致insert...
2020-04-13 14:34:05 166
原创 mongodb查询2
db.class2.insertMany([ { name:"c语言程序设计", category:["图书","计算机"], price:{ 进价:35, 售价:35 }, 版本:[ { edition_name:"第一版", date:201001, grade:9 }, { edition_name:"第二版"...
2020-04-12 11:07:05 144
原创 mongodb查询操作1
[ { "_id":1, "name":"c语言程序设计", "category":["图书","计算机"], "price":{"进价":35,"零售价":35} }, { "_id":2, "name":"小学六年级数学(上)", "category":["图书","教育"], "price":{"进价":25,"零售价":25} }, { "_id":3, ...
2020-04-11 20:31:48 163
原创 mongodb插入操作
插入多个文档db.集合名.insertMany()db.集合名.insert()> db.class1.insertMany([ { "_id":1, "name":"c语言程序设计", "category":["图书","计算机"], "price":{"进价":35,"零售价":35} }, { "_id":2, "name":"小学六年级数学(上)", "category":[...
2020-04-10 20:47:31 143
原创 进入spark-shell报错
进入spark-shell总是报一大堆错才能进去Unable to load native-hadoop library for your platform… using builtin-java classes where applicableTo adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLo...
2020-04-10 19:37:29 1044
原创 mongodb简单的基本操作
查看有哪些数据库show dbs创建自定义数据库use 数据库名如果不存在该数据库,系统会自动创建一个数据库统计数据库信息db.stats删除数据库db.dropDatabase()查看数据库下的集合名称db.getCollectionNames()创建集合db.createCollection(‘class1’)查看当前数据库用户角色权限show role...
2020-04-10 14:40:06 184
原创 不等距的时间坐标
不等距的时间坐标打开素材设置辅助数据插入带平滑线的散点图设置辅助系列数据格式设置数据标记格式(辅助系列)为辅助系列添加数据标签设置辅助系列数据标签格式删除横坐标轴删除图例删除纵向网格线添加误差线右键辅助系列,删除误差线右键用户数系列删除水平误差线设置垂直误差线格式用户数系列...
2020-04-03 15:07:18 1060
原创 给对应点添加垂直线
给对应数据点添加垂直线- 打开表格- 插入带有数据标记的折线图**设置纵坐标格式**设置横坐标格式**设置标题和标题字体格式****选中图表,添加垂直线****单击设置垂直线格式****设置折线格式**设置数据标记格式设置图表填充...
2020-04-02 16:05:49 806
原创 如何设置命令符中输入汉字
如何设置命令符中输入汉字win+r 快捷键 打开运行输入cmd单击确定在命令符中,右键点击上边框(如图)在选项中,勾上使用旧版控制台单击确定,然后重启命令符就好了...
2020-03-27 19:17:46 1284
原创 Excel数据可视化——隐藏相同数据
隐藏相同数据选中需要隐藏的数据点击开始菜单栏里的条件格式,选择新建规则选择使用公式确定要设置格式的单元格输入公式:=A1=A1048576,点击格式设置字体颜色为背景颜色(白色)点击确定点击确定选中数据(不代表头)点击开始菜单栏里的条件格式,选择新建规则选择使用公式确定要设置格式的单元格输入公式:=MOD(ROW(A1...
2020-03-05 20:34:54 1937 1
原创 Excel数据可视化——设置间隔指定行数填充颜色
设置间隔指定行数填充颜色隔五行填充一行选中需要设置的表格点击开始菜单栏里的条件格式,选择新建规则选择规则类型:使用公式确定要设置格式的单元格输入公式:=MOD(ROW(A1),5)=1,点击格式设置填充色点击确定点击确定公式的解读:MOD() 求余函数ROW()返回行数=MOD(被除数,除数)=1当被除数除以除数的余等于1时就填充颜色了解其他方法请点击下面的...
2020-03-05 13:53:51 1333
原创 Excel数据可视化——添加迷你图(折线、柱形图)
添加迷你图(折线、柱形图)迷你折线图1、选中一个可以插入迷你图的单元格2、切换到插入菜单栏3、选择迷你图中的折线图4、选择所需的数据范围5、点击确定6、把鼠标放到迷你折线图所在单元格的右下角变成一个加号,往下拖动。后面的折线图也可以了7、选中迷你折线图,可以切换到迷你图的设计,可以根据自己需求进行设计,使迷你图更加的美观。迷你柱形图1、选中一个可以插入迷你图的单元...
2020-03-05 12:36:12 8412
原创 Excel数据可视化——使用图标集显示数据的意义
使用图标集显示数据的意义选中数据选择开始菜单栏中的条件格式,接下来选择图标集。-设置图标集。如果有特定的要求则选择其他规则,途中圈出来的要根据自己的需求进行更改,最后点击确定。*这里我做的是将搜索指数在50万以上的用√标记,在20万到50万之间用!标记,低于20万用×标记。所以类型选择数字最后的效果图:***最后的最后类型中有四类。了解百分比和百分点值请点击下面的链接...
2020-03-04 12:20:24 1800
原创 Excel数据可视化——使用色阶显示不同范围的数据
使用色阶显示不同范围的数据选中数据开始菜单栏中选择条件格式,然后选择色阶设置色阶的颜色,如果自己对已经存在的色阶不满意,可以选择其他规则建立自己的色阶。自己建立规则后,点击确定...
2020-03-04 10:49:57 3604
原创 Excel数据可视化——查找特定范围数据
查找特定范围数据查找6月份销售额前三位选中数据选择开始菜单栏的条件格式,接下来选择最前或最后原则选择其他规则五角星选中的一定要改根据自己的需求改选择格式,设置单元格格式点击确定...
2020-03-03 21:28:24 1201
原创 Excel数据可视化——通过数据条长度表示数据大小
通过数据条长度表示数据大小一般来说要先进行排序,再来加上数据条,这样好看一点,可以看到数据的变化趋势。选中数据切换到数据菜单栏中,进行升序或降序的排序这一步一定要选择扩展选区,然后选择排序选中数据,切换到开始菜单栏,选择条件格式,下一步选择数据条选择样式就行了,如果想自己设计就选择其他规则,自己建立规则,是数据条变得更加好看。在这里我讲一下如何去掉数据。...
2020-03-03 20:56:09 3391
原创 Excel数据可视化——突出显示特殊数据单元格
显示销售额在30000以上的单元格。选中数据开始菜单栏,选择条件格式3.选择突出显示单元格规则,然后大于。。。4.设置突出显示单元格格式及判断条件。最后点击确定。...
2020-03-03 12:52:10 978
原创 Missing Hive Execution Jar: /home/whzy/software/HADOOP/apache-hive-2.1.1-bin//lib/hive-exec-*.jar
出现如下问题:Missing Hive Execution Jar: /home/whzy/software/HADOOP/apache-hive-2.1.1-bin//lib/hive-exec-*.jar就应该将$PWD/apache-hive-2.1.1-bin/改为hive的安装路径export HIVE_HOME=$PWD/apache-hive-2.1.1-bin/export...
2019-12-10 09:22:22 1290
原创 hive安装教程
安装hive在master节点上,进入压缩包所在的目录,移动并解压Hive安装包[whzy@master ~]$ cd software/[whzy@master software]$ mv apache-hive-2.1.1-bin.tar.gz ~/[whzy@master software]$ cd[whzy@master ~]$ tar -zxvf apache-hive-2.1...
2019-12-06 22:15:36 256
原创 Zookeeper的常用Shell命令
启动zookeeper服务后,在其中一台机器上执行客户端脚本可连接到zookeeper服务[whzy@master zookeeper-3.4.12]$ bin/zkCli.sh -server slave:2181,slave2:2181使用create命令在客户端shell下创建目录,并查看[zk: slave:2181,slave2:2181(CONNECTED) 28] creat...
2019-12-06 19:25:04 417
原创 安装Hbase
[whzy@master ~]$ cd software/[whzy@master software]$ mv hbase-1.2.6-bin.tar.gz ~/[whzy@master software]$ cd[whzy@master hbase-1.2.6]$ cd conf[whzy@master conf]$ vi hbase-env.sh将下面的内容就修改#export JA...
2019-12-03 10:06:09 108
原创 安装zookeeper
[whzy@master ~]$ cd zookeeper-3.4.12[whzy@master zookeeper-3.4.12]$ cd conf[whzy@master conf]$ cp zoo_sample.cfg zoo.cfg[whzy@master conf]$ vi zoo.cfg[whzy@master ~]$ mkdir -p /home/whzy/tmp/zoo...
2019-12-02 22:12:10 86
爬虫数据提取.pdf
2020-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人