自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 python pandas to_sql 中Could not reflect: requested table(s) not available in Engine

问题Could not reflect: requested table(s) not available in Engine我在点击链接这里看到了一个答案可能是数据库里面存在了这个表。我的数据库里面确实存在一个表。就是表名大小写和我要写入的有点差异我把原来的表删掉。再重新运行就没问题了...

2021-11-04 11:35:32 2002 2

原创 window中类似于nohup的后台运行命令

在windows中将命令设置为后台运行,类似于linux中的nohup命令start /min 命令start /min jupyter notebook欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdow...

2019-08-10 10:53:03 15235 1

原创 分布式爬虫没有push redis-key 但是却启动起来了

在我们改写一般的scrapy爬虫为scrapy-redis爬虫的时候,可能会遇到没有push redis-key,但是爬虫却起来原因其中一个重要的原因可能就是start-requests方法被重写了,因为如果重写了之后,会默认最先调用这个方法,解决办法:将start_request方法名改一下,改为parse解析方法,因为默认的解析函数就是这个函数,当我们push redis-key之后,爬...

2019-07-12 11:07:41 298

原创 横向合并mysql表

将多个带有相同字段的mysql数据表进行横向合并我现在想做的就是将相同id和code的字段进行横向合并,因为左右表都可能不全,所以左连接右连接都不符合我的要求只能用全连接,变成如下的效果,缺的地方为null我的步骤如下,如有大佬有更好的方法,请留下你的脚印,小弟我不胜感激– CREATE TABLE test11 as– SELECT * FROM test a left join...

2019-06-27 12:36:01 1739

原创 mysql查询整个库中所有的记录数

因为一个微博数据库中包含了很多个表,但是我需要统计出这个库中所有的记录数当然,如果有功夫的话, 可以每个表查出来,然后相加,这也忒那个啥了,问了好多大佬,才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了,哈哈哈哈哈哈哈在my...

2019-06-04 14:45:12 222

原创 mysql查询整个库中所有的记录数

因为一个微博数据库中包含了很多个表,但是我需要统计出这个库中所有的记录数当然,如果有功夫的话, 可以每个表查出来,然后相加,这也忒那个啥了,问了好多大佬,才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了,哈哈哈哈哈哈哈在my...

2019-06-04 14:45:12 546

原创 mysql查询整个库中所有的记录数

因为一个微博数据库中包含了很多个表,但是我需要统计出这个库中所有的记录数当然,如果有功夫的话, 可以每个表查出来,然后相加,这也忒那个啥了,问了好多大佬,才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了,哈哈哈哈哈哈哈在my...

2019-06-04 14:44:27 378

原创 matplolib种横坐标斜着显示

在matplotlib种,有时会出现,横坐标太多,全是黑的,我想显示部分怎么实现,横坐标斜着显示如何实现import matplotlib.pyplot as pltimport matplotlib.ticker as tickerfig,ax = plt.subplots(1,1)plt.xticks(rotation=120) # 设置横坐标显示的角度,角度是逆时针,自己...

2019-04-23 17:29:49 19442

原创 window下安装docker和splash

因为最近要js逆向破解,太难找,所以选用splash来尝试能否获取数据,屁话不多说,直接开始安装docker的连接,来源于这篇博客启动docker服务来源于这篇博客这其中有几个坑,一个是docker在window下只有限制,window10 64位专业版和教育版,对应我们这种事家庭版的要注意选择版本,在安装docker的连接里面有,注意就好,下好之后就一直next就好,我没有更改安装路径,...

2019-04-09 14:15:12 449

原创 关于vi中清空文本内容的命令

删除日志文件,如果整个删除话 ,我用jupyter的话,就必须要重启,挺麻烦的,所以找到了vi中清空文本的方法命令来源于------>>时空穿梭们我用的是先gg定位到首行,让后dG删除全部,d是删除,shift+g是行尾(就是G)...

2019-04-03 11:05:41 13702 1

原创 pandas中Series的apply函数

闲来无事 浏览源码 发现了一个特别有意思的函数Series中的apply()函数和大多数apply函数一样,这个函数传入的参数也是一个函数,目的是对传入的series的值进行批量的处理,不用我们手动写函数来处理举个例子:我有一个series,大概样子是这样的我想要做的就是只要这些日期中的年,我们都知道直接split,之后取第一个就好,达到的结果是这样如果按照常规的方法def...

2019-03-29 16:46:27 6195

原创 matplotlib中的直方图和条形图

小学的东西,但是已经感觉还给了老师,虽然是小学的,但是不知道就是不知道,记录下,留给自己看先来看看百度百科的解释吧卧槽????直方图是什么jb鬼,我再找找维基百科在这里稍微看图片标签大概能看懂意思了总结:1 、 条形图是通过纵坐标的长短或者说是高低来数据的多少,横坐标表示的类型,纵坐标表示的这个类型的数据有多少2 、直方图横坐标是组距,纵坐标是频率,通过横坐标乘上组距可以得到 对...

2019-03-26 15:24:54 576 1

原创 微博爬虫搭建为分布式

为了实现微博数据一天一千万+的数据量,分布式爬虫是必须的,之前又提到过,但是没有写,现在来补全废话不多说,分布式爬虫的有点相信大家都知道,就不多说了,在将普通的爬虫改为分布式,只需要改两点即可,非常简单,不要被吓到第一个:将单价爬虫继承的类改为分布式爬虫类,from scrapy_redis.spiders import RedisSpiderclass TagWeiboSpider(R...

2019-03-25 10:39:33 282

原创 python写入csv文件出现空行

来源于https://blog.csdn.net/pfm685757/article/details/47806469在当中有多个参数,encoding=‘utf-8-sig’ 是为了解决写入中文的时候乱码的问题newline=’'是解决后面多个换行的问题,默认有一个换行,将这个改为空字符之后,换行问题不会出现...

2019-03-14 16:20:26 1652

原创 关于pandas中df进行叠加

来源于这位大佬的博客 http://www.cnblogs.com/lorenshuai724005/p/9681420.html因为读出来的每一个都是一个df,我的想法就是把所有的df叠加起来,看过很多描述的都没能获得我想要的效果,感谢上面那位大佬的分享也实在是牛 比, 再外面加上一个列表,用来接收就可以了,完美的解决了我的问题加上后的如图所示:以上。哇 贼开心= 。=...

2019-03-06 17:03:02 2405

原创 完整的微博千万级数据量思路过程

单日千万级微博爬虫介绍: 我也不喜欢说废话,来救直接上,项目要求爬微博,**存成四张表**,分别是用户信息表,用户和用户关系表,微博信息表,微博和微博关系表,改为分布式爬虫可实现单日1000+的数据量,直接开始干把准备:首先你的准备好几百个微博账号,并获取cookie,楼主借鉴网上很多大神的方法,也是通过访问手机端拿到cookie,http://weibo.cn,比较简单,并且验证码是...

2019-02-28 15:13:43 872

原创 dataframe中的loc,iloc,ix的比较

这三个第一次看,会了,下一次又忘了 - 。 - 我咋这么蠢,记录一下最大的区别是 iloc里面的行标签只能是数字,就是 默认的那个0,1,2,3,问题:如果是根据索引来的,那我重设置索引了之后,是不是还是可以用iloc呢来进行索引呢?答案是 不可能的多说无益:直接上代码import pandas as pddf = pd.read_excel('11ts.xls')df1 = d...

2019-01-17 15:10:32 1399

原创 提取 / 删除 符合满足某一个条件的dataframe

最近在搞数据分析,遇到图中的问题,我想将没有找到该记录这些行都给删掉,但是在dataframe中查找drop方法,完全没有我想要的方法,后来想到,我删不掉,我提取出来总可以吧,记录下,供自己查看import pandas as pddf = pd.read_excel('11ts.xls')df1 = df.dropna(axis=0, how='all') # 用来删除缺失数据 返回...

2019-01-17 10:30:14 4430

原创 jupyter中显示行号

没有行号 不好定位行号显示:view下的toggle line numbers 点一下就显示啦 = =

2019-01-16 11:32:43 5217

原创 利用python做数据分析书中的数据集

利用python做数据分析的数据集参考这个项目,很全免费https://github.com/wen-fei/PythonForDataAnalysis

2019-01-08 13:43:40 4855 3

管理员一键清理c盘垃圾

免费下载bat文件一键清理c盘垃圾, 注意要用管理员权限哦,不然某些内容删不掉

2022-10-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除