自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 python连接mysql传递日期参数执行sql

通过python连接mysql,通过sql查询数据,再通过pandas对数据进一步处理,最后输出excel文件。

2022-09-28 22:41:50 1247 1

原创 Mysql上周,上月,去年同期年周数

#上个月的第一天CONCAT(DATE_FORMAT(DATE_SUB(CURDATE(),INTERVAL 1 MONTH),"%Y-%m"),"-01")# 这个月的第一天CONCAT(DATE_FORMAT( CURDATE(),"%Y-%m"),"-01")#上个月的最后一天DATE_SUB(CONCAT(DATE_FORMAT( CURDATE(),"%Y-%m"),"-01"),INTERVAL 1 DAY)# 当前日期上周周一DATE_SUB(CURDATE(),INTER

2022-03-06 22:41:54 1465

原创 Navicat查询结果中复制字段名和值

在查询结果中,CTRL+A选中所有数据对选中的数据点击鼠标右键–复制为–制表符分隔值(字段名和数据),在excel中粘贴即可。

2021-07-24 15:34:41 2524

原创 数据分析SQL面试题实战(二)

第一题:思路:1.找出学生表中出生年月相同的学生信息,包含学生编号,学生姓名,出生年月,学生性别。考虑自连接,单纯通过出生年月连接,会出现重复数据,需要过滤掉重复数据,可以用学生编号去过滤掉姓名重复的数据,剩下的自己和自己重复的数据用group by过滤。2.计算语文分数和数学分数,需要用到第二张SC表。左连接和内连接都可以,从SC表(一维表)转成语文分数和数学分数两个新列(二维表),自然的想到case when语句。在第一步得到的表的基础上进行计算:第二题:测试表:思路:1.

2021-06-10 19:20:23 257

原创 python读取pdf文件提取关键信息到Excel中

以前做过的一个项目,需要从pdf格式的检查报告提取关键信息到Execl中import numpy as npimport pandas as pdimport reimport pdfplumberimport osfrom tqdm import tqdmpd.set_option('max_row',None)pd.set_option('max_columns',None)a = 0xuejian_list = []xuejian_id_list = []#shunde_f

2021-05-08 14:42:24 827

原创 数据分析SQL面试题实战(一)

题目为实际面试题目,分享一下,有更好的解法欢迎交流。题目一:一、表结构介绍用户活跃模型表:tmp_dau,以dt、user_id为主键,一个用户1天只出现1次,出现即表示当日登陆字段:(1)dt,日期,string格式,格式例如20190601(2)user_id,用户唯一标识,string格式,无空值(3)is_new,新用户标识,string格式,1表示新用户,0表示老用户红包领取日志表:tmp_packet,日志流水表,每一行为领取1次红包,字段:(1)dt,日期,string

2021-04-30 22:28:49 302 1

原创 python开启多进程(进程池)获取MongoDB数据库数据且数据量大的表单独开启终端命令下载

日常代码记录import os,timeimport pandas as pdfrom pymongo import MongoClientfrom multiprocessing import Pool,Managerclass JournalCloud(): ''' 下载数据 '''def __init__(self,mongo_path,save_dir_path,date,prefix='XX'): self.mongo_path = mongo_path self.sa

2021-04-30 21:43:18 717 1

原创 pandas学习小记

原始数据1.某列所有元素随机赋值data['duration_time'] = data['duration_time'].map(lambda x: np.random.randint(0, 500))2.两列字符串拼接data_["activity_date"] =[ '2020/1/ % i' % i for i in data_["activity_day"]]结果:3.按一定概率在列表中选取元素赋值于某列table = ['湖北', '湖南', '福建','海南','广东',

2021-04-30 21:29:29 80 1

原创 超简易win10下快速搭建hive和spark环境——站在巨人的肩膀上

目录环境与工具步骤快速在windows机器上搭建hive和spark,在微信文章搜到一个大神写的文章,还有视频讲解,很是良心,于是跟着操作了一波,但因为某些环境不太一致,比如mysql我的版本是8.0的,导致踩了一些坑,写这篇文章记录一下,终于可以愉快的玩耍了。大神文章链接:https://mp.weixin.qq.com/s/RWAJSwkSw1mR22yD1rPszA本人配置的链接hive-site.xml和mysql-connector-java-8.0.21的jar包(其余的可以去大神的链接下

2020-11-30 20:40:15 678

原创 解决jupyter使用多线程multiprocessing怕不了的报错问题,并使用tqdm显示进度条

最近在工作上需要进行一个爬虫的演示,需要在界面上输入账号,密码,然后开始爬取数据,需要使用多进程爬虫以加快爬取速度,之前一直没用过多进程,Pycharm可以跑,但需要在jupyter上运行(Pycharm使用不了getpass隐藏输入),所以今天写代码时候遇到了不少问题,在此总结一下。python版本3.7.6jupyter lab版本1.2.6①jupyter notebook/lab中直接使用多进程的话,虽然在界面上不会报错,但一直会处于运行状态,去查看命令行的话会看到报错:AttributeE

2020-10-27 00:21:40 5432 6

原创 Mongodb常用查询语句_笔记

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Mangodb简介二、Mangodb常用查询语句1.集合总结前言工作中会使用到Mangodb数据库,这是一个非关系型数据库,所以它的一些查询语句跟sql会不太一样,一时半会不能马上写出来,因此做了一些笔记,希望做出一些输出的内容。提示:以下是本篇文章正文内容,下面案例可供参考一、Mangodb简介示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。MangoDB与SQL名

2020-08-20 20:25:54 9236 3

原创 数据分析sql面试题实战

题目一:表名:购物信息购物人 商品名称 数量A 甲 2B 乙 4C 丙 1A 丁 2B 丙 5……找出所有购入商品为两种或两种以上的购物人记录思路:先找出购入商品为两种或两种以上的购物人,再找出记录,

2020-07-09 23:34:20 1083 1

原创 JupyterLab中如何导出py格式文件

JupyterLab-导出py格式的文件本人之前一直用的jupyternotebook,后来改用了jupyterlab,notebook里面可以通过File-download中导出py格式文件,但jupyterlab却找不到,(因为有的同事是用pycharm)。最后研究了一番发现还是可以导出py格式文件的,如下图:...

2020-05-24 17:27:24 7636

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除