今日你饮左未啊-CSDN博客

原创 python连接mysql传递日期参数执行sql

通过python连接mysql，通过sql查询数据，再通过pandas对数据进一步处理，最后输出excel文件。

2022-09-28 22:41:50 1247 1

#上个月的第一天CONCAT(DATE_FORMAT(DATE_SUB(CURDATE(),INTERVAL 1 MONTH),"%Y-%m"),"-01")# 这个月的第一天CONCAT(DATE_FORMAT( CURDATE(),"%Y-%m"),"-01")#上个月的最后一天DATE_SUB(CONCAT(DATE_FORMAT( CURDATE(),"%Y-%m"),"-01"),INTERVAL 1 DAY)# 当前日期上周周一DATE_SUB(CURDATE(),INTER

2022-03-06 22:41:54 1465

原创 Navicat查询结果中复制字段名和值

在查询结果中，CTRL+A选中所有数据对选中的数据点击鼠标右键–复制为–制表符分隔值(字段名和数据)，在excel中粘贴即可。

2021-07-24 15:34:41 2524

原创数据分析SQL面试题实战(二)

第一题：思路：1.找出学生表中出生年月相同的学生信息，包含学生编号,学生姓名,出生年月，学生性别。考虑自连接，单纯通过出生年月连接，会出现重复数据，需要过滤掉重复数据，可以用学生编号去过滤掉姓名重复的数据，剩下的自己和自己重复的数据用group by过滤。2.计算语文分数和数学分数，需要用到第二张SC表。左连接和内连接都可以，从SC表(一维表)转成语文分数和数学分数两个新列(二维表)，自然的想到case when语句。在第一步得到的表的基础上进行计算：第二题：测试表：思路：1.

2021-06-10 19:20:23 257

原创 python读取pdf文件提取关键信息到Excel中

以前做过的一个项目，需要从pdf格式的检查报告提取关键信息到Execl中import numpy as npimport pandas as pdimport reimport pdfplumberimport osfrom tqdm import tqdmpd.set_option('max_row',None)pd.set_option('max_columns',None)a = 0xuejian_list = []xuejian_id_list = []#shunde_f

2021-05-08 14:42:24 827

原创数据分析SQL面试题实战(一)

题目为实际面试题目，分享一下，有更好的解法欢迎交流。题目一：一、表结构介绍用户活跃模型表：tmp_dau，以dt、user_id为主键，一个用户1天只出现1次，出现即表示当日登陆字段：（1）dt，日期，string格式，格式例如20190601（2）user_id，用户唯一标识，string格式，无空值（3）is_new，新用户标识，string格式，1表示新用户，0表示老用户红包领取日志表：tmp_packet，日志流水表，每一行为领取1次红包，字段：（1）dt，日期，string

2021-04-30 22:28:49 302 1

原创 python开启多进程(进程池)获取MongoDB数据库数据且数据量大的表单独开启终端命令下载

日常代码记录import os,timeimport pandas as pdfrom pymongo import MongoClientfrom multiprocessing import Pool,Managerclass JournalCloud(): ''' 下载数据 '''def __init__(self,mongo_path,save_dir_path,date,prefix='XX'): self.mongo_path = mongo_path self.sa

2021-04-30 21:43:18 717 1

原创 pandas学习小记

原始数据1.某列所有元素随机赋值data['duration_time'] = data['duration_time'].map(lambda x: np.random.randint(0, 500))2.两列字符串拼接data_["activity_date"] =[ '2020/1/ % i' % i for i in data_["activity_day"]]结果：3.按一定概率在列表中选取元素赋值于某列table = ['湖北', '湖南', '福建','海南','广东',

2021-04-30 21:29:29 80 1

原创超简易win10下快速搭建hive和spark环境——站在巨人的肩膀上

目录环境与工具步骤快速在windows机器上搭建hive和spark，在微信文章搜到一个大神写的文章，还有视频讲解，很是良心，于是跟着操作了一波，但因为某些环境不太一致，比如mysql我的版本是8.0的，导致踩了一些坑，写这篇文章记录一下，终于可以愉快的玩耍了。大神文章链接：https://mp.weixin.qq.com/s/RWAJSwkSw1mR22yD1rPszA本人配置的链接hive-site.xml和mysql-connector-java-8.0.21的jar包(其余的可以去大神的链接下

2020-11-30 20:40:15 678

原创解决jupyter使用多线程multiprocessing怕不了的报错问题，并使用tqdm显示进度条

最近在工作上需要进行一个爬虫的演示，需要在界面上输入账号，密码，然后开始爬取数据，需要使用多进程爬虫以加快爬取速度，之前一直没用过多进程，Pycharm可以跑，但需要在jupyter上运行(Pycharm使用不了getpass隐藏输入)，所以今天写代码时候遇到了不少问题，在此总结一下。python版本3.7.6jupyter lab版本1.2.6①jupyter notebook/lab中直接使用多进程的话，虽然在界面上不会报错，但一直会处于运行状态，去查看命令行的话会看到报错：AttributeE

2020-10-27 00:21:40 5432 6

weixin_43785299的博客

原创 python连接mysql传递日期参数执行sql

原创 Mysql上周，上月，去年同期年周数