Up_梅子酒-CSDN博客

原创 jupyter lab环境配置

【代码】jupyter lab环境配置。

2023-08-05 09:54:02 1364

原创 pip日常环境配置

pip 虚拟环境、代理、conda虚拟环境

2023-07-31 23:35:59 392

转载合适的图片选择

https://www.perceptualedge.com/blog/?p=2080

2021-06-17 12:50:12 121

原创按MonthorWeek排序数据框架

!pip install sort-dataframeby-monthorweek!pip install sorted-months-weekdayshttps://www.cnpython.com/pypi/sort-dataframeby-monthorweek按MonthorWeek排序数据框架

2021-06-13 22:10:52 121

原创 pandas 中get_dummies() 与factorize()的区别

pandas 中get_dummies() 与factorize()的区别当一个特征中存在较多的类别时，使用get_dummies() 会导致DataFrame中的columns 列数激增factorize() 可以对特征中的类别创建一些数字，来表示分类变量或者枚举型变量(enumerated type)。具体来说：factorize() 只产生一个特征变量，这个特征中对类别使用数字进行区分。适用于出现较多独立变量的情况参考e.p....

2021-03-31 23:25:32 178

原创 Airbnb data analysis

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.image as mpimg%matplotlib inlineimport seaborn as snsfrom pprint import pprintRead Dataairbnb = pd.read_csv('./new-york-city-airbnb-open-data/AB_NYC_2019.csv')

2021-03-30 22:58:37 394

原创 conda 无法更新/ 创建新环境报错

解决方法：conda clean -i

2021-03-19 23:32:51 303

原创【相关性检验】

两个变量之间的相关性检验1、皮尔森相关系数：它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。要判断两个变量之间是否存在相关性：可以采用画散点图的方式，进行直观性的分析。使用python进行person检验import pandas as pdimport numpy as npimport missingnodf = pd.read_csv('./titanic/train.csv')df.head() P

2021-03-16 22:17:06 2295

原创用Python进行全面的数据探索

用Python进行全面的数据探索import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom scipy.stats import normfrom sklearn.preprocessing import StandardScalerfrom scipy import statsimport missingno as mnoimport seaborn as snsimport warnings

2021-03-08 22:46:24 841

原创 conda 导出安装包列表

conda 导出安装包列表conda list -e > condalist.txt导入conda install --yes --file condalist.txt

2021-03-06 16:27:44 4568

原创 SQL每日一题【0305】

每日一题有如下表T0305a ,T0305bT0305a+------+--------+| ID | ZHI | +------+--------+| 1 | 1 | | 1 | 2 | | 1 | 1 | | 2 | 2 | | 2 | 1 | +------+--------+T0305b+------+--------+| ID | ZHI | +------+-----

2021-03-05 15:00:03 102

原创 SQL每日一题【0304】

每日一题有如下表T0304T0304+------+--------+------+---------------------+| ID | A_Type | A_NO | A_Time |+------+--------+------+---------------------+| 1 | A | 1 | 2019-01-21 00:00:00 || 2 | A | 2 | 2019-01-27 00:00:00 |

2021-03-04 22:43:58 181 2

原创 Lag()、Lead()函数及其使用

语法Lag和Lead函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。LAG语法：LAG(<expression>[,offset[, default_value]]) OVER ( PARTITION BY expr,... ORDER BY expr [ASC|DESC],... )LEAD语法：LEAD(<expression>[,offset[, default_value]]) OVER ( PARTITION B

2021-03-04 22:29:02 1077 1

原创 Python调用mysql存储过程

Python调用mysql存储过程import pymysqlconn = pymysql.connect(host= '127.0.0.1',port = 3306, user = 'root',password = 'root', database = 'test',charset = 'utf8')cur = conn.cursor()cur.callproc('T1') # 调用存储过程conn

2021-03-04 16:52:43 446 1

原创 Navicat创建存储过程

存储过程存储过程（Stored Procedure）是在大型数据库系统中，一组为了完成特定功能的SQL 语句集，它存储在数据库中，一次编译后永久有效，用户通过指定存储过程的名字并给出参数（如果该存储过程带有参数）来执行它。存储过程是数据库中的一个重要对象。在数据量特别庞大的情况下利用存储过程能达到倍速的效率提升。又称轮子。使用Navicat创建存储过程无参数存储过程create procedure 存储过程名称()begin <sql语句> ;end；在Navicat

2021-03-04 16:47:27 1854 1

原创 MAC地址匹配

用于计算MAC地址匹配数量import pandas as pdimport numpy as npimport reimport ospath = 'D:\Personal\Downloads'df1 = pd.read_csv(os.path.join(path,'1.csv'),skiprows = 7 ,encoding='gbk')df2 = pd.read_csv(os.path.join(path,'2.csv'),header = None)df2.rename(colu

2021-03-04 14:43:37 546 1

原创偏度和峰度

偏度和峰度偏度（skewness）数据分布的的不对称性称为偏态。偏态是指数据分布的偏斜方向和程度。偏度，通常分为右偏（正偏）和左偏（负偏）两种。它们是以对称分布为标准相比较而言的。在对称分布的情况下，平均数、中位数和众数是合而为一的。在偏态分布的情况下，平均数、中位数与众数是分离的。如果众数在左边，平均数在右边，即数据的极端值在右边，数据分布曲线向右延伸，则称为右向偏态。右向偏态，众数的数值较小，平均数的数值较大，平均数与众数之差为正值，因此右向偏态又称为正向偏态。如果众数在右边，平均数在左边，

2021-03-03 20:29:52 11221 1

原创 missingno库--用于数据分析中处理缺失数据可视化

missingnmissingn --github# 安装pip install missingno快速开始pip install quiltquilt install ResidentMario/missingno_data学习地址：https://www.cnblogs.com/yongestcat/p/11458057.html

2021-03-02 23:50:48 309

原创共享单车--数据分析

共享单车EDA与模型选择import pandas as pd import numpy as npfrom matplotlib import pyplot as pltimport seaborn as snsfrom datetime import datetimeimport osimport warningswarnings.filterwarnings(action = 'ignore')Kaggle-competition-bike-sharing-demandEDA

2021-03-01 23:03:59 1999

原创 Git clone 使用代理

由于国内使用git clone 下载速度太慢，考虑使用代理取消代理git config --global --unset http.proxy git config --global --unset https.proxy根据代理开的端口设置，我的为10808设置代理git config --global http.proxy socks5://127.0.0.1:10808git config --global https.proxy socks5://127.0.0.1:10808gi

2021-02-28 14:57:22 695

原创特征工程4

import tqdmimport pandas as pdimport numpy as npimport pprintdf = pd.DataFrame(np.arange(10).reshape(2,5))pprint.pprint(df) 0 1 2 3 40 0 1 2 3 41 5 6 7 8 9from sklearn.feature_extraction.text import TfidfVectorizerfrom nltk.s

2021-02-25 17:20:54 120

原创特征工程3

第四章：特征构建：生成新的特征import pandas as pdfrom sklearn.base import TransformerMixinimport pandas as pdimport numpy as npfrom matplotlib import pyplot as pltX = pd.DataFrame({'city':['tokyo', None, 'london', 'seattle', 'san francisco', 'to

2021-02-24 23:13:56 101

原创解决centos 更新Python3 后yum报错

>> readlink -f /usr/bin/python # 查看python 连接位置>> /usr/local/python3/bin/python3.8由于yum采用python2.x作为命令解释器### 解决方法：修改下面三个文件,使用python2vim /usr/bin/yumvim /usr/bin/yum-config-manager vim /usr/libexec/urlgrabber-ext-down ...

2021-02-20 22:38:25 123

原创【MySQL】MySQL进阶教程学习笔记2

自连接和非等值连接的应用用于删除重复行delete from Products P1where P1.rowid < (select MAX(P2.rowid) from Products P2 where P2.name = P1.name and P2.price = P1.price) ;查找局部不一致的列查找图中家庭ID一致，但是住址不同的行select DISTINCT A1.name,A1.address from Addresses

2021-02-01 22:40:57 95

原创正则表达式常用工具

记录在正则表达式中运用到的网站正则表达式简介正则表达式在线测试提供在线测试，及一些常用的正则表达式语法样例。

2021-02-01 14:33:21 397

原创 Pycharm 社区版安装Django

本文主要介绍Pycharm 社区版安装Django推荐Django 包下载地址地址1. 安装Django 包# 进入下载目录pip install sqlparse-0.2.4.tar.gzpip install asgiref-3.3.0-py3-none-any.whlpip install Django-3.0-py3-none-any.whl新建Django 项目django-admin startproject test1用pycharm打开创建好的test1，

2021-01-21 10:14:55 302

原创 set_index与 reset_index

tips= sns.load_dataset("tips")tips.shapedata = tips.iloc[[2,22,222,10,30,50,70,80,201,140]]print(data) total_bill tip sex smoker day time size2 21.01 3.50 Male No...

2021-01-19 11:44:41 99

原创【MySQL】天池SQL训练营TASK2

SQL 基础查询与排序SELECT查询相关法则星号（*）代表全部列的意思。 SQL中可以随意使用换行符，不影响语句执行（但不可插入空行）。设定汉语别名时需要使用双引号（"）括起来。在SELECT语句中使用DISTINCT可以删除重复行。注释是SQL语句中用来标识说明或者注意事项的部分。分为1行注释"-- "和多行注释两种"/* */"。 SELECT子句中可以使用常数或者表达式。使用比较运算符时一定要注意不等号和等号的位置。

2021-01-18 22:48:07 122

原创【MySQL】天池SQL训练营Task1

【本文主要是个人学习阿里天池SQL训练营的笔记】DDL data definition languageDDL（Data Definition Language，数据定义语言）用来创建或者删除存储数据用的数据库以及数据库中的表等对象。DDL 包含以下几种指令。CREATE ：创建数据库和表等对象DROP ：删除数据库和表等对象ALTER ：修改数据库和表等对象的结构DML data manipulation languageDML（Data Manipulation Lan

2021-01-18 21:24:24 121

原创安装EasyOCR

需要安装的包 : torch ,torchvision,easyocrtorch,torchvision 对应版本表python 包下载地址推荐torchvision包下载地址pip install torchvision-0.8.2+cpu-cp38-cp38-win_amd64.whlpip install torch-1.7.1-cp38-cp38-win_amd64.whlpip install easyocr-1.2.1-py3-none-any.whl...

2021-01-15 09:37:13 1753 1

原创【MySQL】dataframe写入数据库

将dataframe写入MySQL数据库from sqlalchemy import create_engineengine = create_engine( 'mysql+pymysql://root:[email protected]:3306/database?charset=utf8') df.to_sql('tablename',con = engine,schema = 'database',index=False, if_exists='re

2021-01-14 17:47:51 373 1

原创【MySQL】MySQL进阶教程学习笔记1

CASE表达式概述CASE表达式的写法CASE WHEN sex = '1' THEN '男' WHEN sex = '2' THEN '女'ELSE '其他' ENDcase 表达式的真假判断在发现为真的when 子句时，CASE表达式的真假值判断就会终止，剩余的when子句会被忽略。因此，在使用when子句时需要注意条件的【排他性】用一条SQL语句进行不同条件的统计进行不同条件的统计是CASE表达式的著名用法之一SELECT pref_name,

2021-01-13 23:53:26 337

原创用Pandas揭秘美国选民的总统喜好【天池比赛】

此项目为参加阿里云Python比赛记录，供个人学习！！！！1、赛前准备1.1 前言本次赛事由开源学习组织Datawhale主办，主要带领学习者利用Python进行数据分析以及数据可视化，包含数据集的处理、数据探索与清晰、数据分析、数据可视化四部分，利用pandas、matplotlib、wordcloud等第三方库带大家玩转数据分析～还有丰富礼品等你来领取哦～学习赛事地址：https://tianchi.aliyun.com/competition/entrance/531837/introduct

2021-01-12 21:57:56 880 1

中文核心期刊目录2019最新.doc

空空如也