自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 资源 (1)
  • 收藏
  • 关注

原创 jupyter lab环境配置

【代码】jupyter lab环境配置。

2023-08-05 09:54:02 1364

原创 pip日常环境配置

pip 虚拟环境、代理、conda虚拟环境

2023-07-31 23:35:59 392

原创 SQL连接方式

2022-03-01 00:42:50 113

转载 合适的图片选择

https://www.perceptualedge.com/blog/?p=2080

2021-06-17 12:50:12 121

原创 按MonthorWeek排序数据框架

!pip install sort-dataframeby-monthorweek!pip install sorted-months-weekdayshttps://www.cnpython.com/pypi/sort-dataframeby-monthorweek按MonthorWeek排序数据框架

2021-06-13 22:10:52 121

原创 chardet字符编码检测

2021-06-04 15:35:24 103

原创 pandas 中get_dummies() 与factorize()的区别

pandas 中get_dummies() 与factorize()的区别当一个特征中存在较多的类别时,使用get_dummies() 会导致DataFrame中的columns 列数激增factorize() 可以对特征中的类别创建一些数字,来表示分类变量或者枚举型变量(enumerated type)。具体来说:factorize() 只产生一个特征变量,这个特征中对类别使用数字进行区分。适用于出现较多独立变量的情况参考e.p....

2021-03-31 23:25:32 178

原创 Airbnb data analysis

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.image as mpimg%matplotlib inlineimport seaborn as snsfrom pprint import pprintRead Dataairbnb = pd.read_csv('./new-york-city-airbnb-open-data/AB_NYC_2019.csv')

2021-03-30 22:58:37 394

原创 conda 无法更新/ 创建新环境 报错

解决方法:conda clean -i

2021-03-19 23:32:51 303

原创 【相关性检验】

两个变量之间的相关性检验1、皮尔森相关系数:它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。要判断两个变量之间是否存在相关性:可以采用画散点图的方式,进行直观性的分析。使用python进行person检验import pandas as pdimport numpy as npimport missingnodf = pd.read_csv('./titanic/train.csv')df.head() P

2021-03-16 22:17:06 2295

原创 用Python进行全面的数据探索

用Python进行全面的数据探索import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom scipy.stats import normfrom sklearn.preprocessing import StandardScalerfrom scipy import statsimport missingno as mnoimport seaborn as snsimport warnings

2021-03-08 22:46:24 841

原创 conda 导出安装包列表

conda 导出安装包列表conda list -e > condalist.txt导入conda install --yes --file condalist.txt

2021-03-06 16:27:44 4568

原创 SQL每日一题【0305】

每日一题有如下表T0305a ,T0305bT0305a+------+--------+| ID | ZHI | +------+--------+| 1 | 1 | | 1 | 2 | | 1 | 1 | | 2 | 2 | | 2 | 1 | +------+--------+T0305b+------+--------+| ID | ZHI | +------+-----

2021-03-05 15:00:03 102

原创 SQL每日一题【0304】

每日一题有如下表T0304T0304+------+--------+------+---------------------+| ID | A_Type | A_NO | A_Time |+------+--------+------+---------------------+| 1 | A | 1 | 2019-01-21 00:00:00 || 2 | A | 2 | 2019-01-27 00:00:00 |

2021-03-04 22:43:58 181 2

原创 Lag()、Lead()函数及其使用

语法Lag和Lead函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。LAG语法:LAG(<expression>[,offset[, default_value]]) OVER ( PARTITION BY expr,... ORDER BY expr [ASC|DESC],... )LEAD语法:LEAD(<expression>[,offset[, default_value]]) OVER ( PARTITION B

2021-03-04 22:29:02 1077 1

原创 Python调用mysql存储过程

Python调用mysql存储过程import pymysqlconn = pymysql.connect(host= '127.0.0.1',port = 3306, user = 'root',password = 'root', database = 'test',charset = 'utf8')cur = conn.cursor()cur.callproc('T1') # 调用存储过程conn

2021-03-04 16:52:43 446 1

原创 Navicat创建存储过程

存储过程存储过程(Stored Procedure)是在大型数据库系统中,一组为了完成特定功能的SQL 语句集,它存储在数据库中,一次编译后永久有效,用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。存储过程是数据库中的一个重要对象。在数据量特别庞大的情况下利用存储过程能达到倍速的效率提升。又称轮子。使用Navicat创建存储过程无参数存储过程create procedure 存储过程名称()begin <sql语句> ;end;在Navicat

2021-03-04 16:47:27 1854 1

原创 MAC地址匹配

用于计算MAC地址匹配数量import pandas as pdimport numpy as npimport reimport ospath = 'D:\Personal\Downloads'df1 = pd.read_csv(os.path.join(path,'1.csv'),skiprows = 7 ,encoding='gbk')df2 = pd.read_csv(os.path.join(path,'2.csv'),header = None)df2.rename(colu

2021-03-04 14:43:37 546 1

原创 偏度和峰度

偏度和峰度偏度(skewness)数据分布的的不对称性称为偏态。偏态是指数据分布的偏斜方向和程度。偏度,通常分为右偏(正偏)和左偏(负偏)两种。它们是以对称分布为标准相比较而言的。在对称分布的情况下,平均数、中位数和众数是合而为一的。在偏态分布的情况下,平均数、中位数与众数是分离的。如果众数在左边,平均数在右边,即数据的极端值在右边,数据分布曲线向右延伸,则称为右向偏态。右向偏态,众数的数值较小,平均数的数值较大,平均数与众数之差为正值,因此右向偏态又称为正向偏态。如果众数在右边,平均数在左边,

2021-03-03 20:29:52 11221 1

原创 missingno库--用于数据分析中处理缺失数据可视化

missingnmissingn --github# 安装pip install missingno快速开始pip install quiltquilt install ResidentMario/missingno_data学习地址:https://www.cnblogs.com/yongestcat/p/11458057.html

2021-03-02 23:50:48 309

原创 共享单车--数据分析

共享单车EDA与模型选择import pandas as pd import numpy as npfrom matplotlib import pyplot as pltimport seaborn as snsfrom datetime import datetimeimport osimport warningswarnings.filterwarnings(action = 'ignore')Kaggle-competition-bike-sharing-demandEDA

2021-03-01 23:03:59 1999

原创 Git clone 使用代理

由于国内使用git clone 下载速度太慢,考虑使用代理取消代理git config --global --unset http.proxy git config --global --unset https.proxy根据代理开的端口设置,我的为10808设置代理git config --global http.proxy socks5://127.0.0.1:10808git config --global https.proxy socks5://127.0.0.1:10808gi

2021-02-28 14:57:22 695

原创 特征工程4

import tqdmimport pandas as pdimport numpy as npimport pprintdf = pd.DataFrame(np.arange(10).reshape(2,5))pprint.pprint(df) 0 1 2 3 40 0 1 2 3 41 5 6 7 8 9from sklearn.feature_extraction.text import TfidfVectorizerfrom nltk.s

2021-02-25 17:20:54 120

原创 特征工程3

第四章:特征构建:生成新的特征import pandas as pdfrom sklearn.base import TransformerMixinimport pandas as pdimport numpy as npfrom matplotlib import pyplot as pltX = pd.DataFrame({'city':['tokyo', None, 'london', 'seattle', 'san francisco', 'to

2021-02-24 23:13:56 101

原创 解决centos 更新Python3 后yum报错

>> readlink -f /usr/bin/python # 查看python 连接位置>> /usr/local/python3/bin/python3.8由于yum采用python2.x作为命令解释器### 解决方法: 修改下面三个文件,使用python2vim /usr/bin/yumvim /usr/bin/yum-config-manager vim /usr/libexec/urlgrabber-ext-down ...

2021-02-20 22:38:25 123

原创 【MySQL】MySQL进阶教程学习笔记2

自连接和非等值连接的应用用于删除重复行delete from Products P1where P1.rowid < (select MAX(P2.rowid) from Products P2 where P2.name = P1.name and P2.price = P1.price) ;查找局部不一致的列查找图中家庭ID一致,但是住址不同的行select DISTINCT A1.name,A1.address from Addresses

2021-02-01 22:40:57 95

原创 正则表达式常用工具

记录在正则表达式中运用到的网站正则表达式简介 正则表达式在线测试提供在线测试,及一些常用的正则表达式语法样例。

2021-02-01 14:33:21 397

原创 Pycharm 社区版安装Django

本文主要介绍Pycharm 社区版安装Django推荐Django 包下载地址地址1. 安装Django 包# 进入下载目录pip install sqlparse-0.2.4.tar.gzpip install asgiref-3.3.0-py3-none-any.whlpip install Django-3.0-py3-none-any.whl新建Django 项目django-admin startproject test1用pycharm打开创建好的test1,

2021-01-21 10:14:55 302

原创 set_index与 reset_index

tips= sns.load_dataset("tips")tips.shapedata = tips.iloc[[2,22,222,10,30,50,70,80,201,140]]print(data) total_bill tip sex smoker day time size2 21.01 3.50 Male No...

2021-01-19 11:44:41 99

原创 【MySQL】天池SQL训练营TASK2

SQL 基础查询与排序SELECT查询相关法则 星号(*)代表全部列的意思。 SQL中可以随意使用换行符,不影响语句执行(但不可插入空行)。 设定汉语别名时需要使用双引号(")括起来。 在SELECT语句中使用DISTINCT可以删除重复行。 注释是SQL语句中用来标识说明或者注意事项的部分。分为1行注释"-- "和多行注释两种"/* */"。 SELECT子句中可以使用常数或者表达式。 使用比较运算符时一定要注意不等号和等号的位置。

2021-01-18 22:48:07 122

原创 【MySQL】 天池SQL训练营Task1

【本文主要是个人学习阿里天池SQL训练营的笔记】DDL data definition languageDDL(Data Definition Language,数据定义语言) 用来创建或者删除存储数据用的数据库以及数据库中的表等对象。DDL 包含以下几种指令。CREATE : 创建数据库和表等对象DROP : 删除数据库和表等对象ALTER : 修改数据库和表等对象的结构DML data manipulation languageDML(Data Manipulation Lan

2021-01-18 21:24:24 121

原创 安装EasyOCR

需要安装的包 : torch ,torchvision,easyocrtorch,torchvision 对应版本表python 包下载地址推荐torchvision包下载地址pip install torchvision-0.8.2+cpu-cp38-cp38-win_amd64.whlpip install torch-1.7.1-cp38-cp38-win_amd64.whlpip install easyocr-1.2.1-py3-none-any.whl...

2021-01-15 09:37:13 1753 1

原创 【MySQL】dataframe写入数据库

将dataframe写入MySQL数据库from sqlalchemy import create_engineengine = create_engine( 'mysql+pymysql://root:[email protected]:3306/database?charset=utf8') df.to_sql('tablename',con = engine,schema = 'database',index=False, if_exists='re

2021-01-14 17:47:51 373 1

原创 【MySQL】MySQL进阶教程学习笔记1

CASE表达式概述CASE表达式的写法CASE WHEN sex = '1' THEN '男' WHEN sex = '2' THEN '女'ELSE '其他' ENDcase 表达式的真假判断在发现为真的when 子句时,CASE表达式的真假值判断就会终止,剩余的when子句会被忽略。因此,在使用when子句时需要注意条件的【排他性】用一条SQL语句进行不同条件的统计进行不同条件的统计是CASE表达式的著名用法之一SELECT pref_name,

2021-01-13 23:53:26 337

原创 用Pandas揭秘美国选民的总统喜好【天池比赛】

此项目为参加阿里云Python比赛记录,供个人学习!!!!1、赛前准备1.1 前言本次赛事由开源学习组织Datawhale主办,主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理、数据探索与清晰、数据分析、数据可视化四部分,利用pandas、matplotlib、wordcloud等第三方库带大家玩转数据分析~还有丰富礼品等你来领取哦~学习赛事地址:https://tianchi.aliyun.com/competition/entrance/531837/introduct

2021-01-12 21:57:56 880 1

原创 pandas学习

pd.to_datetimec_itcont['TRANSACTION_DT'].head()0 72420201 72420202 73120203 81020204 8072020Name: TRANSACTION_DT, dtype: int64c_itcont['TRANSACTION_DT'] = c_itcont['TRANSACTION_DT'].astype('str')c_itcont['TRANSACTION_DT'] = pd.to_

2021-01-11 23:35:19 51

原创 【MySQL】将查询结果插入/新建 进表

将查询结果插入已有表中insert into table_name(ip,name)(select ip,name from sample);insert into 表名(字段名)(select 字段名 from 表明1 where 条件表达式);将查询结果插入新建表中create table test as select ip,name from sample;...

2021-01-11 17:32:54 5352

原创 sqlalchemy 连接数据库报错 Background on this error at: http://sqlalche.me/e/e3q8

from sqlalchemy import create_engineengine = create_engine( 'mysql+pymysql://user:[email protected]:3306')con = engine.connect()报错:Background on this error at: http://sqlalche.me/e/e3q8【解决方法】engine = create_engine( 'mysql+pymysql://user:pass

2021-01-11 17:27:44 9754

原创 MySQL 5.7.29 win10安装与配置

MYSQL 5.7.29安装预配置下载MYSQL5.7.29下载完成后解压到自定义文件夹配置环境变量:win+R → sysdm.cpl → 高级 → 环境变量 → 系统变量 → 新建找到 系统变量 里面的 Path 变量,编辑 → 新建 → 输入:%MYSQL_HOME%\bin → 确定进入解压缩后的文件夹,新建 my.ini 文件,写入如下内容# 将以下内容复制进去[注意输入的内容中 basedir 和 datadir 是你自己的目录]:[mysq

2021-01-08 23:54:38 185

原创 【天池龙珠计划】Day1

Python入门(上)简介变量、运算符与数据类型1. 注释2. 运算符3. 变量和赋值4. 数据类型与转换5. print()函数位运算1. 原码、反码和补码2. 按位运算3. 利用位运算实现快速计算4. 利用位运算实现整数集合条件语句1. if 语句2. if - else 语句3. if - elif - else 语句4. assert 关键词循环语句1. while 循环2. while - else 循环3. for 循环4. for

2020-12-28 15:44:38 134

中文核心期刊目录2019最新.doc

最新北大中文核心期刊目录2019版,供大家学习交流。希望都能发好论文啊

2019-08-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除