自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿斯达克

不秃能变强吗!!!!!!!!!!!!!!!

  • 博客(63)
  • 收藏
  • 关注

原创 Tableau中数据分层、数据分组、数据集

Tableau中数据分层、数据分组、数据集一、数据分层二、数据分组三、数据集一、数据分层分层是维度之间自上而下的一种组织形式,常见的层级有日期:年→季度→月→天,国家→省→市→县/区→镇,有着上到下明显的归属关系,在Tableau中可以通过创建分层结构实现对数据分析的精细化处理。创建分层结构的方式:在维度工作区,点击“中心”—右键“分层结构”—编辑名称—按顺序拖动其他维度(中心-部-班-组)。注意:层级不能多层嵌套按住 Ctrl 键同时选中维度中心、班、组、部,右键选择分层结构,创建分层

2020-08-10 19:35:13 3521

原创 数据可视化图形应用场景及Tableau操作

数据可视化图形应用场景及Tableau操作1、条形图、柱状图2、堆积条形图3、直方图4、折线图5、饼图6、文本表(二值凸显表)7、树状图8、气泡图9、词云图10、标靶图11、甘特图12、瀑布图13、符号地图14、填充地图15、多维地图16、混合地图数据分析重要的不是你用什么图表,而是你的分析目的是什么?比如,你想要作比较分析,就要用柱图、雷达图等;你想要看数据分析的占比情况,就要用漏斗、饼图;想要看数据的趋势有线形图;想要看数据与数据之间的关系,有树状图......而每个分类里各个可视化图表的应用场景和

2020-08-09 19:29:45 1814

原创 pandas的操作汇总

pandas操作1、读取数据pd.read_csv()pd.read_excel()1、读取数据pd.read_csv()主要参数pd.read_csv(filepath,header=None)filepath:文件地址,相对地址或者绝对地址header:默认为None,即认为文件么有列名,会从0开始自定义列名pd.read_excel()主要参数:filepath:文件地址sheet_name:数可以接收的有:str,int,list或None,默认0整数用于零索引工作表位置

2020-07-16 17:31:55 788

原创 数据的预处理

数据预处理一、数据可能存在问题二、数据预处理步骤1、数据预处理1.1 缺失值处理1.2 离群点检测1.3 重复数据处理2、数据转换2.1 将分类变量转换为数值2.2 处理数据不均衡问题2.3 数据的归一化、标准化一、数据可能存在问题在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):数据缺失数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age =

2020-05-09 15:07:06 2602

原创 pandas处理分类变量的方法

在做预测分类的任务中,如果出现了分类变量,要对其进行一些处理,例如sex 【男,女】城市 【北京,上海,广州,深圳】颜色 【red, blue】在对这些分类变量处理的时候要注意以下两点原则离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,...

2020-04-23 16:14:56 3781

转载 dataframe选取行、列方法总结。ix、iloc、loc等

pandas中的切片方法[],loc,iloc,at,iat,ix基础数据import pandas as pdimport ...

2020-04-22 18:20:39 6838

原创 简单的中文繁简转换

Github地址:https://github.com/gumblex/zhconv目录zhconv的安装为了批量繁简转换编写的简易脚本1、zhconv的安装打开anaconda或者powershell的命令行输入pip install zhconv二、为了批量繁简转换编写的简易脚本import zhconvimport sysimport osimport pa...

2020-04-22 18:06:22 734

原创 数据分析面试题总结

主要针对数据分析的常见题型,概率与统计、业务问题、机器学习、python、个人剖析题进行总结。vivo:业务方面微信红包和转账有啥区别?利润下降怎么分析?点击量下降怎么分析?新客户和老客户流失分析上有区别吗,该如何分析?你如果是个数据分析师,那么你怎么像一些微信用户推荐新好友?高级写字楼不允许外卖小哥进去,同时上班族也不想下楼来拿外卖,有何解决方法?A、B两个人决定抛硬币吃苹果...

2020-04-07 13:37:04 9973 2

原创 Mysql8.0+中的rank()、row_num()、dense_rank()等窗口函数

在低于Mysql8.0之前的版本中,要对序列进行排序的话需要用到自定义参数@,但是8.0+版本中加入了oracle中的窗口函数,rank()、row_num()、dense_rank()等函数。下面简单举几个例子介绍下这几个函数的应用。测试用的表主要有两个,一个是学生信息表student,二是学生分数表sc,具体的测试数据的mysql插入语句在另一篇博客:Mysql经典练习题与知识点总结中,大家...

2020-04-02 16:54:22 2203

原创 SQL中on和where 的区别

在数据库中,很多条件下on和where的作用形式傻傻分不清。在整个语句的执行过程中,先执行on,再执行where。on条件是在生成临时表时使用的条件,而where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。不管on上的条件是否为真都会返回left或right表中的记录,full则具有...

2020-03-26 11:36:33 633

原创 Mysql经典练习题与知识点总结

基于经典的sql练习题,提升操作水平,也方便下次回忆,本文使用的是mysql进行操作,把代码和展示结果以及涉及到的知识点,总结在相应位置。首先是练习题的几个表,主要有四个表,student表(Sid,Sname,Sage,Ssex)–Sid学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别course表(Cid,Cname,Tid)–Cid 课程编号,Cname 课...

2020-03-25 19:08:52 416

原创 特征选择mRMR算法实现全解

mRMR:(Maximum relerelevance,minimum redundancy)最大相关最小冗余算法,顾名思义,它不仅考虑到了特征和label之间的相关性,还考虑到了特征和特征之间的相关性。度量标准使用的是互信息(Mutual information)。对于mRMR方法,特征子集与类别的相关性通过各个特征与类别的信息增益的均值来计算,而特征与特征的冗余使用的是特征和特征之间的互信息...

2019-07-02 10:16:20 16727 25

转载 markdown、csdn公式语法

行内与独行行内公式:将公式插入到本行内,符号:$公式内容$,如:$xyz$独行公式:将公式插入到新的一行内,并且居中,符号:$$公式内容$$,如:$$xyz$$上标、下标与组合上标符号,符号:^,如:$x^4$下标符号,符号:_,如:$x_1$组合符号,符号:{},如:${16}_{8}O{2+}_{2}$汉字、字体与格式汉...

2019-07-01 22:33:22 196

原创 有效提升Github desktop克隆失败或克隆速度速度过慢的问题

学软件比装软件简单多了。。。。心累在Github上遇到的问题,clone一直失败,或者认证失败,花了两天时间终于集众家之长解决了问题,成功将项目克隆到本地总结了一下克隆失败的原因giuhub的国内访问量很大,经常会网上堵车这是我克隆失败的时候查询github相应时间,丢包严重这是我修改了设置之后的ping设置步骤打开C:\Windows\System32\drivers\e...

2019-06-30 16:28:55 6602 7

原创 使用python的os模块批量修改文件名

os模块介绍os.listdir(path)返回path指定的文件夹包含的文件或文件夹的名字的列表。os.open(file, flags[,mode])打开一个文件,并且设置需要的打开选项,mode参数是可选的。os.remove(path)删除路径为path的文件。如果path 是一个文件夹,将抛出OSError; 查看下面的rmdir()删除一个 directory。...

2019-06-30 13:56:31 720

原创 pip的时候出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))…………

pip的幺蛾子1.pip的时候出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))…………2.一、原因pip的时候各种关卡限制了它的网速,导致网速过慢或者安装失败二、解决方法(一劳永逸)国内的pip源,如下:阿里云 http://mirrors.aliyun.com/pypi...

2019-06-29 22:11:13 28561 2

原创 mysql的外键约束

外键是表中的一个列,其值必须在另一个表的主键中给出。外键的作用是:保证数据的完整性,可帮助防止意外的删除举个例子:现在我们有两个表,orders(订单表:所有的顾客的购买行为)和customers(顾客表:其中客户ID为主键)orders表和customers表的关联在于:对于orders表中的每一个顾客,在customers表中都能找到相应的人与之对应。否则便会出现orders...

2019-06-18 16:55:14 732 1

原创 mysql插入数据时学要加引号的数据类型

mysql中批量插入数据insert into 表名 values(数据1),(数据2)……在这些插入的数据中有些数据类型需要加引号,具体总结如下字符串类型和日期类型:需要加引号 (’ ')如CHAR、VARCHAR、TEXT、DATE、DATETIME、TIMESTAMP、YEAR、TIME等数据类型的数据需要加引号整数和浮点型的:不需要加如TINYINT、SMALLINT、M...

2019-06-18 12:55:33 15086 1

原创 mysql字符串拼接

CONCAT()CONCAT_WS()GROUP_CONCAT()为了方便下面举例,这里放个student表供下面使用s_ids_names_sex01张三男02李四男03王五男04赵六null一、CONCAT() :最常用的字符串拼接方法,但遇到拼接中的字符串出现null的情况会返回null语法:CONCAT(st...

2019-06-18 11:50:56 8793

转载 mysql实现排名函数三种方式

MySQL没有提供排名函数,但是我们可以通过一些技巧来实现开窗函数的效果。1. 环境搭建、目标结果集CREATE TABLE `tem` (  `id` int(11) NOT&nbsp...

2019-06-17 21:32:33 5667 2

转载 随机森林算法详解

<div id="post_detail"> [Machine Learning & Algorithm] 随机森林(Random Forest) 阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林...

2019-06-15 14:40:13 32290 3

原创 python笔记——继承与多态

本文结构:类的继承多态一、类的继承在编写类的时候并非一定要从0开始,如果你要编写的类是某一个现成类的特殊版本,可使用继承。原有的类叫做父类,而新类叫做子类,子类会自动继承父类的所有属性和方法,同时还可以定义自己的特有属性和特有方法。通过下面的demo来一一说明。demo1现在有一个Person类,它有一个属性age,有一个run方法,可以打印信息,我们希望定义一个Boy和G...

2019-06-04 14:53:11 201

原创 python笔记——类属性和实例属性详解

在定义类(class)的时候发现属性这个地方有很多坑,类属性、实例属性、局部变量傻傻分不清。在在本文中介绍以下内容(全部跟定义类有关)类属性实例属性一. 类属性:定义类的模块添加的属性1. 调用:在内部用类名.类属性名调用,外部既可以用类名.类属性名又可以用实例化对象.类属性名来调用demo1class Car(): type = "new" my_...

2019-06-03 21:37:08 404

原创 python笔记——__init__方法与self详解

前后都加双下划綫的方法在python中是独一无二的,加下划线的目的在于避免与普通方法名称冲突。本文中主要深入理解在定义类的时候必须用到的__init__方法。在进行详细叙述之前,给大家普及一下,类中的方法和属性。方法:也就是各类中定义的函数,比如我们定义一个车的类,描述车的函数就是一个方法。属性:车的品牌、型号、生产日期等信息就是它的属性1、__init__方法:无需直接调用,生成实...

2019-06-03 19:51:58 14626 17

原创 python笔记——try except方法

本文结构:1、常见错误总结2、try except方法一、常见错误总结AttributeError 试图访问一个对象没有的树形,比如foo.x,但是foo没有属性xIOError 输入/输出异常;基本上是无法打开文件ImportError 无法引入模块或包;基本上是路径问题或名称错误IndentationError 语法错误(的子类) ;代码没有正确对齐IndexError 下标...

2019-06-02 20:49:53 13065

原创 python笔记——split()函数详解

Python中有split()和os.path.split()两个函数,具体作用如下:split():拆分字符串。通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(list)os.path.split():按照路径将文件名和路径分割开一、split()语法str.split(str="", num=string.count(str))参数str 分隔符,默认为...

2019-06-02 15:03:54 865

原创 python笔记——os模块

os模块中关于文件/目录常用的函数使用方法函数名使用方法getcwd()返回当前工作目录chdir(path)改变工作目录listdir(path=’.’)举指定目录中的文件名(’.‘表示当前目录,’…'表示上一级目录)mkdir(path)创建单层目录,如该目录已存在抛出异常makedirs(path)递归创建多层目录,如该目录已存在抛出异...

2019-06-02 11:01:03 139

原创 python笔记——集合操作详解

集合的作用:确保里面包含的元素的唯一性,集合内不会存在两个相同的元素两个集合或多个集合可以进行交(∩)、并(∪)、差操作。集合的操作1、创建集合{}set()使用{}或使用set(x),但空集合只能用set(x)创建,因为{ }表示的是空字典。>>> a = set([1,2,3])>>> b = set({1,2,3})>&...

2019-06-02 09:41:07 302

原创 python笔记——文件读写操作过程(open与with open的区别)

文件的读写通常包含以下步骤:文件的打开:open()open或with open会返回文件对象,必须用read或readlines之后才能打印在此我会介绍with open 与open之间的区别。提前剧透with open优于open文件的读入:read()文件的写入:write()文件的关闭:close()另外介绍两个模块的内容:文件的定位文件的属性一、文件的打开:o...

2019-06-01 14:03:55 2971

原创 python笔记——字典操作详解

字典是python里面唯一的映射类型,由一个个键值对组成。字典的创建字典的查询字典的删除字典的修改or添加字典的内置方法(BIF)字典的特性通讯录练习一、创建字典(two)使用{}创建使用dict()函数demo>>> dict1 = {'one':1,'two' : 2,'three' :3}>>> dict2 = ...

2019-06-01 09:49:23 428

原创 python中True,False与0,1之间的关系

demo1>>> print(True == 1)>>> print(True == 2)>>> print(False == 0)>>> print(False == 2)TrueFalseTrueFalse这说明1与True,0与False在python来说是完全相等的东西。demo2>...

2019-05-31 18:31:55 24504 2

原创 python笔记——函数练习

1、输入字符串,分别字符串中含有数字、字母、空格和其它字符个数。def findstr(*param): chars = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ' nums = '0123456789' space = ' ' count_char = 0 count_num = 0 ...

2019-05-31 17:53:45 158

转载 markdown修改字体、颜色

  Markdown是一种可以使用普通文本编辑器编写的标记语言,通过类似HTML的标记语法,它可以使普通文本内容具有一定的格式。但是它本身是不支持修改字体、字号与颜色等功能的!  CSDN-markdown编辑器是其衍生版本,扩展了Markdown的功能(如表格、...

2019-05-31 14:55:20 20731 1

原创 python学习笔记——循环退出的几种方式

在这里主要讨论的是while循环,for循环通过迭代对象退出。由于while循环通常不知道循环的次数,所以对于while循环,它的几种应用场景导致退出条件设置的不同。一、让用户选择何时退出:定义退出变量可使用while循环让程序在用户在愿意的时不断运行,在其中定义一个退出值,只要用户输入的不是这个,程序就接着运行。我们小时候玩游戏的经常会遇到,当人物死亡的时候,界面会跳出 重新开始游戏...

2019-05-31 14:25:29 15630

原创 python学习笔记——递归与迭代详解

递归和迭代从本质上看都是循环的一种,递归通过在循环中调用自身,而迭代则通过某段代码实现循环一、 递归:它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解,递归策略只需少量的程序就可描述出解题过程所需要的多次重复计算,大大地减少了程序的代码量注意:递归就是在过程或函数里面调用自身;在使用递归时,必须有一个明确的递归结束条件,称为递归出口执行阶段:分解 ...

2019-05-30 17:51:19 2955

原创 python学习笔记——lambda关键字、map、filter、reduce函数

在python中有一些有意思的内置函数,例如map()、filter()、reduce()函数,总结一下加深理解。lambda关键字map函数filter函数reduce函数sorted函数zip函数一、lambda表达式:匿名函数原文地址:https://www.cnblogs.com/hf8051/p/8085424.htmllambda表达...

2019-05-29 20:38:29 306

原创 python学习笔记——全局变量与局部变量,global和nonlocal关键字

1、全局变量与局部变量两者的区别2、global关键字与nonlocal关键字的区别一、全局变量与局部变量两者的本质区别就是在于作用域全局变量是作用在整个py文件上的,在任何地方都能访问和修改。局部变量只能在它所在的函数内部才能调用。在其他函数中无法使用,且定义的函数内部不能直接使用或修改全局变量。如果函数内部出现与全局变量名字相同的局部变量,其实二者完全不同,注意区分。通过下面...

2019-05-29 16:16:50 1028 1

原创 python学习笔记——print函数详解

如果你对于形参和实参的概念还不太熟悉的话,请参考我的另一篇博客,关于各类形参和实参的介绍再来看这个。在使用def来定义函数时候发现有各种形参,仔细阅读print()函数的源码发现如下:print(…)print(*value, sep=’ ‘, end=’\n’, file=sys.stdout, flush=False)Prints the values to a stream, or ...

2019-05-29 14:12:18 943

原创 python学习笔记——位置实参与可选实参

一、实参与形参二、传递实参的方法:位置实参、关键字实参、实参默认值、可选实参一、实参与形参形参顾名思义就是形式上的参数,在定义函数的时候放在函数名后面的括号中。实参则是在多面调用的时候传递的值>>> def greet_user(username):>>> print("Hello,"+username+"!")>>&gt...

2019-05-29 11:16:42 957

原创 python中return的作用总结

在python中定义函数的时候,发现既可以用print也可以用return,来输出一个值,那到底return存在的作用是什么?遂参考几篇论文总结一下1、终止函数并将return值传回程序运行到所遇到的第一个return即返回(退出def块),不会再运行第二个return。但并不意味着一个函数中只有一个return例def odd(x): if x%2 != 0: ...

2019-05-29 10:33:43 38434 14

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除