自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 资源 (3)
  • 收藏
  • 关注

原创 Windows系统安装Tensorflow,出现mportError: DLL load failed: 动态链接库(DLL)初始化例程失败

看见网上有很多说用anaconda安装tensorflow, 其实并没有这么复杂,直接安装即可。环境版本:python: 3.6.5tensorflow: 1.5.0如果直接使用下面的命令行安装会非常慢,而且经常time out,根本就下不下来。因为这是从国外的服务器上下载文件。python -m pip install tensorflow使用清华镜像就可以快速的下载文...

2020-03-16 11:48:29 1899 3

原创 Python在Dataframe中新添加一列

在敲代码的过程中,老是会遇到在Dataframe中新添加一列的情况,每次都要重新google,这次做个记录。其实在Dataframe中新添加一列很简单,直接指明列名,然后赋值就可以了。import pandas as pddata = pd.DataFrame(columns=['a','b'], data=[[1,2],[3,4]])data>>> dat...

2019-08-13 16:31:25 278078 7

原创 DataFrame计算corr()函数计算相关系数时,出现返回值为空或NaN的情况

1. 返回值为空的情况出现返回值为空的情况是因为数据的类型不是数值型。用data.info()函数可以查看dataframe的信息。这里举个例子:###创建一个dataframe,数据类型为objectdata = pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'],dtype=object)dataOut[23]: ...

2018-09-15 00:01:48 41567 7

原创 tableau连接多个表

今天打开tableau找了一圈儿都没有找到如下的join多个表的界面。还以为是更新了版本的原因????‍♀️ 后面才知道原来是将表格拖过来以后,再双击表格就可以进到上面的界面进行join和union的操作 ...

2020-12-18 15:13:51 7437 3

转载 PCA(转载)

文章转载自Microstrong03051.相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。因此需要找到一种合理的方法,在减少需要分析的指标同时

2020-12-17 16:16:46 653

转载 堆排序

堆排序  堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序。首先简单了解下堆结构。堆  堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。如下图:同时,我们对堆中的结点按层进行编号,将这种逻辑结构映射到数组中就是下面这个样子该数组从逻辑上讲就是一个堆结构,我们用简单的公式来描述一下堆的定义就是:

2020-12-15 14:22:23 391

原创 归并排序

归并排序采用分治的思想,同时,它和冒泡排序一样也是稳定排序,不会处理相同元素。def orders(ls1,ls2):### 对两个分块进行排序合并 ls = [] length1 = len(ls1) length2 = len(ls2) s1 = 0 s2 = 0 while s1<length1 and s2<length2: if ls1[s1] < ls2[s2]: ls.append(ls1[s1]) s1 += 1 else: .

2020-12-11 15:59:32 151

原创 风控模型稳定性指标PSI

群体稳定性指标是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。也可以用来衡量模型稳定度。通常用作模型效果监测。由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的样本,可以用稳定性测试。PSI可以衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化

2020-10-12 18:33:19 1666

原创 如何修改聚合后的数据的index

>>> data.groupby(['name']).agg(age_sum = ('age','sum'),age_mean=('age','mean')).reset_index() name age_sum age_mean0 x 70 35.01 y 93 46.52 z 30 30.0

2020-09-04 20:15:42 1037

原创 DataFrame groupby+agg出现SpecificationError: nested renamer is not supported的错误

这个应该是pandas的版本问题,我的是v1.0.5>>> import pandas as pd>>> data=pd.DataFrame({'name':['x','y','x','y','z'],'sex':['f','m','f','f','m'],'age':[25,26,45,67,30]})>>> data name sex age0 x f 251 y m 262 x f .

2020-09-04 19:58:57 4385

原创 给大家推荐一门免费的Spark课程

到底

2020-08-07 16:31:06 4398

原创 在终端里启动Tensorboard的详细步骤

1.需要在代码中插入一段将信息写入graph的代码以下面这段代码为例import tensorflow as tf#重新设置默认的graph,否则之前的所有的graph会在一张图中tf.reset_default_graph()logdir = '/Users/zhangxin/Documents/tb1'#这里为我在桌面上新建的文件夹的路径a = tf.constant(2, name = 'a')b = tf.constant(3, name = 'b')sum_out = t

2020-06-25 18:55:33 3516

原创 推荐两个免费学习Tensorflow的网站

该网站的教程从入门到深入,也会有代码片段http://c.biancheng.net/view/1914.html

2020-06-04 23:32:47 1025

原创 【Python】处理时间数据格式出现time data does not match format valueError

ValueError: time data '19970004' does not match format '%Y%m%d' (match)

2020-06-04 11:41:39 66709 6

原创 给大家推荐一个免费的Tableau数据分析入门教程

讲课的是个小姐姐,课程讲的很详细也有实操演示https://study.163.com/course/courseMain.htm?courseId=1209019803

2020-06-01 18:21:47 1126

原创 【Python】对DataFrame空值进行统计

现实中的数据,总是不理想的,比如说数据中有的列会存在缺失值。缺失值太多的样本本身没有太多的信息,对训练模型就没有作用。同时,缺失值会影响模型,特别是使用度量相关的模型。如KNN和SVM。### 统计数据每列的缺失数量ListData.isnull().sum()Out[11]: id 0name 1host_id

2020-05-29 17:14:06 10596

转载 回归模型三种损失函数

无论在机器学习还是深度领域中,损失函数都是一个非常重要的知识点。损失函数(Loss Function)是用来估量模型的预测值 f(x) 与真实值 y 的不一致程度。我们的目标就是最小化损失函数,让 f(x) 与 y 尽量接近。通常可以使用梯度下降算法寻找函数最小值。损失函数有许多不同的类型,没有哪种损失函数适合所有的问题,需根据具体模型和问题进行选择。一般来说,损失函数大致可以分成两类:回归(Regression)和分类(Classification)。今天,红色石头将要总结回归问题中常用的 3 .

2020-05-20 19:05:34 9514

转载 回归问题评估模型的三个指标

我们通常都会训练多个模型,可以通过下面几个方法来评估模型的好坏

2020-05-06 17:55:22 4865

翻译 【Python】Dataframe删除空值

上一篇文件讲了如何判断Datafram里面的空值,这一篇我们聊一下如何删除Dataframe中的空值。

2020-03-27 20:50:23 35313 2

原创 给大家推荐一门浙江大学的免费数据结构公开课

数据结构https://www.icourse163.org/course/ZJU-93001

2020-03-20 16:17:09 533 3

原创 【Python】如何读取文件夹下的所有文件

有时候需要处理一个文件夹下面所有的文件,一个个的将文件的名字复制粘贴到代码里太麻烦了,我们可以一次性读取文件夹里面所有的文件。import ospath = '/Users/zhangxin/Desktop/文件夹/'files = os.listdir(path)i = 0for file in files: try: used_name ...

2020-03-18 22:41:30 11612 2

原创 zip函数在【Python2】和【Python3】中的区别

从python2到python3,zip函数的使用发生了很大的变化。在python2中,zip函数返回的是一个list,可以直接使用list相关的函数,比如,len(), 索引。zip2 = zip([1,2,3],[4,5,6])print zip2print len(zip2)print zip2[0][(1, 4), (2, 5), (3, 6)]3(1, 4)...

2020-03-04 16:08:51 655

原创 【Python】将字符串转为list

之前经常使用[]将其他格式的字段转为list,后面发现不太对。下面举例说明list()方法和直接使用[]的区别:>>> s = '233'>>> list(s)['2', '3', '3']>>> [s]['233']直接使用[]只是把整个字符串变为list,而使用list()方法是将字符串拆分为单个字符, 并存为list类型...

2020-02-10 23:26:39 3015

转载 pandas.read_csv() 报错 OSError: Initializing from file failed,报错原因分析和解决方法

Python版本:Python 3.6pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径而非文件名称,另一种是函数参数带有中文。亲测有效,解决了我的问题!!# -*- coding: utf-8 -*-"""Created on Mon Jun 4 09:44:36 2018...

2020-01-09 12:38:30 271

原创 KS曲线和ROC曲线(二)

上一篇文章我们说了KS曲线和ROC曲线的理论知识,这篇文章我们来实际操作一下。import pandas as pdfrom sklearn.metrics import roc_curveimport matplotlib.pyplot as plt### 构造数据data = [[1,1,0,1,0,0],[0.9,0.8,0.5,0.6,0.2,0.6]]### 转化喂da...

2019-12-25 15:02:38 967 1

原创 【Python】pass,continue和break的区别

又是一个表明我基础不扎实的点,上一个是【Python】重新认识or运算pass经常作为代码里面的占位符,不知道写啥时就可以写个pass放在哪儿,后面再写。我们可以看到下面一段代码,pass后面的代码还是会继续执行,也就是当前的循环还在继续。ls = [0,1]for i in ls: if i == 0: pass print(i)01con...

2019-12-20 18:20:48 3598

原创 【Python】pandas 读取excel文件报错UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 60-61

今天在用pandas读取同事传过来的excel时,出现了UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 60-61: unexpected end of data的问题。找了一圈儿是因为同事传过来的excel后缀名是xls,新建一个xlsx的excel然后将内容复制进去就可以了。直接对原来的xls文档另存...

2019-12-16 16:36:23 9290 3

原创 【Python】将Dataframe转化为字典(dict)

【Python】将字典转化为Dataframe有时候我们需要Dataframe中的一列作为key,另一列作为key对应的value。比如说在已知词频画词云的时候,这个时候需要传入的数据类型是词典。import pandas as pddata = pd.DataFrame([['a',1],['b',2]], columns=['key','value'])dict1 = dic...

2019-12-11 10:24:03 51568 8

原创 【Python】深拷贝和浅拷贝

浅拷贝简单赋值其实也是一种浅拷贝。通过下面的例子我们可以看到,即使提前将ls的值赋给了ls1,后面对ls进行排序时,ls1的值也排序了。>>> ls = [1,3,2]>>> ls1=ls>>> ls1[1, 3, 2]>>> ls.sort()>>> ls[1, 2, 3]>&...

2019-11-29 15:18:29 150

原创 【Python】重新认识or运算

今天在刷leetcode的时候,看别人的代码时,认识了一个新的or运算(还是基础不扎实[捂脸])之前认识的or运算我之前认为的or运算是,只有两个值都是false的时候,输出的结果才是false'False' or 'False'Out[43]: 'False'0 or 0Out[40]: 0之后认识的or运算当两个值中有一个值为非零时,就返回第一个非零的值。这种...

2019-11-25 18:20:07 630

原创 【Python】生成全0矩阵的方法

1. 使用numpy生成0矩阵(1). np.zeros((行数,列数))import numpy as np### 生成一个两行,三列的矩阵np.zeros((2,3))Out[2]: array([[0., 0., 0.], [0., 0., 0.]])(2). np.full((行数,列数), 填充的数值)。这种方法相对于第一种方法更加的通用,可以指定填...

2019-11-25 17:22:25 53893

原创 【Python】【DataFrame】判断空值出现TypeError的错误

一直用的是numpy的np.isnan()来判断,结果今天用的时候就爆了下面的错误TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule '...

2019-11-14 15:38:06 1535

原创 【Python】【DataFrame】TypeError: argument of type 'float' is not iterable

有时候在迭代Dataframe的时候会出来一个TypeError,感觉真的是莫名奇妙。比如针对下面这个数据,想把duration里面的字符’s‘去掉,运用下面的代码就报错了。tempDataOut[12]: duration likes0 2.3 891 3s 67tempData.duration = tempData.durati...

2019-11-14 15:29:55 11514 3

原创 【Excel】数据透视表—简单数据分析实例

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表数据透视表可以帮助我们快速的做一些统计方面的数据分析,也是很方便的。下面给出了五个简单的分析实例:1. 统计各部门人数占总人数的百分比。主要就是修改生成的数据透视表的【值显示方式】,就不需要我们自己用公式去计算...

2019-10-24 11:48:14 12427

原创 【Excel】数据透视表—按年、季度、月份汇总报表

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—简单数据分析实例直接举个例子,我们对下面的数据透视表进行操作: ...

2019-10-22 15:50:13 26035

原创 【Excel】数据透视表—新增一列(字段)

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例在生成了数据透视表后,有时候需要自己通过计算添加新的列,举个?我们要在下面已经生成好的数据透视表中,添加一列提成: ...

2019-10-22 10:50:49 42441

原创 【Excel】数据透视表—去掉列的值汇总依据(求和项:、计数项:等)

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例数据透视表的功能就是汇总分析,但是在列名中会出现值汇总的依据。比如:求和项,计数项,平均值项等 ...

2019-10-18 18:06:11 15439

原创 【Excel】数据透视表—数据透视表布局(显示)

【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例我们刚刚生成的一个数据透视表通常是这样的,个人感觉看着不是很方便。其实,Excel对数据透视表提供了三种报表布局让我们选择。选中数据透视表——点击【设计】——点击【报表布局】,然后就可以看见下面这三种样式:...

2019-10-18 17:00:58 4604

原创 【Excel】数据透视表—标签合并居中

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例​​​​​​​做数据透视表的时候,为了让表格更加的美观会将多行共有的标签进行居中合并。我们来举个?:下面是已经做好的数据透视表,我们可以看到地区这一列是多行共有的,可以做一下合并居中 ...

2019-10-18 15:48:37 5980

原创 【Python】【 DataFrame】判断某一列的值是否包含另一列的值

在操作DataFrame的时候偶尔会需要判断同一个DataFrame中的一列是否包含另一列的元素,首先想到的就是用 in 和 not in,可是直接使用会报错:import pandas as pddata = {'地址1':['广东深圳','广东汕头','重庆'],'地址2':['深圳','揭阳','北京']}df = pd.DataFrame(data)df = df[df.a...

2019-10-17 10:16:57 28374 1

本资源是所写excel文章时用来展示的简单数据.xlsx

本资源是所写excel文章时用来展示的简单数据,大家可以使用这些数据对应文章中的操作做练习。希望对大家有所帮助!

2020-07-07

自如房价数字图片训练集标签

因为之前传的数据没有标签,此文件为数据的标签。顺序是匹配的

2018-11-05

自如房价数字图片训练集

自如房价图片训练集,已经转换成30x30的行列值。该文档没有标签

2018-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除