自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王国平的博客

让数据分析和数据建模更加快捷

  • 博客(138)
  • 资源 (1)
  • 收藏
  • 关注

原创 《Python数据可视化之Matplotlib与Pyecharts》之序言

序 言“让每个人都成为数据分析师”是大数据时代的要求,数据可视化技术的出现恰恰从侧面缓解了专业数据分析人才的缺乏。Tableau、Microsoft、IBM等IT厂商纷纷加入数据可视化的阵营...

2020-04-29 20:40:24 1649 3

原创 《Microsoft Power BI数据可视化与数据分析》之配置R 3.6.3开发环境

3.3.2Power BI配置R 3.6.3开发环境安装R后,MS Power BI不会自动启用,还需要进行配置,具体步骤如下:(1)在MS Power BI菜单中,选择“文件”>“选项和设置”>“选项”。(2)在“选项”页左侧的“全局”下,选择“R脚本”。(3)在“R脚本”选项下的“设置R主目录”中指定本地的R 3.6.3,如图3-23所示。...

2020-03-08 23:58:42 445

原创 《精通Tableau商业数据分析与可视化》之Python下载

Anaconda是比较常用的Python的集成开发环境,尤其是对于初学者,我们可以到其官网下载Anaconda安装包,包含Windows/Mac/Linux三个版本,但是由于官网下载速度一般较慢,建议到国内的相关网站进行下载,例如清华大学开源软件镜像站,如图所示。...

2020-03-08 23:25:24 720

原创 《精通Tableau商业数据分析与可视化》之Tableau 2020.1.2简介

精通Tableau商业数据分析与可视化自定义“发现”窗格现在,可以自定义显示在Tableau Desktop 2020.1中的“开始”页面上的“发现”窗格,以显示自定义内容,而不是默认情况下显示的链接、博客文章和 Tableau 新闻。只需创建自己的网页,然后使用新的DISCOVERPANEURL安装属性指向它。启动Tableau Desktop时,将会显示自己的自定义内容时。...

2020-03-02 13:08:48 1677

原创 《Python数据可视化之Matplotlib与Pyecharts》之Jupyter Lab

《Python数据可视化之Matplotlib与Pyecharts》4.2.3 Jupyter LabJupyter Lab源于IPython Notebook,是使用Python(R、Julia、Node等其他语言的内核)进行代码演示、数据分析、可视化、教学的很好工具,对Python的愈加流行和在AI领域的领导地位有很大的推动作用,这是本书默认使用...

2020-02-05 17:53:26 2704

原创 《精通Tableau商业数据分析与可视化》之连接MongoDB

5.3.1 MongoDB简介MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是可以应用于各种规模的企业、各个行业以及各类应用程序的开源数据库。作为一个适用于敏捷开发的数据库,MongoDB的数据模式可以随着应用程序的发展而灵活地更新。MongoDB是专为可扩展性,高性能和高可用性而设计的数据库。它可以从单服务器部署扩展到大型、复杂的多数据中心架构。利用内存计算...

2020-01-02 10:16:03 1174

原创 《精通Tableau商业数据分析与可视化》之Tableau软件概况

Tableau公司成立于2003年,是由斯坦福大学的三位校友Christian Chabot(首席执行官)、Chris Stole(开发总监)以及Pat Hanrahan(首席科学家)在远离硅谷的西雅图注册成立的。其中,Chris Stole是计算机博士,Pat Hanrahan是皮克斯动画工作室的创始成员之一,曾负责视觉特效渲染软件的开发,两度获得奥斯卡最佳科学技术奖,至今仍在斯坦福担...

2020-01-02 10:10:32 813 3

原创 《精通Tableau商业数据分析与可视化》之序言

作为一名商业数据分析师,应该如何成长,学习哪些技能。我的回答是,除了数据分析技能的学习之外,你要比产品经理更懂产品,比业务更懂业务,甚至还需要对整个行业有一定的思考。如果你做到了,那么你可能成为一个非常炙手可热的数据分析师,或者说数据专家了。目前,大数据时代正在变革着我们的生活、工作和思维,如何让大数据更有意义,使之更贴近于大多数人,最重要的手段之一就是数据可视化,数据可视化是关于数据视觉...

2019-11-28 15:11:55 3423

原创 动手学Excel数据分析与可视化--数据分析简介

数据分析,动手学Excel数据分析与可视化,混样检测,新冠肺炎核酸筛查。

2022-11-12 10:21:08 558 1

原创 Tableau时间序列分析

5.3.4 时间序列分析时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行预测的方法。时间序列分析常用在企业经营管理、市场潜量预测、气象预报、地震前兆预报、农作物病虫灾害预报、环境污染控制等方面。时间序列分析法是根据过去的变化预测未来的发展,前提是假定事物的过去延续到未来。时间序列分析,正是根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。...

2022-06-05 23:29:06 1511 3

原创 Tableau数据分析与可视化(微课版)

前 言当前,互联网全球化、移动设备普及化、物质世界网络化等,都在为“数据大爆发”储蓄能量,大数据已成为继云计算、物联网之后信息产业又一次颠覆性的技术变革。大数据时代正在变革着我们的生活、工作和思维,如何让大数据更有意义,使之更贴近于大多数人,最重要的手段之一就是数据可视化。数据可视化是关于数据视觉表现形式的技术,这种视觉表现形式被定义为:一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。...

2022-06-05 23:23:15 860 1

原创 动手学Excel数据分析与可视化

当今时代,学习数据分析的人越来越多,对于Excel、SQL、Power BI、SPSS、Python等众多的数据分析工具,Excel仍然还是最常用,也是最容易上手的工具。Excel功能十分强大,不仅提供简单易用的数据处理功能,还有专业的数据分析功能库,包括相关系数分析、描述性统计、回归分析等。但是,会Excel的人很多,但是能用Excel熟练进行数据分析的人却不多,大部分人只掌握了很少的功能。...

2022-06-05 15:15:14 1370

原创 PyTorch模型可视化

Visdom简介Visdom可以直接接受来自PyTorch的张量,而不用转化成NumPy中的数组,从而运行效率很高。此外,Visdom可以直接在内存中获取数据,毫秒级刷新,速度很快。

2022-06-05 14:23:08 2502 1

原创 动手学Pytorch深度学习建模与应用

在人工智能的时代,机器学习技术日新月异,深度学习是机器学习领域中一个全新的研究方向和应用热点,他是机器学习的一种,也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展,而且促进了人工智能技术的革新,已经被成功应用在语音识别、图像分类识别、地球物理等领域,具有巨大的发展潜力和价值。本书分为10章,重点介绍了基于PyTorch的数值建模、图像建模、文本建模、音频建模、模型可视化和联邦学习等。......

2022-06-05 14:12:52 787 5

原创 Python数据可视化(微课版)-平行坐标系法

3.7.1 平行坐标系及应用场景1.平行坐标系简介平行坐标系是信息可视化的一种重要技术,它是可视化高维几何和分析多元数据的常用方法。为了克服传统的笛卡尔直角坐标系不能表达三维及其以上数据的问题,平行坐标系将高维数据的各个变量用一系列相互平行的坐标轴表示,变量值对应轴上的位置。为了反映变化趋势和各个变量间相互关系,往往将描述不同变量的各点连接成折线。尽管平行坐标系是折线图类型,但和普通的折线图是有区别的,平行坐标系不局限于描述单一趋势关系,如时间序列的不同时间点,可以为不同类型变量的数值描....

2022-05-14 00:03:58 1311

原创 Python数据可视化(微课版)-脊线图法

3.10.1 脊线图及应用场景1.脊线图简介脊线图是部分重叠的线形图,用以在二维空间产生山脉的印象,其中每一行对应的是一个类别,而x轴对应的是数值的范围,波峰的高度代表出现的次数。2.应用场景适用于可视化指标数据随时间或空间分布的变化。例如,为了分析不同食品类型与二氧化碳排放量的关系,我们可以使用R语言绘制两者之间的脊线图,如图3-27所示。图3-27 食物类型与二氧化碳排放量3.10.2 Python案例实战为了深入研究该企业在2019年每个月份的商品退单量情况,我...

2022-05-13 23:57:56 1433 1

原创 Python数据可视化(微课版)-时序数据简介

通常,具有时间属性且随时间变化的数据称之为时序数据,也就是时间序列数据,它是一种较常见的数据类型。注意在时序数据中,同一数据列中各数据是同口径的,要求具有可比性。时序数据可以是时点数,也可以是时期数,例如,图3-1是通过Excel绘制的2010年至2019年我国高校数量的条形图,该时序数据是由10个时期数组成的数列。时列数据分析的目的是通过样本数据,构建时间序列模型,从而进行未来数据的预测。例如,可以根据我国2010年至2019年共计10年的年末总人口历史数据,使用Excel为折线图添.

2022-05-13 23:35:06 347

原创 Python数据可视化(微课版)-简介

前 言当前,我们正处于大数据爆发的时代,涌现出大量不同类型的时空数据和非时空数据,信息激流使个人、企业和社会对大数据的依赖不断深化,与此同时,数据可视化研究已成为一个新的时代命题,与立体建模等方法相比,它所涵盖的技术更加广泛。数据可视化是关于数据视觉表现形式的科学和技术,需要充分使用图形、图像处理、计算机视觉和用户界面来表达与建模,以及立体、表面、属性和动画等方式,对数据加以可视化解释。早在18世纪,威廉·普莱费尔在其出版的《商业与政治图解集》中就已经使用了图表。数据可视化是技术与艺术的完美

2022-05-13 23:25:22 987 4

原创 Python 3.11安装过程

2022年5月7日,Python官方网站发布了Python 3.11.0b1版本,下载软件后(python-3.11.0b1-amd64.exe),可以正常安装:然后在Python的离线安装包的下载地址下载3.11版本的安装库即可:Python Extension Packages for Windows - Christoph Gohlke (uci.edu)例如:numpy库的下载截图:安装后可以查看Python 3.11中安装好且可以使用的库如下:...

2022-05-12 08:42:08 6111

原创 《Python+Superset:商业智能数据分析》搭建Dremio开发环境

这里拉取下来的是社区版本的Dremio镜像,如果需要商业版本的Dremio,则需要与Dremio官方联系。当然,作为个人开发使用,社区版本的Dremio已完全够用。为了快速在本机搭建Dremio开发环境,我们在Docker Hub通过命令从镜像仓库中拉取镜像,如图13-2所示。 图13-2 Dremio镜像拉取镜像的代码如下。docker pull dremio/dremio-oss单节点Dremio服务的部署,启动服务器端代码如下。docker run --name drem.

2022-02-25 00:53:42 1116 1

原创 Apache Superset与数据湖引擎

数据湖是数据的存储库和处理引擎,可以大规模地存储各类数据,具有很强的信息处理能力,能处理几乎无限的并行任务或工作。本章介绍Apache Superset如何集成Dremio数据仓库,并通过实际案例进行演示。13.1 数据湖引擎数据湖主要解决了数据仓库中存在的开发周期长、维护费用高、数据丢失等问题。13.1.1 数据湖引擎概述数据湖是一种在系统或存储库中以格式化的方式存储数据的方法,可以对数据进行多种模式和结构形式的配置。Pentaho的创始人兼CTO詹姆斯·狄克逊对数据湖的解释是:.

2022-02-25 00:39:56 1096

原创 Python+Superset:商业智能数据分析

近年来,随着信息化的飞速发展,越来越多的企业意识到数据在商业决策方面的价值,对数据驱动的需求更加强烈。通过数据分析、数据可视化等工具,企业能够从数据中获取精准的业务现状、客户价值和市场趋势。商业智能(Business Intelligence,BI)是一种处理企业现有数据,将其转化成知识和结论,辅助管理者做出决策的技术,其在商业决策领域发挥着越来越重要的作用。BI可视化技术已经被应用于各类商业领域,它可以帮助管理者更加清晰、直观地理解数据,以便做出关键决策。对电商企业来说,数据的意义更加重要,尤其是

2022-02-25 00:34:45 1460

原创 Python+Office:轻松实现python自动化办公

办公自动化是指利用现代化设备和技术,代替办公人员的部分手动或重复性业务活动,优质而高效地处理办公事务,实现对信息的高效利用,进而提高生产率,实现辅助决策的目的。通常包括Excel、Word、PPT、邮件和文件等的处理,微软Office套件里虽然提供了编程接口来实现办公自动化,但是由于具有占用资源大等缺点,因而使用场景十分有限。当前,在办公自动化的研究热潮中,如何提高工作效率,也成了一个挑战性的任务。Python在自动化办公领域越来越受欢迎,可以实现文件的批量生成和处理,是加班族的福音。鉴于目前...

2022-02-25 00:12:55 1127

原创 模型的调优方法--随机搜索及案例

我们在搜索超参数的时候,如果超参数个数较少,例如三四个或者更少,那么就可以采用网格搜索,一种穷尽式的搜索方法。但是当超参数个数比较多的时候,如果仍然采用网格搜索,那么搜索所需时间将会呈现指数上升。所以就提出了随机搜索的方法,随机在超参数空间中搜索几十甚至几百个点,其中就有可能有比较小的值。随机搜索使用方法与网格搜索很相似,但他不是尝试所有可能的组合,而是通过选择每一个超参数的一个随机值的特定数量的随机组合,这样可以方便的通过设定搜索次数,控制超参数搜索的计算量等。对于有连续变量的参数时,随机搜索会将..

2021-10-10 07:25:44 745

原创 模型的调优方法--交叉验证及案例

交叉验证也称为循环估计,是一种统计学上将数据样本切割成较小子集的实用方法,主要应用于数据建模。交叉验证基本思想:将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此作为评价分类器的性能指标,用交叉验证的目的是为了得到可靠稳定的模型。交叉验证的常见方法如下:Holdout验证将原始数据随机分为两组,一组作为训练集,一组作为验证集,利用训练集训练分类器,然后利用验证集验证模型,记录最后的分类准确率,以此作为分类器...

2021-10-10 07:24:28 1232

原创 模型的调优方法--交叉验证及案例

交叉验证也称为循环估计,是一种统计学上将数据样本切割成较小子集的实用方法,主要应用于数据建模。交叉验证基本思想:将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此作为评价分类器的性能指标,用交叉验证的目的是为了得到可靠稳定的模型。交叉验证的常见方法如下:Holdout验证将原始数据随机分为两组,一组作为训练集,一组作为验证集,利用训练集训练分类器,然后利用验证集验证模型,记录最后的分类准确率,以此作为分类器...

2021-10-10 07:23:21 742

原创 零基础入门Python数据分析与机器学习--Lasso回归及案例

在介绍Lasso回归之前,我们首先介绍一下过拟合的概念,过拟合指的是模型在训练集上表现的很好,但是在交叉验证集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,即模型泛化能力较差。例如,我们在预测企业商品的销售利润时,如果仅考虑商品销售价格,模型不能很好地拟合数据,处于欠拟合状态。如果再考虑商品的销售数量和成本,模型可以达到最佳的效果。但是,如果我们继续添加其它变量,例如地区、季节、气候等,这时模型就可能处于过拟合状态。过拟合的问题通常发生在变量过多或采用了很复杂的模型的时候,这种情况下训练..

2021-10-10 07:19:45 775

原创 零基础入门Python数据分析与机器学习--Sklearn自带数据集

Sklearn内置了一些机器学习的数据集,其中包括鸢尾花数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集和酒质量数据集等。7.4.1鸢尾花数据集简介“鸢尾花”数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含3类共150条记录,每类各50个数据。首先需要导入“鸢尾花”数据集,然后查看数据集的属性,输入如下:from sklearn import datasetsiris = datasets.load_iris()print...

2021-10-10 07:17:58 727

原创 零基础入门Python数据分析与机器学习--缺失值的检测

对于数值数据,Pandas使用浮点值NaN(Not a Number)表示缺失数据。在介绍Pandas缺失值的处理之前,首先创建一个不同地区商品退单量的数据集,代码如下:import numpy as npimport pandas as pdreturn = {'春季': [90,87,None,None,90,90],'夏季': [91,89,None,91,88,82],'秋季': [89,None,None,82,85,95],'冬季': [96,83,None,85,99...

2021-10-10 07:16:31 162

原创 零基础入门Python数据分析与机器学习--重复值的处理

下面我们删除数据集中数值相同的记录,代码和输出如下所示。return.drop_duplicates()春季 夏季 秋季 冬季东北 90 91 89 96华东 87 89 85 83华中 90 91 82 85华南 92 88 85 99西南 90 82 95 80默认会判断全部列,也可以指定某一列或几列,例如,我们需要删除数据记录中某列的数值相同的记录,代码和输出如下所示。ret...

2021-10-10 07:15:06 347 1

原创 Python商业数据可视化实战

序 言目前,互联网全球化、移动设备普及化、物质世界网络化等,都在为“数据大爆发”储蓄能量,大数据已成为继云计算、物联网之后信息产业又一次颠覆性的技术变革。大数据时代正在变革着我们的生活、工作和思维,如何让大数据更有意义,使之更贴近于大多数人,最重要的手段之一就是数据可视化。在数据可视化研究热潮中,各种数据可视化视图层出不穷,如何让数据生动呈现,也成了一个挑战性的任务,随之也出现了大量的可视化软件。相对于其它商业可视化工具,Python是开源免费的,而且目前市场上基于Python的商业数据可视化的..

2021-10-05 10:53:27 839

原创 零基础入门Python数据分析与机器学习--椭圆模型拟合及案例

9.5.2椭圆模型拟合及案例多元数据集存在偏离正常范围的“离群点”。一般在预处理数据环节,需检测出离群点,再进行处理。离群点产生的原因可能是由数据中存在某些点来自于与总体分布不同的其它分布。具体而言,假设多元数据集大多数样本服从分布F,少量样本服从分布G;则将少量样本定义为离群点。一般采用马氏距离来检验某个样本是否为离群点。在计算距离过程中需要提供均值估计量和协方差估计量,这两个参数容易被离群值影响而发生偏离,导致马氏距离计算不准确,最终影响离散点的判断。实现离群点检测的一种常见...

2021-10-05 06:33:58 1046

原创 Python+Office:轻松实现python自动化办公

前 言办公自动化是指利用现代化设备和技术,代替办公人员的部分手动或重复性业务活动,优质而高效地处理办公事务,实现对信息的高效利用,进而提高生产率,实现辅助决策的目的。通常包括Excel、Word、PPT、邮件和文件等的处理,微软Office套件里虽然提供了编程接口来实现办公自动化,但是由于具有占用资源大等缺点,因而使用场景十分有限。当前,在办公自动化的研究热潮中,如何提高工作效率,也成了一个挑战性的任务。Python在自动化办公领域越来越受欢迎,可以实现文件的批量生成和处理,是加班族的福音.....

2021-10-05 06:26:57 4267 2

原创 零基础入门Python数据分析与机器学习

前 言人工智能是目前炙手可热的一个领域,多数互联网公司纷纷表示人工智能将是下一个时代的革命性技术。机器学习属于人工智能的一个重要分支,他更偏向于理论,其目的是研究一种为了让计算机不断从大量数据中学习知识,自动实现知识发现和预测,使结果不断接近目标。实际工作中我们比较常见的是数据分析的概念,他是用适当的统计分析方法对收集来的大量数据进行分析,以求最大化地开发利用数据,从而发挥其商业价值。目前,数据分析已经是一种比较成熟的技术,而机器学习还处于快速发展的过程中,主要依靠算法和数据进行驱动。在数据

2021-10-05 06:22:37 399

原创 Python 3.10.0稳定版发布

发布日期:2021 年 10 月 4 日这是 Python 3.10.0 的稳定版本Python 3.10.0 是 Python 编程语言的最新主要版本,它包含许多新功能和优化。与 3.9 相比,3.10 系列的主要新功能 到目前为止,新的主要新功能和变化包括:PEP 623——弃用并准备删除 PyUnicodeObject 中的 wstr 成员。PEP 604 -- 允许将联合类型写为 X |是PEP 612 -- 参数规范变量PEP 626——用于调试和其他工具的精确行号。

2021-10-05 06:15:53 1579

原创 数据分析神器Alteryx

1、随时随地连接到数据拥有70多个本地数据连接并具有抓取Web数据的能力,Alteryx Designer使您能够使用几乎任何可用的数据源–数据仓库,ERP和基于云的应用程序,平面文件,Office应用程序,社交媒体数据和旧版分析平台。不管是在云中,在桌面上,在传统仓库中还是在网络上。2、清洗,准备和混合通过我们直观的界面,您可以将数据更快地整理成100倍的形状,无论大小,不同,肮脏,原始还是来自不同系统的数据,您都可以将多个源混合在一起。清理并准备系统上的数据,或者利用云的灵活性和功能进行大数...

2021-04-22 11:18:24 2165

原创 Tableau最新版本之Tableau 2021.1

截至2021年5月,深受广大分析师欢迎的可视化软件Tableau,最新版本是2021.1,此版本中的所有新功能,包括 Tableau 中的 Einstein Discovery、快捷 LOD 和新的统一的通知体验。Tableau 中的 Einstein Discovery 可将 Einstein Discovery 中可信、直观的预测结果和建议呈现给您组织中的每一位 Tableau 用户。可以更轻松地创建详细级别 (LOD) 表达式。只需使用上下文菜单或者将度量拖放到维度上,即可使用默认的聚合方式..

2021-04-21 09:26:13 3611 1

原创 巧用Microsoft Power BI进行数据建模

Microsoft Power BI数据建模与数据可视化https://www.zhihu.com/zvideo/1292768467272187904

2020-09-25 10:30:18 355

原创 如何精通Microsoft Power BI商业数据分析与可视化

精通Microsoft Power BI商业数据分析与可视化https://www.zhihu.com/zvideo/1292764709607874560

2020-09-25 10:28:24 384

原创 如何学习与提升自己的数据可视化技能

数据可视化是将数据分析结果转化为图表的过程,随着大数据技术的发展,数据可视化是每个白领都需要掌握的技能,熟练的操作职场上可能占据有利的地位,那么如果想要学习数据可视化要从哪里入手。首先,需要培养数据敏感度对于做数据分析的人有一个很重要的特点就是要有数据敏感度,通过查看数据,找到可能有意义的数据,数据敏感度的培养是在观察数据的过程中不断累积的。https://zhuanlan.zhihu.com/p/257832883...

2020-09-22 10:30:03 386

连接Hadoop集群Hive和Spark的驱动

HortonworksHiveODBC32.msi、HortonworksHiveODBC64.msi、MicrosoftSparkODBC32.msi、MicrosoftSparkODBC64.msi

2014-08-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除