ZLuby-CSDN博客

原创 python数据清洗（五）

案例分析应用学到的所有数据清理技术，以整理从Gapminder Foundation获得的真实世界，混乱的数据集。完成后，可以拥有干净整洁的数据集，还可以使用Python的强大功能开始处理自己的数据科学项目！1.1 探索性分析每当获得新数据集时，第一个任务应该是进行一些探索性分析，以便更好地理解数据并对任何潜在问题进行诊断。19世纪的Gapminder数据已加载到名为g1800s的D...

2018-12-17 13:08:56 872

原创 python数据清洗（四）

第四部分清洗数据进行分析深入了解数据清理的一些重要方面。学习字符串操作和模式匹配以处理非结构化数据，然后探索处理丢失或重复数据的技术。学习以编程方式检查数据的一致性的技能，用以确信代码正确运行并且分析结果可靠！一、数据类型·1、转换数据类型了解如何确保DataFrame中的所有分类变量属于category，category可以减少内存使用量。tips数据集已加载到名为tips...

2018-12-10 17:54:35 2229

原创 python数据清洗（三）

连接数据1、组合数据行（Combining rows of data）此处使用的数据集与NYC Uber数据相关。原始数据集包含所有原始Uber拾取位置的时间和经度。使用实际数据的一小部分。已预先加载了三个DataFrame：uber1，其中包含2014年4月的数据，uber2（包含2014年5月的数据）和uber3（包含2014年6月的数据）。将这些DataFrame连接在一起，以便 ...

2018-12-10 12:24:28 551 1

原创 python数据清洗（二）

第二部分整理数据进行分析1、识别整洁的数据要使数据整洁，它必须具有：（1）每个变量作为单独的列。（2）每行作为单独的观察。作为数据科学家，将遇到以各种不同方式表示的数据，因此在看到数据时能够识别整洁（或不整洁）数据非常重要。请注意，df2的变量列包含值Solar.R，Ozone，Temp和Wind。为了使它整洁，这些应该都在单独的列中，如df1中所示。2、使用melt重塑...

2018-12-07 17:39:58 9938

原创 python数据清洗（一）

第一部分探索数据提供在Python中清理数据所需的所有技能，从学习如何诊断问题数据到处理缺失值和异常值。所以你刚刚得到了一个全新的数据集，并且渴望开始探索它。但是你从哪里开始，你怎么能确定你的数据集是干净的？本章将向您介绍Python中的数据清理世界！您将学习如何探索数据，以便诊断异常值，缺失值和重复行等问题。 1、加载和查看数据在本章中，将查看来自NYC Open ...

2018-12-06 22:36:29 4823

原创 python删除csv文件的偶数行/奇数行

原始csv如下：需要的数据如下，也就是删除偶数行，每个偶数行都错位了：代码实现：#导入pandasimport pandas as pd#导入数据lizi=pd.read_csv('注册商标商品服务信息录入失败.csv')for i in range(lizi.shape[0]):#.shape()用于获取数据形状 if i%2 == 0: ...

2020-01-09 16:38:07 4285

原创 python pandas的read_html方法爬取网页表格

要爬取的网页：网址·http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm长这样的表格爬取以上表格，保存为CSV格式。代码实现：import pandas as pdurl ='http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm'# 找到所需爬取的表格 [1]代表取第二个表格tb...

2020-01-02 15:47:24 3496 1

原创 PowerDesigner安装和入门教程

安装教程：https://blog.csdn.net/sinat_34104446/article/details/79885141入门教程：https://www.cnblogs.com/biehongli/p/6025954.html课程推荐：课程地址：https://edu.csdn.net/course/play/24751...

2019-07-15 15:44:21 297

原创 A/B 测试

既然学习了置信区间和假设检验，在本次案例研究中，你将应用所学知识，帮一家公司决定公司网站要不要推出两个新元素。为此，你需要分析 A/B 测试结果——业内一种相当宝贵且得到广泛应用的方法。A/B 测试A/B 测试用于测试网页的修改效果，测试需进行一场实验，实验中对照组为网页旧版本，实验组为网页新版本，实验还需选出一个指标来衡量每组用户的参与度，然后根据实验结果来判断哪个版本效果更好。从以下...

2019-04-18 23:44:03 1136 2

原创预约挂号后患者实际就诊情况的数据分析

项目：预约挂号后患者实际就诊情况的数据分析目录简介数据整理探索性数据分析结论简介预约挂号是近年来开展的一项便民就医服务，是为了缩短看病流程，节约患者时间而产生的挂号方式。预约挂号也是一种方便患者提前安排就医计划，减小候诊时间，便于医院提升管理水平，提高工作效率和医疗质量，降低医疗安全风险的门诊挂号方式。但是预约患者不可能做到100%应诊，目前国内报道的爽约率10%以...

2019-02-20 22:06:40 5023 1

原创统计学（三）

目录描述统计与推论统计描述统计推论统计抽样分布与中心极限定理抽样分布抽样分布符号法参数与统计的符号法两个有用的定理大数法则中心极限定理自助法置信区间抽样分布与置信区间构建置信区间总体平均数的置信区间均数差的置信区间置信区间的应用统计显著性与实际显著性传统的置信区间置信区间的其他相关语言置信区间的正确解读总结...

2019-01-31 18:53:13 3336

原创统计学（二）

目录为什么要学习概率？举个

2019-01-28 16:41:10 764

原创统计学（一）

此部分主要介绍描述统计学。目录初探数据分类定序与分类定类连续与离散数据换个角度看数值与分类连续和离散定序与定类分析数值数据集中趋势测量均值中位数众数离散程度测量极差四分位差标准差和方差分布形状异常值处理异常值常用技术异常值处理建议概括描述统计与推论统计描述统计推论统计展望初探数据1、...

2019-01-24 19:32:47 1806

原创 SQL（五）

目录字符串函数LEFT 和 RIGHTLEFT & RIGHT 练习POSITION、STRPOS 和 SUBSTRPOSITION 和 STRPOS 练习CONCAT CONCAT & || 练习CAST字符串函数你将学习多个技能，从而能够清理和重新整理混乱的数据。将列转换为不同的数据类型。处理 NULL 的技巧。...

2019-01-22 23:46:27 205

原创 SQL（四）

目录SQL子查询和临时表格子查询子查询（第一部分）子查询（第二部分）练习题目with练习题目子查询子查询（第一部分）我们想要计算每个渠道每天的平均事件次数。第一个表格将提供每个渠道每天的事件次数，然后我们将使用第二个查询对这些值求平均。/*select DATE_TRUNC('day',occurred_at) as day,channe...

2019-01-22 23:46:01 344

原创 SQL（三）

目录什么是联结编写JOIN表格与列键主键 (PK)外键 (FK)主键 - 外键关联性连接多个表格别名JOIN 简介INNER JOINOUTER JOIN总结主键和外键JOIN别名什么是联结简单的说，就是将其他表中的列添加过来，进行“添加列”的运算。该操作通常用于无法从一张表中获取期望数据（列）的操作。使用联结可以从多张表（3...

2019-01-22 23:45:52 265

原创 SQL（二）

目录NULL简介聚合函数COUNT()SUM（）MIN（）和 MAX（）AVG（）对表进行分组GROUP BYDISTINCTHAVINGDATE 函数DATE_TRUNCDATE_PARTCASE语句NULL简介NULL 是一种数据类型，表示 SQL 中没有数据。它们经常在聚合函数中被忽略了。注意，NULL 与零不同，它们表示不存在...

2019-01-22 23:45:34 289

原创 SQL（一）

目录SQL介绍为什么使用数据库LIMITORDER BY WHERE 语句逻辑运算符简介LIKEINNOTAND 运算符BETWEEN 运算符OR 运算符为什么使用数据库只有输入了需要输入的数据，以及只有某些用户能够将数据输入数据库，才能保证数据的完整性。可以快速访问数据 - SQL 可使我们从数据库中快速获取结果。可以优化代码，快速获...

2019-01-22 23:45:23 270

原创 pandas入门

目录Pandas 简介下载 PandasPandas 版本Pandas 文档为何要使用 Pandas？创建 Pandas Series访问和删除 Pandas Series 中的元素对 Pandas Series 执行算术运算创建 Pandas DataFrame使用Pandas Series 字典创建 DataFrame使用列表（数组）字典创建 Dat...

2019-01-08 18:02:27 726

原创 python入门（四）

目录方法 1：安装 Anaconda方法 2：安装 Python运行 Python 脚本！!错误和异常导入本地脚本标准库推荐模块导入模块技巧模块、软件包和名称第三方库实用的第三方软件包获取所需的信息如何搜索在线资源的优先级方法 1：安装 Anaconda对于数据分析学员，强烈建议采用这种 Python 安装方式。如果你对数据科学方...

2019-01-03 16:53:58 414

原创 python入门（三）

目录变量作用域Lambda 表达式Lambda 与 MapLambda 与 Filter迭代器和生成器变量作用域变量作用域是指可以在程序的哪个部分引用或使用某个变量。在函数中使用变量时，务必要考虑作用域。如果变量是在函数内创建的，则只能在该函数内使用该变量。你无法从该函数外面访问该变量。# This will result in an errordef so...

2019-01-02 18:52:24 206

原创 python入门（二）

For 循环Python 有两种类型的循环：for 循环和 while 循环。for 循环用来遍历可迭代对象。可迭代对象是每次可以返回其中一个元素的对象，包括字符串、列表和元组等序列类型，以及字典和文件等非序列类型。你还可以使用迭代器和生成器定义可迭代对象。我们来了解下 for 循环的各个组成部分。请看下面的示例：# iterable of citiescities = ['n...

2019-01-02 18:52:14 452

原创 python入门（一）

目录算术运算符列表元组集合字典和恒等运算符复合数据结构算术运算符算术运算+ 加 - 减 * 乘 / 除 % 取模（相除后的余数） ** 取幂（注意 ^ 并不执行该运算，你可能在其他语言中见过这种情形） // 相除后向下取整到最接近的整数print(3**2)print(4//3)print(-4//3)print(4/3)prin...

2019-01-02 18:52:04 256

原创使用pandas操作DataFrames（四）

第四部分：数据聚合与分组在本章中，学习如何按组或类别识别和拆分DataFrame，以进行进一步的聚合或分析。学习如何转换和过滤数据，包括如何检测异常值和估算缺失值。了解如何有效地将数据分组到pandas中可以成为数据科学工具箱中非常强大的补充。分类和分组按多列分组在本练习中，使用第1章中的泰坦尼克号数据集并使用.groupby（）来分析登上泰坦尼克号的乘客的分布情况。'pcla...

2018-12-25 17:59:02 553

原创使用pandas操作DataFrames（三）

目录第三部分重新排列和重塑数据一、轴向旋转（Pivoting DataFrames）1.1 透视单个变量1.2 透视所有变量二、堆叠和取消堆叠（Stacking & unstacking DataFrames）2.1 堆叠和拆堆I（Stacking & unstacking）2.2 堆叠和拆堆II（Stacking & unstackin...

2018-12-25 17:58:52 446

原创使用pandas操作DataFrames（二）

目录第二部分：高级索引一、索引对象和标记数据1.1 索引值和名称1.2 更改DataFrame的索引1.3 更改索引名称标签1.4 构建索引，然后构建DataFrame二、层次化索引2.1 使用MultiIndex提取数据2.2 设置和排序MultiIndex2.3 使用.loc []和非唯一索引2.4 索引MultiIndex的多个级别第二部分：高...

2018-12-25 17:58:43 319

原创使用pandas操作DataFrames（一）

在本课程中，学习如何利用pandas极其强大的数据处理引擎来充分利用数据。能够从DataFrame中提取，过滤和转换数据以深入挖掘真正重要的数据非常重要。 pandas库有许多技术可以使这个过程高效直观。将学习如何通过旋转或融合以及堆叠或取消堆叠DataFrame来整理，重新排列和重构数据。这些都是成为全面的数据科学家的基础下一步，将学到的所有概念应用于实际数据集。目录第一部分：提取...

2018-12-25 17:58:29 1023

原创 pandas基础（三）

第三部分 pandas的时间序列在本章中，学习如何使用Pandas操作和可视化时间序列数据。将熟悉诸如上采样，下采样和插值等概念。练习使用Pandas的方法链来有效地过滤数据并执行时间序列分析。从股票价格到航班时间，时间序列数据可以在各种各样的领域中找到，并且能够有效地使用这些数据可以是非常宝贵的技能。...

2018-12-25 17:58:05 143

原创 pandas基础（二）

第二部分探索性数据分析在学习了如何提取和检查数据之后，接下来将在视觉上和数量上进行探索。这个过程称为探索性数据分析（EDA），是任何数据科学项目的重要组成部分。 pandas有强大的方法，有助于统计和视觉EDA。在本部分，学习如何以及何时应用这些技术。一、视觉探索性数据分析1.1 pandas 线图.plot（）方法默认情况下会将Index值放在x轴上。在本练习中，您将练习在...

2018-12-25 17:55:04 353

原创 pandas基础（一）

目录第一部分：数据摄取和检查一、NumPy和pandas一起工作二、重头构造DataFrame1、Zip列表以构建DataFrame2、标记数据3、使用广播构建DataFrame三、导入和导出数据1、读一个平面文件2、分隔符，标题和扩展名（Delimiters, headers, and extensions）第一部分：数据摄取和检查了解Panda...

2018-12-25 17:52:47 325

原创从网页爬取数据

网络是丰富的数据来源，您可以从中提取各种类型的见解和发现。在本部分，学习如何从Web获取数据，无论是存储在文件中还是HTML中。您还将学习抓取和解析Web数据的基础知识从网上导入平面文件1、从网上导入平面文件从Web导入了一个文件，将其保存在本地并将其加载到DataFrame中。导入文件是来自加州大学欧文分校机器学习库的“winequality-red.csv”。该平面...

2018-12-19 11:01:36 29108 1

原创 Win8安装Anaconda3及各种包遇到的问题

目录问题1：Error: Path C:\Anaconda3 is not writable .Please check peimissions or try respawning the installer with elevated privileges.问题2：安装完Anaconda后在开始的菜单中没有Anaconda文件夹怎么办？可以参考以下链接。安装 Anaconda安装Be...

2018-12-17 23:56:55 6731

转载关于group by的用法原理

写在前面的话：用了好久group by，今天早上一觉醒来，突然感觉group by好陌生，总有个筋别不过来，为什么不能够select * from Table group by id，为什么一定不能是*，而是某一个列或者某个列的聚合函数，group by 多个字段可以怎么去很好的理解呢？不过最后还是转过来了，简单写写吧，大牛们直接略过吧。=========正文开始===========　　...

2018-12-15 21:12:43 173

转载 SQL常见面试题

SQL常见面试题1.用一条SQL 语句查询出每门课都大于80 分的学生姓名name kecheng fenshu张三语文 81张三数学 75李四语文 76李四数学 90王五语文 81王五数学 100王五英语 90A...

2018-12-13 10:40:33 136

转载 python常用函数

本文翻译自文章： Pandas Cheat Sheet - Python for Data Science，同时添加了部分注解。对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas，建议先看两个网...

2018-12-06 21:16:39 187

原创用python导入数据（三）

关系型数据库1、启动SQL引擎。将创建一个引擎以连接到工作目录中的SQLite数据库'Chinook.sqlite'。# Import necessary modulefrom sqlalchemy import create_engine# Create engine: engineengine = create_engine('sqlite:///Chinook.sqlit...

2018-12-06 11:55:10 559

原创用Python导入数据（二）

有许多数据类型无法轻松保存到平面文件，例如列表和词典。如果希望文件是人类可读的，可能希望以巧妙的方式将它们保存为文本文件。JSON适用于Python词典。但是，如果只想将它们导入Python，则可以序列化它们。所有这些意味着将对象转换为字节序列或字节流。1、导入pickle包，从文件中打开以前的pickle数据结构并加载它。# Import pickle packageimpo...

2018-12-06 11:19:12 3154

原创用Python导入数据（一）

在本部分中，学习将数据导入Python的多种方法：（i）来自平面文件，如.txts和.csvs;（ii）从原生到其他软件的文件，如Excel电子表格，Stata，SAS和MATLAB文件;（iii）来自关系数据库，例如SQLite和PostgreSQL。平面文件(flat file)是去除了所有特定应用(程序)格式的电子记录，从而使数据元素可以迁移到其他的应用上进行处理。这种去除电子数...

2018-12-05 22:36:07 58351

转载 Bagging和Boosting 概念及区别

转载自：http://www.cnblogs.com/liuwu265/p/4690486.htmlBagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。1、Baggi...

2018-09-19 15:19:02 116

原创 jupyter-notebook释放显存

在用jupyter notebook运行程序时出现如下bug：ResourceExhaustedError: OOM when allocating tensor with shape[4096,4096] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [[Node...

2018-09-17 22:38:17 11653

空空如也

空空如也