自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(192)
  • 收藏
  • 关注

原创 连续、离散、定序、定类、有序、分类等变量区别

Pearson相关系数:用于衡量两个连续变量之间的线性相关性,取值范围为-1到1之间。Spearman等级相关系数:用于衡量两个有序变量之间的相关性,取值范围为-1到1之间。判定系数(R²):用于衡量一个因变量和一个或多个自变量之间的相关性,取值范围为0到1之间。列联表卡方检验:用于衡量两个分类变量之间的相关性,可以通过计算列联表中观察值与期望值之间的差异来判断两个变量之间是否存在相关性。Eta是关联度的一个统计量,取值是在0和1之间,接近于1表示两个变量高度关联,越接近0表示两个变量关联度很低。

2023-05-15 15:54:28 1753 1

原创 jupyter下载辅助插件nbextensions不显示问题

jupyter扩展插件不显示问题

2023-02-22 10:40:23 3183 20

原创 解决seaborn 导入数据失败问题

使用seaborn去导入鸢尾花数据,但是一直显示链接不上。

2022-11-09 12:09:52 744

原创 Vs code常用插件以及快捷键

Vs code 常用插件 及其 快捷键

2022-10-17 15:55:32 335

原创 多表连接【union all ,join】的查询问题

针对于多表连接的的问题,union,unionall以及在连接汇总null值的处理问题【Ps如果有重复项,UNIONALL也将一并合并。如果你希望过滤掉重复项,可以使用UNION】

2022-07-18 15:29:58 1543

原创 MySQL常见的几种排序类问题

总结几个mysql常见的几种对结果集排序问题,点击此处,获取建表语句及其数据

2022-07-13 19:13:57 359

原创 python对多层列索引取值

处理 Dataframe数据,遇到了一个 多层列索引 的数据,再进行切片数据的时候,遇到了一些问题,所以对 多层列索引 的切片做个 整体的总结数据切片的2种方法,loc 以及 iloc ,做个简单的总结下面使用这两种方法对df进行切片取值,取出下图红框中的数据loc的方法,不管是行索引,还是列索引 都必须使用 索引名,所以如果索引中有数字作为索引的时候,要加上引号iloc的方法,是直接使用下标,行列 都是从0开始 按照下标,列数按照最后一层索引的下标开始......

2022-07-13 15:54:57 1462

原创 Mysql常用查询函数练习

常见查询函数总结

2022-07-12 15:24:15 257

原创 excel中sumif统计位数,结果不准确

问题使用 sumif进行筛选统计,但是出来的结果有问题原数据数量:筛选统计后结果出现了偏差,原因是:sumif()/countif函数有一个缺陷,只能判断15位数字,超过15位就直接忽略了后面的数字,这样就会造成统计出错。解决办法总结=SUMIF(B:B,G2,D:D)替换为下面的方法=SUMPRODUCT((B:B=G2)*1,D:D)...

2021-07-26 19:22:43 9261

原创 Hive针对百分比排序问题

最近经常遇到在hive中查询计算百分比,然后按照百分比排序的问题,按照网上的 +0,,*1 要么是报错,或者没有重新排序。在这里总结一下测试成功的方法没有排序的结果如下记得先设置一下hive的非严格模式set hive.mapred.mode=nonstrict;这里按照上图红框中的 user_pre进行排序,代码修改如下【对比上面代码只是添加了红线部分】加完排序之后的代码运行结果。...

2021-06-10 11:47:06 1267

原创 什么是指标体系?

指标体系,就是指衡量企业业务状态的指标集合。在实际的工作中,在解决一个复杂的业务问题时,需要使用多个指标从不同维度来评估业务,也就是使用指标体系。指标体系是从不同维度梳理业务,把指标有系统地组织起来。简而言之,指标体系=指标+体系。指标体系的作用我们知道了指标体系的概念,那搭建指标体系有什么作用那?① 看清业务现状当企业没有统一指标体系的时候,各部门对于同一件事务的反馈很可能出现不同的结论,引发冲突。而指标体系,可以让不同部门、企业管理者看到一个相对客观的数据,能够统一公司不同部门对业务现状的理

2021-06-08 14:42:04 4053 1

原创 数据分析学习方法总结

数分这个岗位最近异常的火热,个人感觉和前两年的Python有过之而不及,目前自己也在转行中,一直在学习中,不由想起来之前,我从电气工程转到Python开发的过往,没有什么是不可能的。所以,对于那些和我一样想要入门或者转行数据分析岗位的伙伴,我还是希望能够提高大家转行和学习的自信心,快速入门也不是没有可能的。① 应该具备的技能:Excel、PPT、MySQL、Python、BI可视化、Hive必须要掌握的 Excel、PPT、MySQLExcel基本的查找?筛选、简单计算要会;重点函数,vlookup

2021-05-27 15:29:09 698 8

原创 ERROR 1045 (28000): Access denied for user ‘ODBC’@‘localhost’ (using password: YES)

MYSQL8.0忘记密码 或者 刚安装完,输入密码就出现了ERROR 1045 (28000): Access denied for user ‘ODBC’@‘localhost’ (using password: YES)忘记密码的话肯定是要直接修改的,这个就不说的但是刚安装完之后,也同样登录不上。这个就是在安装过程中 root的权限问题下面是修改步骤:停止服务【需要使用管理员命令行】net stop mysql切换路径cd C:\Program Files\MyS

2020-10-29 11:26:30 1825

原创 mysql8.0安装之后,无法使用密码正常登陆

修改方法,重置密码,以下为步骤;1,以管理员身份先关闭mysql服务器 net stop mysql删除mysql目录下data文件夹(如果有就删除)2,在mysql目录下输入 mysqld --initialize --user=mysql --console找到 A temporary password is generated for root@localhost 后面就是密码3,打开mysql服务器 net start mysql4,打开之后输入 mysql -uroot -p回

2020-09-09 11:37:42 1154 1

原创 四、MySQL数据完整性

MySQL数据完整性

2020-09-02 17:31:13 596

原创 三、数据操作语言DML与数据查询语言DQL

数据操作语言DML与数据查询语言DQL

2020-08-31 15:52:28 388

原创 创建Tableau Public个人站点

Tableau Public是Tableau的免费版本,所以不能进行本地的保存,只能在Tableau的服务器创建个人的站点,进行可视化图谱的保存,每个用户有 10G的空间,可以进行发布。所以我们需要进行站点注册站点注册注册在Tableau Public的网站进行注册【链接】,点击注册创建配置文件在完善配置文件之后,即可创建个人站点个人中心查看以上,就表示个人站点已经创建成功,在使用Tableau Public创建文件,需要发布可视化图谱之后,即可发布到个人站点。...

2020-08-28 17:05:19 2470 2

原创 Tableau Public基本介绍与安装

1 简单概述作为领先的数据可视化工具,Tableau具有许多理想的和独特的功能。其强大的数据发现和探索应用程序允许您在几秒钟内回答重要的问题。您可以使用Tableau的拖放界面可视化任何数据,探索不同的视图,甚至可以轻松地将多个数据库组合在一起。它不需要任何复杂的脚本。任何理解业务问题的人都可以通过相关数据的可视化来解决。 分析完成后,与其他人共享就像发布到Tableau Server一样简单。Tableau为各种行业,部门和数据环境提供解决方案。以下是使tableau处理各种各样场景的独特功能。分

2020-08-28 14:36:04 8567

原创 二、SQL数据类型与数据定义语句DDL

SQL数据类型与数据定义语句DDL

2020-08-20 16:59:13 496

原创 一、MySQL简介以及Windows和Mac下的安装

1. MySQL简介Mysql是最流行的RDBMS(Relational Database Management System:关系数据库管理系统),特别是在WEB应用方面。数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,每个数据库都有一个或多个不同的API用于创建,访问,管理,搜索和复制所保存的数据。所谓的关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。RDBMS即关系数据库管理系统(Relational Database

2020-08-19 11:53:17 606

原创 Numpy数组的广播机制

Numpy数组的广播机制当两个数组的形状并不相同的时候,我们可以通过扩展数组的方法来实现相加、相减、相乘等操作,这种机制叫做广播(broadcasting)定义数据import numpy as npa = np.array([1,2,3])b = np.array([4,5,6])c =np.array([[4],[5],[6]])d = np.array([[1,2,3], [4,5,6]])e = np.array([[1,2,3], [4,5,6],[7,8,9]])1.1

2020-07-03 14:03:21 777

原创 mysql字符集问题

MySQL数据库的字符集问题1 问题描述​ 在Django存数据的时候,如果有中文,他会出现以下报错。2 问题解析​ 直白的说,字符就像是单个的文字,编码就像是给每个文字的编号,字符集就像是字符与编码的集合,校验规则就是字符集的对应的排序规则,字符集加上对应的校验规则就是语言。(每种字符集可以有多种校对规则,但都有一个默认的校对规则)​ MySQL数据库可以通过设定字符集,来使用对应的字符集和检验规则来组织字符。就像是解读一片文章的时候用那种语言来解析。

2020-05-20 12:51:15 209

原创 模块四 第一周 作业三 日志分析

1 问题描述请将数据导入pandas中,加上列名检测重复值检测异常值分析api和interval这两列的数据是否对分析有用,如果无用,说明为什么后将这两列丢弃使用created_at这一列的数据作为时间索引分析api调用次数情况,例如,在一天中,哪些时间是访问高峰,哪些时间段访问比较,如图所示,从凌晨2点到11点访问少,业务高峰出在现下午两三点,晚上八九点分析一天中api响...

2020-03-26 19:11:43 290

原创 模块四 第一周 作业二 分类

1 问题描述将数据array([6, 9, 6, 1, 1, 2, 8, 7, 3, 5, 6, 3, 5, 3, 5, 8, 8, 2, 8, 1, 7, 8,7, 2, 1, 2 , 9, 9, 4, 9]) 转化为矩阵将第三列中,小于等于3的修改为0、大于3且小于等于6的修改为1、大于6的修改为2假设这是10条样本数据,前两列是样本的两个特征,第3列是样本的分类标记,请...

2020-03-26 19:09:46 278

原创 pymysql替换mysqlclient

在django开发中,连接数据库需要一个MySQLclient,但是会有许多bug,许多电脑无法正常安装,这里就是用pymysql来替换mysqlclient。其中mysqlclient是用c写的,运行速度快。pymysql是Python版本的运行速度稍慢。下载pymysqlpip install pymysql在django的主文件的 初始化init中导入文件有可能会出现mysqlc...

2020-03-24 16:01:26 1207 2

原创 模块四 第一周 作业一 菜价分析

1 问题描述复习矩阵相关操作,分析菜价将表中数据,使用 numpy 进行处理展示使用循环的方式 计算采购总额使用点乘计算采购总额测试性能2 解题提示使用numpy 中的array进行表格与矩阵的转化使用dot 来实现矩阵相乘通过jupyter的魔法命令来测试 性能3 评分标准作业共计四个要求,要求1,3各为5分,要求2,4各为10分。4 要点解析矩阵点...

2020-03-22 19:25:31 305

原创 anconda 使用虚拟环境

创建虚拟环境conda create -n env_name python=3.7激活虚拟环境activate env_name windowssource activate env_name linux退出虚拟环境deactivate env_name windowssource deactivate env_name ...

2020-03-18 11:29:55 246

原创 模块三 第二周 作业三 分布式scrapy-redis

1 问题描述将Scrapy抓取必联网项目升级为Scrapy‐Redis分布式爬虫,并完成代理IP池proxyPool的开发完成Scrapy‐Redis组件的安装完成代理IP池proxyPool的开发将必联网爬虫项目升级为Scapy‐Redis分布式爬虫分布式爬虫在中间件中设置代理要通过代理IP池来获取,而不是每次请求都访问第三方代理IP 接口2 解题提示普通的Scrapy项目升...

2020-03-11 14:09:41 290

转载 scrapy中request与response对象属性介绍

原文Request 对象Request构造器方法的参数列表: Request(url [, callback=None, method='GET', headers=None, body=None,cookies=None, meta=None, encoding='utf-8', priority=0,dont_filter=False, errback=None, flags=No...

2020-03-11 13:56:54 864

原创 模块三 第二周 作业二 招标网站

1 问题描述使用Scrapy框架,完成必联网招标信息采集,采集字段:2 解题提示必联网有些页面需要登录才可以得到响应,需要手动登录,并得到浏览器中的Cookie值,把Cookie加入到请求头中关于数据的提取,有些需要定制正则表达式,比如项目编号可能在详细页的文本中,用普通的XPath无法提取出来,这个需要多看几个页面,多做测试,分析数据格式数据的持久化可以在管道文件中进行,以课程中讲...

2020-03-10 17:38:59 145

原创 模块三 第二周 作业一 scrapy-csdn热门文章

1 问题描述通过Scrapy,实现CSDN热门博客抓取,并以博客大标题对本地HTML的命名2 解题提示创建Scrapy项目: Scrapy startproject 【项目名称】创建Spider文件: Scrapy genspider 【爬虫文件名】 “【allowed_domain】”开启项目文件: Scrapy crawl 【爬虫文件名】yield Request 向调度器发送一...

2020-03-09 09:24:54 169

原创 模块三 第一周 作业三 热门文章

1 问题描述在CSDN站内搜索技术关键词,例如java,下载前几页热门文章HTML源码到本地,文件命名方式与博客大标题保持一致2 解题提示本周录播课最后两节3 评分标准本题共计40分破解URL规则,通过Xpath得到链接地址与博客标题20分完成博客下载 10分代码注释,规范10分4 要点解析4.1 防爬机制请求头模仿浏览器进行访问代理ip加代理,通过换...

2020-03-05 21:12:04 205

原创 模块三 第一周 作业二 百度翻译

1 问题描述利用百度翻译的接口,制作一个中译英翻译小工具。2 解题提示在百度翻译之中,输入单词,此时接口,找到你需要的接口信息3 评分标准找到翻译的HTTP接口规则 10分得到服务器响应回来的结果数据,并做好处理,得到翻译的结果 10分代码注释,规范10分4 要点解析4.1 接口信息的查找4.2 json数据类型json模块提供了四个功能:dumps、dump、loa...

2020-03-03 19:31:40 220

原创 模块三 第一周 作业一 xpath应用

1 问题解析2 解题提示谷歌xpath的添加xml的理解xpath的使用3 评分标准写出正确的XPath语句10分成功输出课程分类 10分代码注释,规范10分4 要点解析谷歌添加xpath方法加载本地xpath插件步骤说明xpath5 代码实现import lxml.etree as leimport urllib.request as ur# 请求u...

2020-03-01 20:45:41 218

原创 模块二 第二周 作业三 微课商城

1 问题描述完善CSDN微课商城系统在上次作业当中我们完成了后台管理的开发,这次我们完成前台的功能2 解题提示按照录播课,本次作业是录播课的微课商城的一次复现。3 评分标准完成首页、课程详细页展示功能 10分完成用户个人中心的开发 10分完成视频播放页、视频流优化 10分代码注释,规范10分4 要点解析4.1 sql与 nosqlSQL数据库,指关系型...

2020-02-27 13:48:41 236

原创 模块二 第二周 作业二 django后台

1 问题描述CSDN微课商城后台管理开发2 解题提示理解django自带的admin后台,并来完成对用户、课程的管理。3 评分标准完成CSDN微课商城的模型层开发 10分完成Admin后台管理配置 10分代码注释,规范10分14 实现步骤创建项目,数据库模型类分析,创建管理appsettings数据库连接配置迁移数据库创建超级用户...

2020-02-25 19:24:39 196

原创 django中 settings中的sqlite配置

django中 settings中的sqlite配置DATABASES = { 'default': { 'ENGINE': 'django.db.backends.sqlite3', 'NAME': os.path.join(BASE_DIR, 'db.sqlite3'), }}

2020-02-24 11:02:15 910

原创 模块二 第二周 作业一 登录功能

1 问题描述完成用户登录与登录状态显示需求:首页未登录状态,显示登录按钮已登录的用户,显示"你好用户名"登录页账号与密码正确,跳转到首页账号与密码不正确,在登录页面上提示“账号和密码错误”2 解题提示注意模板继承反向解析session的获取3 评分标准用户登录后,可以保持登录状态 10分登录过程中,账号或密码错误,可...

2020-02-23 20:57:20 450

原创 模块二 第一周 作业三 用户管理系统

1 问题描述制作一个用户信息管理模型 用户信息包括: ‐ 姓名 ‐ 密码 ‐ 年龄 ‐ 邮箱 ‐ 创建时间产品功能: 1. 全部用户信息的展示(查) 2. 添加新用户(增) 3. 修改用户信息(改) 4. 删除用户(删)2 解题提示settings 中 数据库配置模型类的创建数据库迁移3 评分标准构造模型层并生成对应的表结构 10分完成增删改查功能的开发 20分代码...

2020-02-20 13:32:31 862

原创 模块二 第一周 作业二 局域网文件共享

1 问题描述制作一个在局域网中,可以共享文件,为其他访客提供下载服务的Web项目构建一个下载清单页,展示所有可供下载的文件以及链接2 解题提示注意静态文件的settings配置前端样式视图向前端传递数据前端标签的格式3 评分标准完成路由与视图的配置 10分完成模板层开发 10分代码注释,规范10分4 要点解析4.1 局域网的简单使用局域网是指在某一区域内由...

2020-02-18 19:29:40 245

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除