自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 jupyter加目录contrib nbextension 使用

打开anaconda的PowerShell(带有Prompt的),直接输入pip install jupyter_contrib_nbextensions,回车开始安装。接下来打开jupyter,此时会发现菜单栏里多了一项,点击进入后,取消锁定勾选,并勾选Tabel of Contents;页面下滑会发现相应的属性配置,默认即可。jupyter在工作中使用很方便,可是一旦单个文件的内容多了,即使有markdown文本提醒,上下翻找依旧很费精力。此时进入一个.ipynb文件,点击图片中的标志,就能打开目录。

2024-04-02 17:01:37 195 1

原创 数据分析网站

target=http://sycm.taobao.com/京东商智​sz.jd.com/sz/view/index/login.html?麦肯锡:https://www.mckinsey.com.cn/insights/​www.mckinsey.com.cn/insights/BCG:https://www.bcg.com/zh-cn/​www.bcg.com/zh-cn/常用网站:尼尔森:https://www.nielsen.com/zh/​www.nielsen.com/zh/

2024-04-02 16:34:05 278

原创 mysql安装发现 错误号码2058 plugin caching_sha2_password could mot be loaded:

出现这个问题是因为mysql8之前的加密规则是mysql_native_password,而在mysql8之后,加密规则是caching_sha2_password。把mysql用户登录密码加密规则还原mysql_native_password。发现重新安装还是会出现这些问题,在命令行登录mysq会显示密码错误。前面的终端那不要关再打开一个新的管理员终端输入。安装好8.0.33后远程链接出现这个问题。在此之前需要无密码登录。123456是新密码。

2023-04-30 16:06:51 542 1

原创 metabase教程大全!!不踩坑

搭建metabase从安装到内网穿透教程

2023-02-06 17:11:03 658

转载 用户标签体系搭建

标签体系主要是符合目标的多维度、多类型用户标签的集合,搭建标签体系需从合理定义每一个用户标签开始用户数据是定义用户标签的基础,基于用户数据信息定义用户标签流程如下:结合业务目标明确标签需求—明确标签分类,选取数据维度----确定数据属性,准确定义标签(1)第一步:结合业务目标,明确标签需求客户标签服务于业务目标和策略,每个标签都应该匹配具体或者是潜在的应用场景(2)第二步:明确标签分类,选取数据维度明确需求后,需要判断标签分类,进一步分析能够准确定义标签的数据维度主要由基础数据定义。

2022-12-20 20:16:49 909

原创 图片素材网站

behance学汇网站酷网花瓣网。

2022-08-26 23:47:59 160

原创 如何下载.NET Framework

选择适合的版本,如果你的版本太低可能要多尝试一个版本是否能够安装成功。

2022-08-15 11:38:15 1701

原创 人人都会数据分析

最常见的例子就是数据分析指标体系,比如零售行业当中的“人货场”体系,其中的人、货、场三个要素都能组成一种数据场景,指标体系的建立方法在后面的课程会有介绍。那么,这个目的很显然是为了验证这个筛选功能是否有价值,那么就要考虑用什么指标,因此活跃率、留存率、新用户的需求、用户的类型,等等都是要考虑的东西。比如描述分析,其实就是数据分析思维,业务很喜欢让你做描述性的分析,因为不会用到算法之类的东西,业务能看得懂,就能跟你扯皮。什么是数据分析:是针对某个问题,将获取后的数据用分析手段加以处理,并发现业务价值的过程。.

2022-08-15 09:59:20 221 2

转载 三个数据分析的技巧:找趋势、看分布、做细化!

对很多公司来说,数据整理不是难事,难就难在业务数据如何解读?如何呈现才能说明问题?从中能发现什么业务问题?有没有改善的机会?数据分析说白点就是知道要什么数据,了解数据走势,懂得如何分析。在数据分析呈现后,要根据分析得出结论,结论中需要用简单明了的语言表明出现的问题,导致问题的原因,最后就是针对问题的解决方法。趋势、分布、细化这三点包含了数据分析的大部分内容。无论是数据的收集、数据的整理,还是数据的分析,都需要不断地找趋势、看分布、做细化,这样才能找出最有价值的结论。...

2022-08-12 11:40:01 875

原创 用Python对Excel文件进行批量操作

批量操作批量读取文件下的多个文件批量创建文件夹批量重命名文件批量其他操作批量合并多个文件将一份文件按照指定列拆分成多个文件

2022-07-01 14:14:43 1643

原创 对比Excel学openpyxl系列之绘制图表

指定图表类型其他设置案例:如果存在三维比如气泡图

2022-07-01 14:06:12 679

原创 对比Excel学openpyxl系列之批注、文档保护、冻结窗格

哈哈哈

2022-07-01 13:39:20 466

原创 对比Excel学openpyxl系列之插入、删除、格式

m是行插入的位置,n是插入几行,n可以不写,默认为1行案例:删除行列案例:

2022-07-01 13:26:27 1759

原创 对比Excel学openpyxl系列之设置excel数字和条件格式

要 对 数 字 的 显 示 格 式 进 行 调 整 , 需 要 用 到number_format属性,具体形式如下:Excel中的条件格式设置主要包括突出显示单元格规则、数据条、色阶、图标集4种类型:在Excel中要对单元格进行突出显示设置,先选中需要设置的单元格,然后依次点击“开始”选项卡中的“条件格式>突出显示单元格”命令,选择要设置的条件,满足条件的单元格会被突出显示。在 Python 中 要 对 单 元 格 进 行 突 出 显 示 设 置 , 需 要 用 到conditional_form

2022-07-01 13:14:46 2933

原创 对比Excel学openpyxl系列之设置excel对齐方式

基本的对齐方式设置是指除单元格合并以外的其他对齐相关设置。在excel中:在 Python 中 , 要 对 单 元 格 进 行 对 齐 设 置 时 , 需 要 用 到Alignment()函数,该函数的具体参数如下。其他参数‘right’,:右对齐‘general’,:一般对齐‘distributed’:分散对齐‘left’, :左对齐‘center’,:居中对齐‘fill’, 填满对齐‘justify’, :两段对齐‘centerContinuous’:‘distribute

2022-07-01 09:23:43 3207 3

原创 对比Excel学openpyxl系列之单元格选择与字体设置

字体设置基本字体的相关设置设置excel字体,基本字体相关设置主要有字体类型、字号大小、是否加粗、是否斜体、对齐方式、下画线、删除线、字体颜色等。 需要用到Font()函数。excel实现方式:python实现方式:name用来说明要设置的字体类型,可选的参数值为在Excel“字体”组中下拉列表的所有值。size表示字体的大小,可选的值为具体数值。bold表示是否加粗,当参数值为False时表示不加粗,为True时表示加粗。italic表示是否斜体,当参数值为False时表示不对字体进行倾斜,为Tr

2022-06-30 17:54:32 1987 1

原创 对比Excel学openpyxl系列之基础设置

在Python中要打开一个工作簿,可以使用openpyxl库中的load_workbook()函数,load_workbook()会把整个工作簿中的所有内容都导入进来,还可以用pandas进行导入。既然load_workbook()和read_excel()都可以对文件进行读取,那两者有什么区别呢?...

2022-06-30 16:48:06 255

原创 Excel将任意数字替换为空白

问题:替换前单元格内存在很多数字序号,不便于复制使用解决方法:1、打开excel,选择宏——》随便起个名字——》录制宏——》直接停止录制2、选择宏——》查看宏——》选中刚刚命名的宏,点击编辑按钮3、将代码复制到宏默认方法框架内:代码:4、修改代码中查找范围:'此处指定查找范围Set SearchRange = ActiveSheet.Range(“H1:H299”)5、修改代码中正则表达式:RegExp.Pattern = “[0-9]\d*.”此处表示"."前任意位数的数字...

2022-06-30 14:39:58 3510

原创 python教程(持续更新)

• 变量名必须以字母或下画线开始,名字中间只能由字母、数 字和下画线“_”组成。 • 变量名的长度不得超过255个字符。• 变量名在有效的范围内必须是唯一的。• 变量名不能是Python中的关键字。变量名是区分大小写的python的关键字为查看数据类型:用type()int(x [,base ]) 将 x 转换为一个整数float(x) 将 x 转换到一个浮点数complex(real [,imag ]) 创建一个复数chr(x ) 将一个整数转换为一个字符ord(x ) 将一个字符转换为它的整数值

2022-06-30 11:51:19 88

原创 李沐学AI之数据探索性分析

numpy:python中做数据分析常用的包;pandas:也是用于数据分析,擅长处理表,数据没那么大要放入内存中,这将是首选;matplotlib.pyplot:源自matlab的画图工具;seaborn:基于matplotlib,提供更多的画法剩下两行用于将图片设成svg文件(画起来分辨率相对高一点)csv文件存下来相对比较大,可以先压缩成一个zip或一个tar,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,在传输存储都会比较好,甚至还会比直接读取还要好(这个方法可用于文本) 作者:

2022-06-27 14:22:52 354

原创 Excel合并表格之vba

注意:此代码是把每个sheet里面的内容(包括标题行)直接复制到汇总sheet里了,所以汇总后需要手动删除多余的表头。注意此代码合并的是扩展名为xlsx的工作簿中的表,如果扩展名为xls,请修改代码中红色字体部分,请根据自己的版本更改。...

2022-06-22 09:10:29 1706 1

原创 mysql笔记(需补充)

完整的数据库存储分为4步:创建数据库,确认字段,创建数据表,插入数据。整数据类型:怎么选?考虑存储空间和可靠性的平衡问题,首先确保数据不会超出取值范围,再去考虑节省空间。浮点型类型:浮点类型有个缺点就是不精准,问题出现在存储方式上,造成浮点类型不精准的情况,如何解决,可以选择定点数类型(decimal),浮点类型把十进制转化成二进制,decimal把十进制数的整数部分和小数部分拆开,分别转化成16进制进行存储,所有的数值都可以精准表达了,不存在损失精度的问题了。文本类型:char:固定长度字符串,varc

2022-06-18 09:22:02 283 2

原创 python3爬虫笔记之Ajax

利用javascrip保证页面不被刷新,链接不改变的情况下与服务器交换数据并更新部分网页内容的技术。比如下滑查看更多就是ajax加载过程。新建的一个XMLHttpRequests对象xmlhttp,然后调用onreadystatechange属性设置监听,最后调用open和send方法向某个链接发送请求。这个这是请求的原理,还有解析内容和渲染,感兴趣可以自己去了解ajax请求类型type是xhr,这就意味是ajax请求。requests headers里面有个X-Requested-With就标记

2022-06-10 13:44:05 184

原创 python3爬虫笔记之BeautifulSoup

是http或者xml的解析库,可以很方便的从网页上提取数据,在解析时时依赖解析器的,还支持第三方解析器比如lxml。相关用法:准备工作需要安装两个库基本使用节点选择器提取信息获取名称#获取节点名称获取属性一个节点可能有多个属性,例如id和class等,选择这个节点之后用attrs获取其所有属性获取内容嵌套选择关联选择用的比较少,不做解释子节点和子孙节点兄弟节点提取信息方法选择器find_all查询符合条件的元素,api如下find_all(name,at

2022-06-09 17:31:38 458

原创 python3爬虫笔记之requests

1.1安装2实例引入其他请求3 get请求最简单的get请求如果附加额外的信息一般怎么添加呢把url参数以字典的形式传给get方法的params参数网页返回是str类型,json格式的,得到返回数据直接调用json方法,如果不是json格式的化会报异常现在就尝试抓取网页看一下吧用最基础的正则,关于正则使用稍后介绍抓取二进制数据自行查看打印结果,r.content前面带一个b,代表bytes类型的数据。添加请求头4post请求5响应有个内置状态码查询对象如果是200则表示响

2022-06-08 22:26:05 349

原创 python3爬虫笔记之爬虫基础

url格式规范:sheme:协议。通常有http、https、ftp等username、password:用户名和密码hostname:主机地址port:端口path:路径。网络资源在服务器中的指定位置paramenters:参数,访问资源的附加信息query:查询,如果多个查询用&隔开fragment:片段。资源内部的书签http中文名为超文本传输协议,https是http的安全版,在http下加了层sslssl的作用是建立安全通道,确保数据的安全性,确保数据的真实性http请求的过程:

2022-06-08 16:46:46 177

原创 python打包成exe格式

为了防止出现ERROR: Could not find a version that satisfies the requirement xxx 的问题用上述代码可以安装成功如果想给软件添加自己喜欢的图标,这里推荐以下方式https://www.iconfont.cn/ ####免费的在线icon图标网站http://www.favicon-icon-generator.com/ ###免费在线生成1http://www.ico51.cn/ ####免费在线生成2常用参

2022-06-06 09:46:27 72

原创 pandas笔记之数据格式

单元格格式这里写目录标题单元格格式单元格格式(数据类型)数字格式格式相互转化数据格式单元格格式(数据类型)基础df.dtypes # 各字段的数据类型df.team.dtype # 某个字段的类型s.dtype # Series 的类型df.dtypes.value_counts() # 各类型有多少个字段判断数据格式from pandas.api.types import is_numeric_dtype #导入is_numeric_dtype工具is_numeric_dtype(

2022-05-31 22:41:38 1506

原创 pandas笔记之基础篇

目录准备numpy转化基础索引Series数据格式rename()准备xlsxwriter模块更适合自动化忽略警告import warningswarnings.filterwarnings('ignore')csdn基础阶段有写#读取文件直接转换df0 = pd.read_csv("数据类型操作.csv", converters={ "顾客编码":str, # 指定改变的函数

2022-05-31 22:41:06 84

原创 pandas笔记之对列操作

这里写目录标题对列操作hide_index()zip(列合并)groupby进行列合并列属性map/apply/applymap对列操作hide_index()`df.style.hide_index()#隐藏索引行``df.style.hide_index().hide_columns(['A','B'])#隐藏多个列`zip(列合并)df['员工']=list(zip(df['销售员'],df['跟单员'],df['接单员']))dfout:(张三, 李四, 张三)groupby进

2022-05-31 22:40:46 429

原创 pandas笔记之表格格式高亮以及转置

表格格式高亮以及转置文章目录表格格式高亮以及转置单元格高亮转置单元格高亮缺失值高亮df = pd.DataFrame({'A':[1,2,3,4.], 'B':[1,3,np.nan,7] } )df.style.highlight_null()#默认为红色#指定高亮的背景色为橙色df.style.highlight_null(null_color='orange')df.style.

2022-05-31 22:40:11 1122

原创 pandas笔记之函数与自定义函数

自定义函数与其他函数文章目录自定义函数与其他函数自定义函数函数日期函数transform?文本函数shift移动函数随机函数range数字函数自定义函数apply()是对DataFrame里的每行或列进行函数应用applymap() 是对DataFrame里的每个元素进行函数的应用。map() 是对Series里(就是单独的一列)的每个元素进行函数应用。#改成两位小数浮点数df[['a','b']].applymap(lambda x :'%.2f' %x)#需要注意的是使用lambda保留

2022-05-31 22:39:35 538

原创 pandas笔记之数据透视表

数据透视表文章目录数据透视表数据透视表分组cut()分组groupby()逆透视explode逆透视melt数据透视表pivot_tableagg数据透视表分组cut()需要对连续性的数据变量进行分段汇总df['分组']=pd.cut(df['金额'],[0,100,200,300,400],labels=['100内', '200内' ,'300内' ,'400内', '400以上'])#不指定labels标签类型会返回每一段的原始名称#系统就会自己判断每个分段的区间df['分组']

2022-05-22 21:20:32 372

原创 pandas笔记之统计函数

统计函数大全文章目录统计函数大全统计函数value_counts 计数describe统计计数函数统计函数value_counts 计数统计所有非零元素的个数,默认以降序的方式输出Series#按区域进行分类统计#(默认降序排列,如果要升序排列可以添加参数ascending = True)df['区域'].value_counts()#统计每个区域的占比,指定normalize参数为Truedf['区域'].value_counts(normalize=True)#用sum计算df['

2022-05-22 21:17:08 408

原创 pandas笔记之分列

分列方法一览文章目录分列方法一览split()有分裂键extract()无分列键split()有分裂键str.split()有三个参数:第一个参数就是引号里的内容:就是分列的依据,可以是空格,符号,字符串等等。第二个参数就是前面用到的expand=True,这个参数直接将分列后的结果转换成DataFrame。第三个参数的n=数字就是限制分列的次数。 默认从右边进行分列如果从左边分列的话可以用 rsplit() ,用法与split()相同根据"-"进行分列df["列名"].str.split(

2022-05-22 21:15:00 1703

原创 pandas笔记之拼接

拼接方法一览文章目录拼接方法一览concat多表一次性匹配合并joinappend&多列拼接合并(.str.cat)list(zip)读取并且拼接多个文档的数据concatpd.concat([df1, df2])#纵向拼接上下拼接df = pd.concat([df1, df2],axis=1) #左右拼接横向拼接pd.concat([df1,df2],keys=['df1','df2'],names=['d1','d2'] )#参数name指定每个层级索引的

2022-05-22 21:12:36 1386

原创 pandas笔记之查找替换定位

查找替换定位文章目录查找替换定位replace替换replace替换replace的基本结构是:df.replace(to_replace, value) 前面是需要替换的值,后面是替换后的值df.replace('A','B')#将a转换为b范围是全部df.replace('A','B',inplace=True)#改变源数据df.['列1'].replace('A','B')#将列1里面的a转换为吧替换指定多个数值(用字典或者列表)df.replace({'a':'b','c':'d'

2022-05-22 21:09:07 466

原创 pandas笔记之排序方法

排序方法一览文章目录排序方法一览排序sort_valuesnlargest()rank排序sort_values#根据B列进行排序df.sort_values(by='B',ascending=True)#多列进行排序df.sort_values(by=['B','C'],ascending=[True,False])#有缺失值的情况df.sort_values(by="a",na_position='first')#放在首位#ignore_index 自动索引重排df.sort_va

2022-05-22 21:06:13 117

原创 pandas笔记之缺失值处理

缺失值处理文章目录缺失值处理缺失值null删除填充缺失值null#查看缺失值df.isnull()/df.notnull()#查看字段缺失值df.isnull().any() # 列中是否存在空值,只要有一个缺失值即为Truedf.isnull().sum() # 每个列属性的缺失值总数df.isna().sum() #锁定缺失值存在的行df[df.isnull().values==True]删除isna与null的用法相同df.dropna() #删除缺失值 默认axis=

2022-05-22 21:01:51 288

原创 pandas笔记之重复值处理

重复值系列文章目录重复值系列duplicated删除重复值 drop_duplicatesduplicated#筛选唯一值df[df.duplicated('列1')==False]['列1']#查看重复值df[df.duplicated()]df.duplicated().sum() #查看一共多少重复值#查看某列重复信息df.duplicated(subset=["列"])#某列重复值可以用列表 df[df.duplicated('列1')].info()out:entries

2022-05-22 20:59:35 443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除