skyHdd-CSDN博客

原创数据分析 | 异常数据识别小结

这里写目录标题1. 定义与使用场景定义使用场景数据异常的原因2. 单变量数据异常识别2.1 简单统计量分析2.2 三倍标准差2.3 box-cox转化+3倍标准差基本介绍基本公式Box-Cox优势python 实现2.4 箱线图3. 时间序列数据异常识别3.1 设置恒定阈值3.2 设置动态阈值-移动平均法3.3 STL数据拆解法4. 多变量异常数据识别4.1 孤立森林模型基本介绍算法逻辑介绍1. 定义与使用场景定义异常检测，即发现一组数据点中和大多数数据不同的数据点。如果你要去网上搜索英文文献，可以用

2021-04-12 15:28:56 3919

原创数据分析必备之sql细节

这里写目录标题条件统计读取jason字符串数据字符串转化jason格式';'转义分组拼接字符串拼接判断字符串是否含有目标字符串str1……返回字符串的位置，没有返回0字符串替换条件统计select col1,col2,sum(case when condition1 then value1 else value2)group by col1,col2读取jason字符串数据select action[‘key’],action.key,action.data[‘page’] from maidia

2020-11-25 20:13:54 591

原创数据标准化方法论思考总结

数据标准化总结数据标准化总结元数据管理目录式实现 VS 词素管理应对策略数据字典制定步骤术语解释小例子实施步骤标准化对象收集词素拆分标准单词、标准用户定义数据标准结构词素管理的思考数据词典（数据字典）QA数据标准化总结元数据管理目录式实现 VS 词素管理目前各个公司或多或少都存在数据标准问题，英文名称中后缀相同，中文名称不同；英文……而且随着业务数据的增加，数据标准问题会像滚雪球一样越积越多。基于越来越多的数据标准问题，目录式管理元数据（IBM目前就是目录式的），元数据语义层和数据模型建模的关联很

2020-11-12 20:17:59 1556

原创 python数据分析作图细节

python数据分析作图细节seabornbarplot条形图countplot计数图distplotHistograms直方图Kernel density estimaton核密度估计distplot()kdeplot()Fitting parametric distributions拟合参数分布seaborn官方链接：http://seaborn.pydata.org/index.htmlSeaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界

2020-11-10 19:09:16 568

原创用户画像理解和方法论

用户画像的技术和方法论前言什么是用户画像(what)什么是用户画像常用用户画像什么是商品画像为什么需要用户画像以及精细化运营(why)如何构建商品和用户画像(how)举例（方法论）商品&用户画像的应用总结前言用户画像也是近几年比较热的一个词，不过很多小伙伴对于画像的认知还只是标签化的层面，或者是只是利用其做一些简单的分群分析；如何全面地认知并做系统性地尝试，背后有非常多的点需要我们深思挖掘。今天就根据自己的一些浅见进行分享，因为与商品画像的联系，中间也会掺杂一些商品画像的知识。今天的分享希望

2020-10-27 17:09:40 1934 1

原创 CDA level 2 案例1实现

案例相关代码：常用库导入# 导入相关库import numpy as npimport pandas as pdimport seaborn as snssns.set_style("whitegrid") import matplotlib.pyplot as plt%matplotlib inlinefrom matplotlib.pylab import rcParamsrcParams['figure.figsize'] = 12, 4import xgboost as

2020-08-11 00:29:22 717

原创 Error 细节

1、TypeError: only integer scalar arrays can be converted to a scalar indexhttps://www.cnblogs.com/cloud-ken/p/8465494.html使用np.random.choice创建list,使用这个List作为Data[] List对象的索引。出现TypeError: only integer scalar arrays can be converted to a scalar index错误。

2020-07-13 20:28:31 143

原创数据平滑 log1p

数据平滑处理 – log1p( ) 和 exmp1( )在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化，使其更加服从高斯分布，此步处理可能会使我们后续的分类结果得到一个更好的结果；平滑处理很容易被忽略掉，导致模型的结果总是达不到一定的标准，同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量.数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化，使其更加服从高斯分布，此步处理可能会使我们后续的分类结果得到一个好的结果。平滑问题很容易处理掉，

2020-07-10 22:20:49 930 1

原创类别不均衡（目标变量）

查看数据比例from collections import Counter# 查看所生成的样本类别分布，0和1样本比例9比1，属于类别不平衡数据y.value_counts().plot(kind='pie')print(Counter(y))# Counter({0: 900, 1: 100})SMOTE 过采样# 过采样import imblearnfrom imblearn.over_sampling import SMOTEsm = SMOTE(random_state=42

2020-07-09 22:21:02 1241

原创 jupyter notebook命令细节

配置生成配置文件jupyter notebook --generate-config复制代码浏览器方案：1、打开文件 jupyter_notebook_config.py （C:\Users\Administrator.jupyter 中） 2、找到 # c.NotebookApp.browser = '''' 3、添加： import webbrowse

2020-07-08 23:01:03 941

原创 sklearn 算法调参决策树调参

scikit-learn决策树算法类库介绍scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法，既可以做分类，又可以做回归。分类决策树的类对应的是DecisionTreeClassifier，而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同，但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数做一个总结，重点比较两者参数使用的不同点和调参的注意点。Deci..

2020-07-05 16:26:17 917

原创 sklearn 细节总结

sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子，保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于

2020-06-23 20:08:23 224

原创训练集、验证集和测试集

训练集、验证集和测试集

2020-06-23 19:59:48 2755

原创字节跳动数据分析一轮技术面

第一写面经，记录一下这次难得的面试，感谢字节跳动的面试官。除了有一丝遗憾，自己在很多知识点的表达方面有所欠缺，没有用结构化思维去清晰的表达，也希望不要打乱自己学习的节奏，在数据分析方面不断提升自己的能力。总体情况时间：2020.06.08面试时间：1小时10分钟面试感受：技术面的面试官很有字节跳动的特点，不断引导你，帮你总结。反思自己的面试过程，发现数据分析的逻辑思维还需要进一步总结，形成分析的框架。同时，在表达能力上还需要多一些锻炼。再夸一夸字节的面试官：1、全程引导你回答问题，就算你没有回

2020-06-08 17:26:57 4023

原创 SQL 窗口函数

SQL 窗口函数引入概念基本语法窗口函数注意事项理解窗口函数特点使用场景开窗函数和聚合函数的区别窗口函数和group by子句的区别排序窗口函数partition by vs order by专用窗口函数区别聚合窗口函数窗口函数计算移动平均框架：移动平均使用场景面试经典题1、面试经典排名问题2、面试经典topN问题每组最大的N条记录3.如何在组里比较引入概念窗口函数：窗口函数也称为OLAP函数（Online Anallytical Processing，联机分析处理），意思是对数据库数据进行实时分析处

2020-06-05 23:39:46 621

原创机器学习问题解决架构模板（通用）

出处：http://blog.csdn.net/han_xiaoyang/article/details/52910022通用机器学习流程与问题解决架构模板前言数据标签的种类评估指标库机器学习总体框架前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。链接：https://www.linkedin.com/pulse/approaching-almost-any-machine-learning-problem-abhishek-thakur/一个中等水平

2020-06-04 22:51:57 491

原创特征选择：贪心算法和其评价矩阵的AUC

"""Greedy Feature Selection using Logistic Regression as base modelto optimize Area Under the ROC Curve"""import numpy as npimport sklearn.linear_model as lmfrom sklearn import metrics, preprocessingclass greedyFeatureSelection(object): d

2020-06-04 22:46:28 1102

原创 k-折划分训练集和测试集

将数据分成训练集和验证集“必须”根据标签进行。遇到分类问题，使用分层分割就对了。在Python中，用scikit-learn很容易就做到了。(CV)遇到回归问题，一个简单的K-Fold分割就可以了。当然，也还有很多复杂的方法能够在维持训练集和验证集原有分布的同时将数据分割开来。这个就留给读者们自己去练习啦。k-折交叉验证。 k-折交叉验证将训练集划分为 k 个较小的集合（其他方法会在下面描述，主要原则基本相同）。每一个 k 折都会遵循下面的过程：将 k-1 份训练集子集作为 training

2020-06-04 22:20:29 3554

原创用户增长理解

用户增长公司：专用名词：1、CAC 用户获取成本2、LTV 用户的终生价值3、PBP 回收期：4、PMF 市场匹配：5、增长黑客AARRR：6、MVP（最小可行性产品）：思考：1、产品从用户身上获取价值2、获客渠道成本越低越好3、LTV和CAC 与公司发展的关系4、PBP：花出去的用户获取成本可以在多长时间内回本不同的公司什么样的方式方法做用户增长1、初创公司：一定要先找到PMF2、爆发期公司怎么做？满足黑客增长模型AARRR模型，多融资，傍巨头3、成熟期公司应该怎么做？公司：初创公司爆发型公司成

2020-06-01 06:44:03 866

原创数值数据分析流

数值数据分析流引入框架数据分析流框架理解1、需求2、y量化3、x选择4、描述4.1图形4.2统计量5、预分析（特征工程，流程化和模块化）5.1、异常值单变量异常值多变量异常值5.2、缺失值单变量缺失值多变量缺失值5.3、特征筛选单变量特征筛选多变量特征筛选5.4、共线性 scipy.optional单变量多变量5.5、变换单变量多变量5.6、编码单变量编码多变量编码6、建模（大模型：机器学习）小数据算法：8 statsmodel 小数据大数据算法：20 sklearn 大数据7、修正7.1、残差7.

2020-05-26 23:09:08 398

原创 Pandas DataFrame 分组求和、分组乘积

import numpy as npimport pandas as pdpd.set_option('display.max_columns', 10)# 删除空数据def DropNan(data_qd): for i in range(len(data_qd)): if np.isnan(data_qd['test_uniq_cnt'][i]) or \ np.isnan(data_qd['fail_uniq_cnt'][i]):

2020-05-25 20:42:48 4742

原创 pyspark DataFrame 数据预处理

文章目录一、在pyspark中运行代码二、pyspark 与 DataFrame三、pyspark DataFrame的创建及保存3.1、创建SparkSession对象：3.2、创建DataFrame3.3、DataFrame的保存四、pyspark DataFrame的常见操作五、pandas.DataFrame、spark.DataFrame互相转换pyspark = spark + python一、在pyspark中运行代码pyspark提供了python交互式执行环境；pyspark可以实

2020-05-18 22:36:12 1637 1

原创【剑指offer】python实现牛客网AC

剑指offer目录01-二维数组中的查找.py02-替换空格.py03-从尾到头打印链表.py04-重建二叉树.py05-用两个栈实现队列.py06-旋转数组的最小数字.py01-二维数组中的查找.py题目：在一个二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。算法原理：从...

2020-05-06 22:34:58 271

原创决策树scikit-learn重要参数详解

这里写目录标题决策树与SKlearn工具包参数汇总参数详解不纯度计算方法参数：criterion**sklearn提供了两种选择：**基尼系数与信息熵比较重要参数： random_state & splitterrandom_statesplitter剪枝参数：1、max_depth2、min_samples_leaf3、min_samples_split4、max_features5、m...

2020-04-28 22:26:11 3904

原创【数据挖掘算法实现】决策树sklearn实现

决策树算法实现决策树模型介绍（什么场景使用）优点缺点决策树思维导图决策树算法实现 python（参数控制）决策树模型介绍（什么场景使用）决策树 -有监督（有y）产生的模型具有可解释性。决策树不仅可以用来构建模型也可以用来筛选变量。（决策树用一个递归的过程将数据切分成越来越小的单元格中，单元格中数据逐步得到‘净化’，在这个过程中，决策树会选择出对有知道数据挖掘任务最重要的那些变量）决策树...

2020-04-27 21:51:37 306

原创 CDA Level 2: Part 3.3 决策树（分类树、回归树）

2020-04-27 19:54:31 306

原创数据挖掘数据集网站

数据集网站sklearn自带数据集 datasetsUCI机器学习数据集sklearn自带数据集 datasetssklearn不仅有函数还有数据集，在datasets包中，例如导入datasets中iris数据集：from sklearn.datasets import load_irisUCI机器学习数据集网址：UCI Machine Learning Repositoryhtt...

2020-04-27 19:35:43 233 1

原创数据挖掘模型的衡量标准与建模

模型的衡量标准一、模型的衡量标准1、generating a good model准确性Accurate稳定性stable推广性general2、Ease of Use 是否好用generate a fitmeasure accuracymake predictionsswitch algorithmshare results3、Feature selectionuncorelated predi...

2020-04-27 19:20:02 916 1

原创 pandas 细节总结

pandas 细节总结1、pandas option设置2、快速统计信息和数据类型 df.describe().T 、 df.info()3、多列排序 data.sort_values()4、去重复4.1、全部列去重复 data.drop_duplicates()4.2、某一列去重复 data.drop_duplicates(subset = '列标签')5、基于其他列创建一个新列M1：添加修改列...

2020-04-22 22:49:49 1021 1

原创 pycharts 数据分析与数据可视化

pycharts 数据可视化特性pycharts库安装调用快速画图进阶Echarts 是一个由百度开源的数据可视化。而 Python 是一门富有表达力的语言，很适合用于数据处理。当数据分析遇上数据可视化时，pyecharts 诞生了。特性简洁的 API 设计，使用如丝滑般流畅，支持链式调用；囊括了 30+ 种常见图表，应有尽有；支持主流 Notebook 环境，Jupyter Note...

2020-04-19 17:23:37 1143

原创 python基础知识查漏补缺

python基础知识查漏补缺1、函数中的参数是形参，如果调用是不写关键字，默认按顺序把参数放进去。如果写了关键字，可以调换。函数中如果有return，才能赋值 a＝func_（）2、python 循环变量不需要加end，因为python代码前面的空格相当于循环体3、条件分支，条件最好互斥。否则，那个条件先满足，执行那个条件，后面条件不满足if condition1:print(‘1’)...

2020-04-19 16:48:26 382

原创 python 数据画图

python 数据画图1、matplotlib2、seaborn3、echarts前端1、matplotlibimport matplotlib.pyplot as pltmatplotlib学习：matplotlib官网链接：https://matplotlib.org/2、seabornimport seaborn as snsseaborn 学习：seanborn-galle...

2020-04-17 21:14:30 561

原创 Anaconda 常用使用技巧总结

Anaconda 常用使用技巧总结1、变量查询2、批量备注：Ctrl+/3、spyder打开.ipynk文件执行4、Prompt命令5、python安装新的第三方库1、变量查询whos #查看变量和变量信息who #查看变量2、批量备注：Ctrl+/3、spyder打开.ipynk文件执行step1-打开：Ipynk文件可以直接拖到spyder界面，右键convert to pyt...

2020-04-17 20:42:51 2549

原创 python安装新的第三方库 4种常见方式总结

python安装新的第三方库方法1：conda install pandas方法2：下载好安装包，安装 pip install xxx.zip方法3：python setup.py install方法4：pip install xxx.whl方法1：conda install pandas方法1是从anaconda云中安装，速度一言难尽。可以在prompt中下面语句，配置anaconda仓库...

2020-04-17 20:24:52 392

原创【利用Python进行数据分析】13 - Python建模库介绍

第十三章 Python建模库介绍1、pandas与模型代码的接口2、用Patsy创建模型描述2.1、Patsy创建模型设计矩阵2.2、用Patsy公式进行数据转换2.3、分类数据和Patsy主要内容：pandas数据规整和模型拟合和评分介绍两个流行的建模工具，statsmodels和scikit-learn。1、pandas与模型代码的接口模型开发的通常工作流是使用pandas进行数据加...

2020-04-08 20:55:40 1064 1

原创【利用Python进行数据分析】12 - pandas高级应用

第12章 pandas高级应用1、分类数据1.1、pandas处理重复值常见函数1.2、分类编码 series_str.take(values)1.3、pandas的分类类型1.4、用分类进行计算 (pd.Series(draws).groupby(bins).agg(['count', 'min', 'max']).reset_index())1.5、用分类提高性能1.6、分类方法1.7、为建模...

2020-04-07 20:34:22 300 1

原创【利用Python进行数据分析】11 - 时间序列

这里写目录标题日期和时间数据类型及工具字符串和datetime的相互转换dateframe转字符串字符串转日期格式时间序列（time series）数据是一种重要的结构化数据形式，时间序列数据主要有以下几种：时间戳（timestamp），特定的时刻。固定时期（period），如2007年1月或2010年全年。时间间隔（interval），由起始和结束时间戳表示。时期（period）可以被...

2020-04-02 22:47:04 543 1

原创廖雪峰官网Git学习笔记

自定义标题Git简介安装Git创建版本库创建版本库初始化一个Git仓库，使用git init命令。添加文件进入版本库文件添加 Git add 文件提交 Git commit -m 版本切换版本回退查看历史记录 git log返回上个版本 get reset --hard HEAD^查看每一条记录 git reflogGit简介Git是分布式版本控制系统。集中式版本控制系统最大的毛病就是必须联...

2020-03-20 20:29:56 291 1

原创【利用Python进行数据分析】6-数据加载、存储与文件格式

输入输出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用Web API操作网络资源。6.1、读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结。pandas读取数据表6-1 pandas中的解析函数这些函数的选项可以划分为以下几个大类：索引：将一个或多个列当做返回的D...

2020-03-02 19:35:08 369 1

原创【利用Python进行数据分析】4 NumPy基础

NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下：ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...

2020-03-01 12:05:23 2955 1

数据分析数据流.zip

数值数据分析流框架 python code案例数据分析流框架理解 1、需求 2、y量化 3、x选择 4、描述 4.1图形 4.2统计量 5、预分析（特征工程，流程化和模块化） 5.1、异常值单变量异常值多变量异常值 5.2、缺失值单变量缺失值多变量缺失值 5.3、特征筛选单变量特征筛选多变量特征筛选 5.4、共线性 scipy.optional 单变量多变量 5.5、变换单变量多变量 5.6、编码单变量编码多变量编码 6、建模（大模型：机器学习）小数据算法：8 statsmodel 小数据大数据算法：20 sklearn 大数据 7、修正 7.1、残差 7.2、假设（清晰清楚） 8、模型评估 8.1、残差 8.2、业务 9、应用 9.1、主次归因 9.2、规则归因 9.3、内衍 9.4、外推 10、可视化 ——————————————— 原文链接：https://blog.csdn.net/u010591976/article/details/106367307

2020-06-02

stopwords.txt

为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为Stop Words(停用词)。通常意义上，Stop Words大致为如下两类：这些词应用十分广泛，在Internet上随处可见，比如“Web”一词几乎在每个网站上均会出现，对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率；这类就更多了，包括了语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”之类。举个例子来说，象“IT技术点评”，虽然其中的“IT”从我们的本意上是指“Information Technology”，事实上这种缩写也能够为大多数人接受，但对搜索引擎来说，此“IT”不过是“it”，即“它”的意思，这在英文中是一个极其常见同时意思又相当含混的词，在大多数情况下将被忽略。我们在IT技术点评中保留“IT”更多地面向“人”而非搜索引擎，以求用户能明了IT技术点评网站涉及的内容限于信息技术，虽然从SEO的角度这未必是最佳的处理方式。了解Stop Words，在网页内容中适当地减少Stop Words出现的频率，可以有效地帮助我们提高关键词密度，而在网页Title中避免出现Stop Words往往能够让我们优化的关键词更突出。

2020-02-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据分析数据流.zip

stopwords.txt

Matlab从入门到精通

ICEM CFD简明教程（流沙经典）

MATLAB智能算法30个案例分析

空空如也