自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

星之所在

纸上得来终觉浅,绝知此事要躬行。

  • 博客(39)
  • 收藏
  • 关注

原创 论文笔记: iDice: Problem Identification for Emerging Issues

本文提出了iDice算法,用于帮助技术支持工程师识别与**新出现问题(emerging issue)**相关的有效组合的自动化算法。这里将识别属性组合作为一个模式挖掘问题:给定一段时间内的客户问题报告量,目标是搜索一个属性组合,将整个多维时间序列数据集隔离成两个部分:一部分问题量的显著增加,另一部分没有这种显著增加。

2021-12-05 17:19:16 1839 1

原创 K均值(K-Means)聚类算法简介

K均值算法K均值算法是一个经典的,被广泛使用的聚类算法。算法过程K均值算法中首先选择K个初值。K是用户指定的参数,即希望聚成的簇的个数。每个点指派到最近的质心,指派到一个质心的点集为一个簇。然后更新每个簇的质心,直到簇不发生变化,或质心不发生变化(二者等价),结束算法。算法: K均值算法--------------------选择K个点作为初始质心。 (STEP 1)repeat 将每个点指派到最近的质心,形成K个簇。 (STEP 2) 重新计算每个簇的质心。 (STEP

2021-03-30 07:57:24 6619

原创 常见距离的度量及python实现

目录闵可夫斯基距离(Minkowski Distance)堪培拉距离(Canberra Distance)余弦距离(Cosine Distance)汉明距离(Hamming Distance)简单匹配距离(Simple Matching Distance)杰卡德距离(Jaccard Distance)Note闵可夫斯基距离(Minkowski Distance)Minkowski Distance不是一种距离,而是一组距离。两个n维变量A(a1,a2,…,an)与B(b1,b2,…,bn)间的闵可夫斯基

2021-03-27 10:45:55 1531

原创 ADJUSTED BOXPLOT: 偏态分布的异常检测

Boxplot是一个常用的了解数据分布的工具,在数据预处理阶段也常用boxplot剔除离群点,但是当数据是一个偏态分布的时候,boxplot将许多点误分类为离群点。《AN ADJUSTED BOXPLOT FOR SKEWEDDISTRIBUTIONS》是一篇经典的修正boxplot在偏态分布数据上的误报问题的文章。1. 传统boxplot方法对于一组数据Xn={x1,x2,x3,...,xn}X_n=\{x_1,x_2,x_3,...,x_n\}Xn​={x1​,x2​,x3​,...,xn​},计

2020-06-01 23:42:06 3317 7

原创 Adtributor: Revenue Debugging in Advertising Systems

本文主要解决在广告系统中,当指标异常波动时在和收益相关的指标的各个维度中去定位根因。本文实现了一个名为Adtributor的工具,其中实现了一个属性算法,以及一个可视化的接口。该工具可以帮助故障派出人员快速识别异常的潜在原因。

2020-01-01 23:51:53 2894 3

原创 时间序列之间的相关性检测

为了检测时间序列的相关性,我们经常使用自相关,互相关或归一化互相关。互相关(Cross-Correlation)互相关是两个不同时间序列的比较,以检测具有相同最大值和最小值的指标之间是否存在相关性。例如:“两个音频信号同相吗?”为了检测两个信号之间的相关程度,我们使用互相关。 只需将两个时间序列相乘和相加即可计算得出。在以下示例中,序列A和B是互相关的,但序列C都不与此相关。a = [...

2019-11-18 00:56:53 20453 5

原创 深入理解协方差

协方差协方差矩阵协方差和相关系数协方差的意义

2019-11-16 20:53:25 1757

原创 Python模块发布

通过distutils发布模块1. 发布模块1.1 创建setup.py文件setup.py的文件from distutils.core import setupsetup( name="包名", version="版本号", description="模块说明", author="作者", author_email="作者邮箱", url...

2019-10-20 22:52:39 259

原创 Ubuntu下Spark单机版(Standalone)安装

一、安装JDK二、安装Scala三、安装Spark

2017-10-11 17:37:55 1447

原创 统计量MAD

MAD(Median absolute deviation, 中位数绝对偏差)是单变量数据集中样本差异性的稳健度量。mad是一个健壮的统计量,对于数据集中异常值的处理比标准差更具有弹性,可以大大减少异常值对于数据集的影响。

2017-04-20 10:34:37 13938

转载 PCA数学原理

PCA(主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。

2016-10-09 16:08:31 510

翻译 Spring Boot:建立一个RESTful Web Service

建立一个基于Spring的RESTful Web Service

2016-08-22 09:32:08 1646

原创 连续属性离散化

离散化技术分类连续属性的离散化方法也可以被称为分箱法,即将一组连续的值根据一定的规则分别放到其术语的集合中。 本文介绍了几种监督离散化和非监督离散化的方法。

2016-08-07 17:17:07 12097

原创 决策树学习笔记

决策树是依托于决策一步步建立起来的树形数据模型。 本文主要讲解了建立决策树时的节点分裂、剪枝等问题。

2016-08-06 22:14:11 1530

原创 用ggplot2为时间序列数据绘图

在R中用ggplot()函数为时间序列类型的数据绘图时,发现ggplot()无法识别ts类型的数据,这时候就可以先将时间序列类型拆成数据框类型然后在绘图。

2016-07-07 00:13:30 14760

原创 最小二乘法

在现实生活中存在着大量的数量之间的相关关系,比如人的身高和体重,钻石的价格和体积、克拉数,房价和房屋位置、面积、朝向等等。我们可以借助统计学中的回归模型,通过一些可以观测到的值(观测变量、自变量)来预测另外一些不容易观测到的值(响应变量、自变量)。

2016-07-06 20:28:00 871

原创 时间序列分析.基本数学概念

本文主要介绍时间序列分析中会用到的一些数学知识。

2016-06-26 19:15:49 2196

原创 R语言学习笔记

本文主要是自己在学习和使用R语言时对于一些不太熟悉的内容做一下记录,记录会随着学习和工作中遇到的问题而增加。

2016-06-26 11:53:18 931

原创 Windows下github使用说明

Windows下github使用说明

2016-05-19 14:47:02 1089

转载 是什么阻碍了你的机器学习目标?

我收到过许多想开始学习机器学习的开发者和学生的邮件。我问他们的第一个问题是:是什么阻止了你开始学习?我试图找出让他们挣扎的核心原因,大多数时候都是一些自我限制的想法在阻止他们前进。这篇文章里我想谈谈一些在我和学生的邮件来往和讨论中发现的一些自我限制的想法。也许在这些想法里面你也会发现自己的影子。如果这样的话,我希望你能挑战自己的这些设想。自我限制的想法自我限制的想法

2015-04-22 14:13:08 602

原创 【算法导论】快速排序

快速排序

2014-10-09 18:33:51 698

原创 【算法导论】堆排序和优先级队列

堆排序

2014-10-07 22:36:54 788

原创 【算法导论】插入排序

/*《Introduction to Algorithms(second edition)》 chapter2,INSERTION_SORT()author:eatondate:2014-9-14*/#include #include #include #define MAX 50typedef struct{ int arr[MAX+1]; int l

2014-09-18 15:41:45 818

原创 【算法导论】分治法及归并排序

有很多算法,在结构上他们是递归的:weile

2014-09-18 00:39:58 652

原创 静态表查找(顺序查找,二分查找,斐波那契查找)

/*静态表查找:顺序查找,二分查找,斐波那契查找运行环境:VS2010*/#include #include #include #include #define OK 1#define ERROR 0#define TRUE 1#define FALSE 0#define MAXSIZE 50typedef struct{ int key[MAXSIZE + 1

2014-06-03 12:11:53 777

原创 堆排序

/*堆排序VS2010*/#include #include #include #include #define OK 1#define TRUE 1#define FALSE 0#define MAXSIZE 50typedef struct{ int value; int index;}RedType;typedef struct{ RedType

2014-05-23 09:28:39 553

原创 交换排序(冒泡排序,快速排序)

/*交换排序:冒泡排序,快速排序运行环境:VS2010*/#include #include #include #include #define OK 1#define TRUE 1#define FALSE 0#define MAXSIZE 50typedef struct{ int value;}RedType;typedef struct{ Red

2014-05-23 09:27:59 724

原创 插入排序(直接插入排序,折半插入排序,2路插入排序,希尔排序)

/*插入排序:直接插入排序,折半插入排序,2路插入排序,希尔排序将数据由小到大排列运行环境:VS2010*/#include #include #include #define OK 1#define ERROR 0#define MAXSIZE 50typedef struct{ int value;}RedType; typedef struct{ R

2014-05-23 09:26:52 693

原创 线索二叉树

/* 线索二叉树 运行环境:vs2010*/#include #include #include #include #define NIL '#'#define OK 1#define ERROR 0typedef struct thread_bitree_node thrbitree;typedef enum{ LINK, //指针 THREAD //线

2014-05-16 18:16:46 557

原创 二叉树链式存储的实现

//filename:bitree.h#include #include #include #define OK 1#define ERROR 0#define TRUE 1#define FALSE 0#define NIL '#' //定义'#'为空节点typedef struct queue_node qnode;typedef struct bitree_nod

2014-05-16 18:15:51 650

原创 稀疏矩阵的转置

//稀疏矩阵的转置#include #include #include #define ELEM_TYEP int#define MAX_SIZE 100typedef struct{ int row; //矩阵中某一元素的行数 int col; //列数 ELEM_TYEP elem; //元素值}elem;typedef struct { elem d

2014-05-15 09:38:09 738

原创 多维数组的顺序表示

多维数组节点,有四个元素struct array {        int *base;            //存放数组的元素的基地址        int dim;               //表示多维数组的维数        int *bounds;       //表示每一维的长度        int *constants;   //存放数组映象函数常量基址

2014-05-15 09:36:59 671

原创 循环队列的实现(C语言)

/* 循环队列 VS2010 调试*/#include #include #include #define MAX_SIZE 6#define TRUE 1#define FALSE 0#define OVERFLOW 0#define OK 1#define ERROR 0typedef struct seq_queue{ int front; int r

2014-05-14 15:03:38 654

原创 带头结点的链队列实现(C语言)

/* 带头结点的链队列 vs2010 调试*/#include #include #include #define OK 1#define ERROR 0#define TRUE 1#define FALSE 0typedef struct queue_node qnode;typedef struct queue_node{ int data; qnode

2014-05-14 15:02:18 809

原创 计算中缀表达式的值

首先,将中缀表达式转换成后缀表达式,用压栈的方法:1.遇到操作数,直接输出;2.栈为空时,遇到运算符,入栈;3.遇到左括号,将其入栈;4.遇到右括号,执行出栈操作,直到弹出栈的元素是左括号,左括号不输出;5.遇到其他运算符'+''-''*''/'时,弹出所有优先级大于或等于该运算符的栈顶元素,然后将该运算符入栈;6.遇到结束符后将栈中的元素依次出栈,输出。然后计

2014-05-14 14:58:48 964

原创 双指针不带头结点的链栈的实现(C语言)

/* 双指针 不带头结点的链栈 VS2010 调试*/#include #include #include #define TRUE 1#define FALSE 0#define ERROR -1#define OK 1struct Node{ int data; struct Node *next;};struct LStack{ struct Nod

2014-05-12 09:21:38 930

原创 顺序栈的实现(C语言)

/*顺序栈VS2010 调试*/#include #include #include #define TRUE 1#define FALSE 0#define STACK_INIT_SIZE 100#define STACKINCREASEMENT 10struct SeqStack{int *elem;int top;int MAXNUM;};//初始化栈int init_seq_stack(s

2014-05-12 09:19:38 991

原创 线性表——带头结点单链表的实现

/* 带头结点的单链表 vs2010 调试*/#include #include #include typedef struct LinkNode{ int num; struct LinkNode *next;};//获得链表长度int get_length(struct LinkNode *L){ struct LinkNode *trace = L; i

2014-05-09 21:54:10 995

原创 线性表——顺序表的实现

/* 顺序表 VS2010调试*/#include #include #include #include #define LIST_INIT_SIZE 50struct SeqList{ int *elem; int length; int max_size;};//初始化顺序表int fnInitList(struct SeqList *L){

2014-05-09 21:51:47 580

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除