自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

转载 Eclipse 报 “Exception in thread "main" java.lang.OutOfMemoryError: Java heap space ”错误的解决

1、打开Eclipse软件,选择菜单栏run,在二级菜单中选择 DebugConfigurations...  项,如下图所示。 报 “Exception in thread "main" java.lang.OutOfMemoryError: Java heap space ”错误的解决" height="240" width="389"> 2、在弹出的窗口中选择 (x)

2015-07-10 09:07:03 670

原创 中心趋势度量和度量数据散布

一 中心趋势度量中心趋势度量主要包括:均值,中位数,众数,中列数例:属性salary(单位千美元),以递增方式排列:30,31,47,50,52,52,56,60,63,70,70,1101:均值数据集中心最常用,最有效的数值度量是(算术)均值对于上面的例子:均值为58在上面这个例子中,所有的值价值都是均等的,但是有的时候,每个数据的价值并不均等,因此需要为每个数据赋予

2015-06-16 16:27:16 10185

转载 距离汇总

原文地址:http://blog.sina.com.cn/s/blog_6f611c300101c5u2.html1.欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x =(x1,...,xn) 和 y = (y1,...,yn) 之间的距离为: (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:

2015-06-11 14:44:56 601

转载 倒排索引 和 倒排表

为什么我们要说倒排索引呢?     因为倒排索引是目前 搜索引擎公司最对搜索引擎最常用的存储方式.也是搜索引擎的核心内容!    在搜索引擎实际的引用之中,有时需要按照关键字的某些值查找记录,所以我们是按照关键字建立索引,这个索引我们就称之为:倒排索引, 而带有倒排索引的文件我们又称作: 倒排索引文件 也可以叫它为: 倒排文件 来实现快速的检索与高速的效率!那我想问下 什么是倒

2015-06-09 14:45:18 6316 1

转载 聚类算法之CHAMELEON(Java实现)

转载原地址:http://www.cnblogs.com/zhangchaoyang/articles/2182752.htmlCHAMELEON是一种两阶段聚类法。第一阶段把点分成很多小的簇;第二阶段根据相近程度合并这些小的簇。第一阶段采用K最邻近法,即把一个点和它最邻近的K个点连接起来。第二阶段计算任意两个簇的互连性RI和紧密性RC,当两个指标都比较大时才合并这两个簇。相对互连度

2015-06-05 15:00:14 629

转载 K中心点算法(K-medoids) java实现

package com.kmedoids;import java.util.ArrayList;public class Cluster { private String clusterName; // 类簇名 private Medoid medoid; // 类簇的质点 private ArrayList dataPoints; // 类簇中各样本点 pu

2015-06-04 16:19:34 3537 1

原创 基本聚类方法概述

1:划分方法:只有一层,把n个对象的集合划分为k个分区,kk-均值 和 k-中心点算法,这些属于启发式聚类方法,适合于发现中小型的数据库中的球状互斥簇2:层次方法:将数据库划分并分层分为 凝聚 和分裂方法:凝聚:把一个对象当成一个组,与最相近的那个对象组合成一个簇,之后迭代,直到所有的对象在一个簇里面或者达到停止条件而停止。因此也被称为自底向上的方法分裂:把所有的对象放在一

2015-06-04 10:47:03 1135

转载 初识聚类算法:K均值、凝聚层次聚类和DBSCAN

聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇)。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。组内相似性越大,组间差别越大,聚类就越好。先介绍下聚类的不同类型,通常有以下几种:(1)层次的与划分的:如果允许簇具有子簇,则我们得到一个层次聚类。层次聚类是嵌套簇的集族,组织成一棵树。划分聚类简单地将数据对象划分成不重叠的子集(簇),使得每个数据对象

2015-06-03 15:20:55 1164 1

转载 windows下python安装Numpy、Scipy、matplotlib模块

pylab = Numpy+Scipy+matplotlib,是三个module的组合,而不是一个单独的module我自己安装的是python 2.7。所以以下的东东都是针对2.7的软件。         numpy :http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/   下载下面的numpy-1.8.2-win32-su

2015-06-03 11:33:38 404

原创 混合类型数据的相异性

混合类型数据:一个对象肯呢个由多种属性刻画,这些属性可能是标称的、非对称二元的、数值的或者序数的那么,如何计算这样子的相异性呢?答:假设数据集包含p个属性,对象i与j之间的相异性表示为:(f表示属性个数)(表示针对属性f,对象i与j之间的相异性)其中,指示符=0,如果xif 或xjf缺失,或者xif=xjf=0且f是非对称二元属性,否则取值为1f是数值的

2015-06-02 17:31:24 2805

原创 数值属性的相异性:闵可夫斯基距离

本文介绍数值属性刻画的对象之间的相异性度量,首先,应该把数据进行规范化,使之落入更小的值域,例[0,1],[0.0,1.0]1:最流行的距离度量:欧几里得距离2:曼哈顿距离3:闵可夫斯基距离其中 h>=1当h=1,表示的是曼哈顿距离当h=2,表示的是欧几里得距离

2015-06-02 16:44:16 2576

原创 二元属性的邻近性度量

二元属性:0和1.显而易见,0表示不出现,1表示出现分为:对称性和非对称性对称性二元属性:两个个状态同等重要非对称性:两个状态不是同等重要的,两个都取1(正匹配)比两个都取0(负匹配)的情况更有意义邻近性度量:为相异性和相似性度量问:如何刻画对称二元属性之间的相异性答:这是对象i 与对象j之间二元属性的列联表q:表示对象i 与对象j都取1的属性数,其余类似p

2015-06-02 16:27:44 4983

原创 标称属性的邻近性度量

标称属性:可以拥有2个或者更多个属性值例:标称属性color:red,yellow,black,blue,green.(有5个属性值可选)问:对象由标称属性刻画,那么怎么判定对象之间的相异性呢?答:p:表示标称属性可选的属性值的个数,在上例中,p=5m:表示对象i与对象j之间有相同属性值的个数当然,我们可以对m赋予权重,增加m的影响度标称属性之间的相异性也可

2015-06-02 16:07:35 3385

原创 数据矩阵与相异性矩阵

数据矩阵:n*p 矩阵(n个对象,每个对象有p个属性)xi 表示为对象 i,xij表示对象i的第j个属性的值相异性矩阵:n*n矩阵,存放对象之间的相异性,即对象之间的差异性度量例如:主对角线元素为0,因为对象与对象本身被认为是没有差异的d(i,j) = d(j,i),因此相异性矩阵是对称矩阵相似性度量:相似性是相异性相反的概念,用sim(

2015-06-02 15:53:03 6583

转载 String类型getBytes方法

package wordcount1;import java.io.UnsupportedEncodingException;import java.util.regex.Matcher;import java.util.regex.Pattern;public class demo {public static void main(String[] arg

2015-04-14 17:38:58 2928 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除