自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (23)
  • 收藏
  • 关注

转载 关于java用jni调用 dll动态库Can't find dependent libraries错误的解决

ref:http://sylar029.iteye.com/blog/1171260 最近在做一些java开发的时候,需要调用操作系统底层的一些东西,所以我用c++ 写了一个dll动态库文件,通过java的JNI进行调用。dll 文件生成之后 在本机用java调用没有问题,  但是换了一台主机就报错了,报错如下:java.lang.UnsatisfiedLinkErro

2014-11-14 14:07:02 2473

转载 变分推断(variational inference)学习笔记(1)——概念介绍

ref:http://www.crescentmoon.info/?p=709#more-709问题描述变分推断是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术,它广泛应用于各种复杂模型的推断。本文是学习PRML第10章的一篇笔记,错误或不足的地方敬请指出。先给出问题描述。记得在上一篇EM的文章中,我们有一个观察变量X={x{1},…,x

2014-11-13 21:04:31 10067

转载 变分推断学习笔记(2)——一维高斯模型的例子

ref:http://www.crescentmoon.info/?p=745

2014-11-13 20:58:44 2090

转载 变分推断学习笔记

ref:http://www.crescentmoon.info/?p=709#more-709问题描述变分推断是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术,它广泛应用于各种复杂模型的推断。本文是学习PRML第10章的一篇笔记,错误或不足的地方敬请指出。先给出问题描述。记得在上一篇EM的文章中,我们有一个观察变量X={x{1}

2014-11-13 20:57:45 1465

转载 文本向量表示及TFIDF词汇权值

文本相似计算是进行文本聚类的基础,和传统结构化数值数据的聚类方法类似,文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同,文本数据是一种半结构化数据,在进行文本挖掘之前必须要对文本数据源进行处理,如分词、向量化表示等,其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分

2014-10-04 10:55:54 1380

转载 crf

条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。条件随机场理论(CRFs)可以用于序列标记、

2014-09-25 20:17:28 776

转载 条件随机场(CRF)

关联数据有两个特点:第一,我们准备建立模型的实体之间存在统计依赖性,第二,每个实体自身具有丰富的有利于分类的特征例如,当Web文档进行分类时候,网页上的文本类标签提供了很多信息,但超链接定义的页面之间的关系,可以进一步提高分类的准确度,图模型很自然的建立了实体之间的结构化关系。通常来讲,图模型已被用于表示联合概率分布P(Y,X),其中的变量y代表我们希望预测的属性,输入变量X代表获得的实体信息。利

2014-09-25 15:04:32 843

转载 数据归一化和两种常用的归一化方法

转载自:http://www.cnblogs.com/chaosimple/p/3227271.html

2014-09-25 12:49:30 2112

转载 数据归一化和两种常用的归一化方法

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为

2014-09-25 12:47:44 744

转载 特征选择方法之信息增益

前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的

2014-09-24 21:12:11 1192

转载 隐马尔可夫模型 最大熵马尔可夫模型 条件随机场 区别和联系

隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM首先出现,MEMM其次,CRF最后。三个算法主要思想如下:HMM模型是对转移概率和表现概率直接建模,统计共现概率。ME

2014-09-24 13:18:42 4737

转载 LDA话题模型

(一)LDA作用        传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。        举个例子,有两个句子分别如下:                “乔布斯离我们而去了。”                “苹果价格会不会

2014-09-11 11:11:30 856

转载 吸收马尔科夫链

一、 吸收态马尔可夫链马尔可夫链是一种比较常用、 比较熟悉的随机过程, 它描述的是这样的情形 一个系统具有有限个状态, 系统在下一时刻的状态取决于 系统现在所处的状态, 而与以前的状态无关, 即系统具有无后效性 系统由一种状态转移至 另一种 状态的过程称为马尔可夫过程 马尔可夫 过程按照其状态是离散的或是连续的, 分别称为状态离散的马尔可夫过程或状态连续的马 尔可夫

2014-09-11 10:52:57 8067

转载 条件随机场(CRF)

关联数据有两个特点:第一,我们准备建立模型的实体之间存在统计依赖性,第二,每个实体自身具有丰富的有利于分类的特征例如,当Web文档进行分类时候,网页上的文本类标签提供了很多信息,但超链接定义的页面之间的关系,可以进一步提高分类的准确度,图模型很自然的建立了实体之间的结构化关系。通常来讲,图模型已被用于表示联合概率分布P(Y,X),其中的变量y代表我们希望预测的属性,输入变量X代表获得的实体信息。利

2014-09-11 10:15:16 869

转载 EM算法

EM算法本文试图用最简单的例子、最浅显的方式说明EM(Expectation Maximization)算法的应用场景和使用方法,而略去公式的推导和收敛性的证明。以下内容翻译自《Data-Intensive Text Processing with MapReduce》。Maximum Likelihood EstimationMaximum Likelihood Esti

2014-09-10 22:39:27 525

转载 HMM的向前-向后算法(forward-backward algorithm)

学习问题在HMM模型中,已知隐藏状态的集合S,观察值的集合O,以及一个观察序列(o1,o2,...,on),求使得该观察序列出现的可能性最大的模型参数(包括初始状态概率矩阵π,状态转移矩阵A,发射矩阵B)。这正好就是EM算法要求解的问题:已知一系列的观察值X,在隐含变量Y未知的情况下求最佳参数θ*,使得:在中文词性标注里,根据为训练语料,我们观察到了一系列的词(对应EM中的X),如果每

2014-09-10 22:34:47 3062

转载 HMM(隐马尔科夫模型)

分类 隐马尔科夫模型   HMM(隐马尔科夫模型)是自然语言处理中的一个基本模型,用途比较广泛,如汉语分词、词性标注及语音识别等,在NLP中占有很重要的地位。网上关于HMM的介绍讲解文档很多,我自己当时开始看的时候也有点稀里糊涂。后来看到wiki上举得一个关于HMM的例子才如醍醐灌顶,忽然间明白HMM的三大问题是怎么回事了。例子我借助中文wiki重新翻译了一下,并对三大基本问题进行说明,希

2014-09-10 22:28:45 1946

转载 HMM学习笔记_3(从一个实例中学习Viterbi算法)

在上一篇中,我们已经从一个例子中学会了HMM的前向算法,解决了HMM算法的第一个问题,即模型评估问题。这一讲中我们来解决第二个问题:HMM的解码问题,即即给定观测序列 O=O1O2O3…Ot和模型参数λ=(A,B,π),怎样寻找满足这种观察序列意义上最优的隐含状态序列S,这一步中最常用的算法就是Viterbi算法了。    同样的,我们先引入3个符合:  :表示在观察时刻t正处在状

2014-09-10 21:39:45 651

转载 HMM学习笔记_2(从一个实例中学习HMM前向算法)

HMM算法想必大家已经听说了好多次了,完全看公式一头雾水。但是HMM的基本理论其实很简单。因为HMM是马尔科夫链中的一种,只是它的状态不能直接被观察到,但是可以通过观察向量间接的反映出来,即每一个观察向量由一个具有相应概率密度分布的状态序列产生,又由于每一个状态也是随机分布的,所以HMM是一个双重随机过程。     HMM是语音识别,人体行为识别,文字识别等领域应用非常广泛。     一个

2014-09-10 21:39:00 466

转载 HMM学习笔记_1(从一个实例中学习DTW算法)出处:http://www.cnblogs.com/tornadomeet

DTW为(Dynamic Time Warping,动态时间归准)的简称。应用很广,主要是在模板匹配中,比如说用在孤立词语音识别,计算机视觉中的行为识别,信息检索等中。可能大家学过这些类似的课程都看到过这个算法,公式也有几个,但是很抽象,当时看懂了但不久就会忘记,因为没有具体的实例来加深印象。      这次主要是用语音识别课程老师上课的一个题目来理解DTW算法。  首先还是介绍下

2014-09-10 21:37:40 647

转载 viterbi算法

所谓的马尔科夫过程,就是该过程的当前状态仅由前一时刻的状态确定。用概率表达即为:。隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参

2014-09-10 21:10:04 1168

NumPy攻略 Python科学计算与数据分析

NumPy攻略 Python科学计算与数据分析

2016-04-19

统计学习方法

李航的统计学习方法

2016-04-07

条件随机场综述

条件随机场理论可以用于序列标记、数据分割、组块分析等自然语言处理任务。在 中文分词、中文人名识别、歧义消解等汉语自然语言处理任务中都有应用,表现很好

2015-09-22

commons-math3-3.0.jar

Apache Commons Math下的jar包commons-math3-3.0.jar

2015-03-30

gephi-tutorial

Welcome to this introduction tutorial. It will guide you to the basic steps of network visualization and manipulation in Gephi.

2015-03-30

flanagan.jar

在CloudSim中用到的flanagan.jar

2015-03-30

Pattern Recognition and Machine Learning.pdf

Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science.

2014-11-14

dll查看工具

工具的名字为《DLL依赖查看工具》可以用来查看dll文件

2014-11-14

r语言初学者指南

R 是一个开源项目,具有强大的统计计算及制图能力,是从大数据中获取有用信息的绝佳工具,在各 种主流操作系统上都可以安装使用,其基本安装就提供了数以百计的数据管理、统计和图形函数。另外, 社区开发的数以千计的扩展(包)为R 增加了更多强大功能。

2014-08-20

Think Complexity(复杂性思考).pdf

Many of the designations used by manufacturers and sellers to distinguish their products are claimed as trademarks. Where those designations appear in this book, and O’Reilly Media, Inc., was aware of a trademark claim, the designations have been printed in caps or initial caps.

2014-08-20

R语言实战.pdf

R 是一个开源项目,具有强大的统计计算及制图能力,是从大数据中获取有用信息的绝佳工具,在各 种主流操作系统上都可以安装使用,其基本安装就提供了数以百计的数据管理、统计和图形函数。另外, 社区开发的数以千计的扩展(包)为R 增加了更多强大功能。

2014-08-20

Carrot2:用胡萝卜来聚类

Carrot英文是胡萝卜的意思,但它在这里不是食品,而是一个用Java写的开源聚类系统,主要用于对搜索结果进行聚类。所谓聚类,顾名思义就是把一些事物按照其共有特征归为一类,当然,这里的共有特征也是相对于其他事物而言的。

2014-08-16

信息检索导论

本书是一本讲授信息检索的经典教材。全书共21 章,前八章详述了信息检索的基础知 识,包括倒排索引、布尔检索及词项权重计算和评分算法等,后十三章介绍了一些高级话题, 如基于语言建模的信息检索模型、基于机器学习的排序方法和Web 搜索技术等

2014-08-16

Hadoop开发者入门专刊

Hadoop 是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。

2014-08-16

《hadoop技术内幕:深入解析YARN架构设计与实现原理》

本书从应用角度系统讲解了YARN 的基本库和组件用法、应用程序设计方法、YARN 上流行的各 种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN 的开源资源管理系统(Corona 和 Mesos);从源代码角度深入分析YARN 的设计理念与基本架构、各个组件的实现原理,以及各种计算 框架的实现细节。

2014-08-16

《Hadoop开发者》第三期

Hadoop 主要用来对非结构化或半结构化(HBase)数据进行存储 和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文 的主要内容则是讲述如何将Hadoop 与现有的数据库结合起来,在 Hadoop 应用程序中访问数据库中的文件。

2014-08-16

struts2+jquery.uploadify

struts2+jquery实现文件的上传

2014-07-24

uploadify多文件上传

uploadify多文件上传例子代码.rar 可以实现的

2014-07-24

NodeJS开发指南

本书是一本 Node.js 的入门教程,写给想了解 Node.js 的开发人员。我的目标是使读者通过阅读本书,学会使用 Node.js 进行 Web 后端开发,同时能熟悉事件驱动的异步式编程风格,以便进一步了解 Node.js 的许多高级特性,以及它所应用的更多领域。

2014-07-24

MongoCola.rar

MongoDB是一个开源的项目,你可以从GitHub上获取MongoDB的源代码,当然对于大部分用户来说,我们并不需要源代码,直接下载可执行的文件即可。最新版的MongoDB是2.0.4.

2014-07-22

josn解析jar包.rar

JSON是JavaScript面向对象语法的一个子集。由于JSON是JavaScript的一个子集,因此它可清晰的运用于此语言中。

2014-07-22

MyBatis3_用户指南(最新完整版)

如果您发现这个文档存在任何不足,或者缺少了对某个特性的描述,最好的方式是先学习它,然后自己写一份文档。

2014-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除