自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

转载 Mahout算法集

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:

2016-08-15 14:20:50 537

转载 hadoop2.5.2 mahout0.10.1 测试文本分类器

说明:本文是对下面这篇文章的一个更新,下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0,本人的是mahout0.10.1+hadoop2.5.2--------------------------------------------------------------------------mahout0.9 + hadoop2.2 中文文本分类实战(上)链接

2016-08-15 14:17:47 419

转载 Mahout文本聚类学习之DocumentProcessor类

做为文本聚类实现的第一步对语料分词是必须的,而documentprocessor类提供了一个基于mapreduce对大量数据集分词的高效灵活的实现。高效是其基于mapreduce分布式计算框架,灵活是其提供了可扩展的分词接口可以对多种语言分词的支持。  下面就要深入一下类内部的流程进行学习:documentprocessor类,它只提供了一个静态方法tokenizeddocuments();

2016-08-10 11:17:05 631

转载 java Pattern和Matcher详解

结论:Pattern与Matcher一起合作.Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持. 单独用Pattern只能使用Pattern.matcher(String regex,CharSequence input)一种最基础最简单的匹配。Java正则表达式通过java.util.regex包下的Pattern类与Matcher类实现(建议在阅读本

2016-08-10 10:55:45 300

转载 Lucene分词实现:Analyzer、TokenStream

Lucene分词实现(二次开发流程)1.1  分词流程在Lucene3.0中,对分词主要依靠Analyzer类解析实现。Analyzer内部主要通过TokenStream类实现。Tonkenizer类、TokenFilter类是TokenStream的两个子类。Tokenizer处理单个字符组成的字符流,读取Reader对象中的数据,处理后转换成词汇单元。Tokne

2016-08-10 10:44:02 377

转载 eclipse+maven+mahout :环境搭建+推荐

本文记录了Windows下 Eclipse+Maven+Mahout 单机环境的搭建过程。我不知道这是不是最简单的Mahout开发环境,但它应该算得上是比较简单的。二、安装Eclipse这个没啥说的,再怎么零基础,也要会用Eclipse吧。Eclipse的下载地址为: http://www.eclipse.org/downloads/ ,选择标准版就行。 安装完后运行Eclip

2016-08-04 10:14:27 1871

转载 机器学习(Machine Learning)&深度学习(Deep Learning)资料

《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最

2016-07-29 11:34:28 1555

转载 NLPIR Not valid license or your license expired!

最近发现NLPIR的分词突然无法运行,然后出现下面的错误:    Not valid license or your license expired! Please feel free to contact [email protected]!都说下载最新的,但是我一直以为是从官网(http://ictclas.nlpir.org/)下载。BUT,替换了都不行啊。某一下,我在那个最新

2016-07-29 11:26:46 743

转载 nlpir的使用

NLPIR的下载地址:http://ictclas.nlpir.org/downloadsGitHub的地址:https://github.com/NLPIR-team/NLPIR  两个版本有一些不同,本文将分别讲解如何利用Eclipse建立工程。一、NLPIR官方版本下载后文件夹中bin目录,如下图所示,其中NLPIR_WinDemo.exe

2016-07-29 11:25:57 3192

转载 RapidMiner数据挖掘

1 简介RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL),数据预处理和可视化,建模,评估和部署。数据挖掘的流程是以XML

2016-06-06 15:42:32 3610

转载 mahout源码目录结构(二)

1.mahout的源码实现了两部分:(1)mahout核心源码(2)mahout定制Collections集合工具2.Mahout源码目录说明mahout-core:核心程序模块,位于/core目录下mahout-math:核心程序使用的一些数据通用计算模块,位于/math目录下mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下3.

2016-05-31 12:59:17 385

转载 在Eclipse中创建Maven的Web项目时出现错误:An internal error occurred during: "Retrieving archetypes:"

在Eclipse中创建Maven的Web项目时出现错误:An internal error occurred during: "Retrieving archetypes:".Java heap space,可以通过以下步骤来解决问题。1. 找到Eclipse的根目录下的eclipse.ini文件并打开2.修改文件中的以下配置-Dosgi.requiredJavaVersion

2016-05-30 10:21:06 1210

转载 mahout应用kmeans进行文本聚类——实例分析

输入分析:mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile,而聚类必须是向量格式的,mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceFile文件是一种二制制存储的key-value键值对,http://www.dongt

2016-05-27 11:10:27 2264

转载 Maven那点事儿(Eclipse版)

前言:  由于最近工作学习,总是能碰到Maven的源码。虽然平时工作并不使用Maven,但是为了学习一些源码,还是必须要了解下。这篇文章不是一个全面的Maven解析,而是一个简单的介绍,包括Eclipse中如何使用Maven,如何利用Maven工程学习。  循序渐进,你将会学到下面的知识:  maven的相关书籍!  什么是maven?  如何在eclipse中使用maven?

2016-05-27 11:09:02 289

转载 mahout源码目录说明(转)

mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是程序的主题,存储

2016-05-27 11:07:43 310

转载 eclipse中mahout源码的导入及编译

1、将mahout源码导入到eclipse中:       1)解压mahout源码压缩文件,目录时:E:\EProject\mahout-distribution-0.52)把源码导入eclipse中(eclipse的版本必须是3.6以上的吧,因为我3,5的没有自带maven项目)打开eclipse,点击file->import 在开打的对话框中,选择导入maven项目如下图,然后点

2016-05-27 11:05:57 1432

转载 POM文件详解

POM,Project Object Model,在MAVEN1中叫做project.xml,到maven2后改为pom.xml。该文件用于管理:源代码、配置文件、开发者的信息和角色、问题追踪系统、组织信息、项目授权、项目的url、项目的依赖关系等等。一个maven项目可以没有任何源代码,但必须包含pom文件。  xsi:schemaLocation="http://maven.a

2016-05-26 19:00:03 248

转载 hadoop + mahout 安装配置

最近一直捣鼓Mahout,终于在Hadoop下成功跑起来了。由于涉及的点比较多,这里先记录整理一下,做参考备忘使用。一、操作系统Ubuntu Desktop 13.04 (RaringRingtail)官网地址:http://releases.ubuntu.com/13.04/国内镜像地址:中科大  http://ubuntu1304.cdn.mirrors.ustc.

2016-05-25 20:31:24 967

转载 hadoop命令详解

hadoop命令详解一、用户命令1、archive命令(1).什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文

2016-05-25 14:19:34 336

转载 (转)Mahout使用入门

一、简介Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Ha

2016-05-24 11:35:35 582

转载 hadoop关不掉namenode的解决办法

问题描述部门的Hadoop集群运行有一个多月了,今天需要做点调整,但是突然发现Hadoop不能正常关闭!Hadoop版本:2.6.0具体情况如下:[root@master ~]# stop-dfs.shStopping namenodes on [master]master: no namenode to stopslave2: no datanode to stopsla

2016-05-10 19:24:18 5254 1

第四届蓝桥杯模拟题

题是学校花800元从举办方买来的模拟题难度与真题一样

2013-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除