自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(0)
  • 资源 (201)
  • 收藏
  • 关注

空空如也

基于机器学习的文本分类技术研究进展

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.

2018-07-14

基于核的机器学习方法及其在多用户检测中的应用

阐述了核方法的基本原理与研究动机,分析了特征空间的性质,介绍了常见的核方法,给出了构建新核方法的步骤及需要注意的问题,指出了核方法值得关注的研究方向,展示了其在多用户检测中的应用情况,以其对核方法研究领域有较全面的把握。

2018-07-11

自然语言信息抽取中的机器学习方法研究

信息抽取是一种用于处理各种类型文本文档的非常有效的方法,然而建立一个文本信息抽取系统却是非常困难和耗费时间的。近年来,基于统计的机器学习方法在信息抽取领域的研究受到了广泛关注。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法,比较分析了各种方法的统计推断过程和学习算法及其优缺点,讨论了各种统计学习方法所面临的训练语料匮乏问题的主要解决方法,并指出了今后进一步研究的方向。

2018-07-11

机器学习中的核覆盖算法

基于统计学习理论的支持向量机(SVM)方法在样本空间或特征空间构造最优分类超平面解决了分类器的构造问题,但其本质是二分类的,且核函数中的参数难以确定,计算复杂性高.构造性学习算法根据训练样本构造性地设计分类网络,运行效率高,便于处理多分类问题,但存在所得的分界面零乱、测试计算量大的缺点.该文将SVM中的核函数法与构造性学习的覆盖算法相融合,给出一种新的核覆盖算法.新算法克服了以上两种模型的缺点,具有运算速度快、精度高、鲁棒性强的优点.其次,文中给出风险误差上界与覆盖个数的关系.最后给出实验模拟,模拟结果证明了新方法的优越性.

2018-07-11

基于统计方法的Hive数据仓库查询优化实现

Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.

2018-07-09

大数据时代下数据挖掘技术的应用

大数据时代下,数据挖掘技术越来越受到人们的关注。本文介绍了数据挖掘技术的研究背景和研究现状,论述了决策树、支持向量机、神经网络等数据挖掘技术的相关算法,分析了数据挖掘技术在大数据中的相关应用及未来的发展趋势,探讨了在大数据时代数据挖掘技术面临的挑战。

2018-07-04

大数据环境下数据的查询优化研究

文章以Hbase为数据管理工具,重点研究在HBase上采用分布式处理的方式进行数据查询优化,保证数据查询的反馈时间。研究对海量数据从传统数据库软件迁移到大数据平台上具有重要意义。

2018-07-04

公共安全大数据平台的研究与设计

本文主要针对公共安全领域快速增长的海量数据处理需求,介绍了当前主流的大数据应用平台Hadoop框架,结合公安业务分析了Hadoop框架优势与应用场景,提出了公安大数据平台的建设思路以及RDBMS与Hadoop框架相结合的混合软件体系架构,从而兼顾海量数据的存储处理与OLTP的高实时性需求。

2018-07-04

大数据建模方法与实践

2014年出现的一款名为"榫卯"的APP似乎一夜之间火了起来,达到20天内18万次下载量。"榫卯"进入了大众的视野:这种中国古典木匠工艺,仅仅通过木结构的凹凸结合就可以打造出坚固的结构。在明清之际,大部分宫廷家具做成了半榫、闷榫等暗藏结构,又运用了如竹钉、楔子等一些细小的零件来加固。这些体积微小却发挥着重要作用的零件,加上工匠们代代相传的精妙的制作方法,一起构成了中国传统木建筑之美。如"榫卯"一般,在信息时代,金融机构要在大数据领域有所作为,描绘数据之美,离不开各种分析方法与分析工具。这些方法与工具帮助我们准备分析所需的数据,执行分析算法,展现与评估分析结果。在技术飞跃发展的当下,分析方法与工具的深度与功能性也一直在提高。本期《技术应用》栏目以"大数据分析方法与工具"为专题,从数据建模、文本分析、大数据可视化三个方面阐述我们如何改变方法来构建分析流程,以更好地利用分析工具带来的性能与可扩展性的提升。

2018-07-04

关于云计算平台搭建的探讨

云计算是当前国内外比较热门的研究课题.Hadoop开源实现了谷歌公司的GFS(Google File System),并且成为云计算平台的标准模型,本文在对Hadoop的核心组件HDFS和于项目HBase.Hive深入分析基础上,基于Hadoop+HBase+Hive搭建起云计算平台。经过实验证明云计算平台具有查询速度快和高容错性等特点。

2018-07-04

云海大数据一体机体系结构和关键技术

为了弥补从大数据技术到行业应用之间的鸿沟,针对当前行业用户对大数据处理平台的持续扩展、一体化和多样性需求,提出了大数据一体机的可扩展性、可定制性和多类型处理模型,并基于此设计了云海大数据一体机.该一体机采用兼顾横向和纵向可扩展的体系结构,并采用硬件可定制化设计和混合型软件架构支持多种大数据应用类型.在此基础上,针对HDFS元数据服务瓶颈问题、MapReduce负载倾斜问题、HBase的跨域问题,介绍了在云海大数据一体机中采用的多元数据服务、负载均衡和跨数据中心大表技术.在电信、金融和环保行业实际案例中的应用和测试表明,上述体系结构和关键技术是可行和有效的.

2018-07-04

HBase负载均衡分析及优化策略

HBase作为Hadoop分布式开源云数据库因其高可用性等优势越来越受到青睐,但是随着大量数据的注入,HBase对负载的分配状况将直接影响到整个集群的性能优劣.针对原有负载均衡算法在负载分配过程中可能产生的负载严重不均衡问题,通过分析原有算法和问题出现的因素,提出一种基于子表限制的负载均衡改进方法,并通过与不均衡状况下的对比实验,验证改进后的分配方式可以有效利用集群中各个节点的资源,从而提高分布式集群性能.

2018-07-04

基于HBase数据分类的压缩策略选择方法

为解决现有的HBase数据压缩策略选择方法未考虑数据的冷热性,以及在选择过程中存在片面性和不可靠性的缺陷,提出了基于HBase数据分类的压缩策略选择方法。依据数据文件的访问频度将HBase数据划分为冷热数据,并限定具体的访问级别;在此基础上增加评估层,综合考虑基于相邻区和统计列的选择方法,提出基于数据访问级别的压缩策略选择方法。仿真实验及结果表明,提出的压缩策略选择方法不仅节省了存储空间,还大大提高了数据查询的性能。

2018-07-04

面向HBase的大规模数据加载研究

分布式数据库HBase在大规模数据加载中较传统关系型数据库有较大的优势但也存在很大的优化空间.基于Hadoop分布式平台搭建HBase环境,并优化自定义数据加载算法.首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活性方面存在不足;进而,提出了自定义并行数据加载算法,并针对集群进行优化.实验结果表明,优化后的自定义并行数据加载方式能充分发挥集群性能,具有较好的加载效率和数据操作能力.

2018-07-04

基于Hbase的大数据查询优化

Hbase有着先天的优势和先天的劣势,而劣势就是其较差的数据定位能力,也就是数据查询能力。因为面向列的特点,Hbase只能单单地以rowkey为主键作查询,而无法对表进行多维查询和join操作,并且查询通常都是全表扫描,耗费资源较大,查询效率较低。类比于传统型数据库里的一些查询方式,本文对Hbase的存储原理进行了研究,借助分布式计算框架Mapreduce在Hbase上构建了二级索引,就可以对表进行有针对性的定位和高效率的查找,同时也减轻zookeeper服务对资源调度的压力。

2018-07-04

基于HBase和SimHash的大数据K-近邻算法简

针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和Sim Hash的大数据K-近邻分类算法。利用Sim Hash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。

2018-07-04

基于Hadoop的海量学习资源云存储模型设计研究

由于多媒体技术不断发展,学习资源呈爆炸式增长,给资源存储提出了新的挑战。Hadoop平台对小文件的存储和访问存在内存消耗高、存储空间浪费等问题。针对这种情况,分析学习资源的特点,设计两级Hadoop模式,优化学习资源存储策略,提出基于多层次Hadoop的学习资源云存储模型。并在实验室环境下搭建存储模型,对多类型的学习资源文件进行存储测试分析。分析结果表明,模型在存储空间、内存消耗和存储效率上较传统Hadoop模型有着明显的改善,适合海量学习资源的存储需求。

2018-07-03

基于关联规则挖掘的分布式小文件存储方法

Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。

2018-07-03

基于R和Hadoop的大规模数据主成分分析

R软件具有强大的统计分析功能,Hadoop平台能够存储和处理TB级别以上的大规模数据,将R与Hadoop相结合,在目前阶段是一种比较好的处理分析大规模数据的方案。本文利用RHadoop项目中的rhdfs和rmr2两个包,以及Map Reduce编程模型,设计出能够针对大规模数据进行主成分分析的函数,并对纽约股票市场部分股票价格数据进行主成分分析,以验证其可行性。

2018-07-03

一种基于MapReduce高效K-means并行算法

针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高采样效率;采用基于样本预处理策略获取初始中心点;使用权值替换策略对迭代中心进行更新;此外,通过调整Hadoop集群,对算法的运行效率作出进一步提升.实验结果表明,该算法不仅具有良好的收敛性、准确率、加速比,算法性能也得到进一步改善.

2018-07-03

一种基于Hadoop的集群资源访问异常检测方法

针对分布式平台资源利用的特征,在集群局部资源利用密度异常情况检测技术的基础上,引入时间序列的检测方法,提出了一种对集群资源利用率呈现缓慢增长的异常情况进行检测的算法。最后通过某高校基于Hadoop服务器集群采集到的数据进行异常检测,验证了提出的基于最近邻结点资源异常检测方法的准确率和可行性。

2018-07-03

基于Hadoop大数据平台和无简并高维离散超混沌系统的加密

针对目前大数据环境中存在的数据安全问题,提出一种基于Hadoop大数据平台和无简并高维离散超混沌系统的加密算法.算法采用流密码对称加密方式,在Hadoop平台上读取存储于HDFS(Hadoop distributed file system)的大数据,进行分片处理和MapReduce编程后,用Map函数实现数据并行加密和解密,通过Reduce函数实现数据的合并操作并存储于HDFS.该算法具有较好的执行效率.与正李氏指数发生简并的低维混沌系统相比,无简并高维离散超混沌加密算法能提高系统安全性能,李氏指数均为正并且足够大,具有更好的统计特性,可通过严格的TESTU01测试,并行加密的密文之间互相关

2018-07-03

Hadoop平台在大数据处理中的应用研究

介绍Hadoop平台的基本概念,着重分析其中的HDFS和MapReduce这两种核心技术。详细描述Hadoop集群环境的搭建过程,将Hadoop应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。实验结果表明,数据量越大,集群节点数越多,Hadoop集群处理数据的能力就越强。

2018-07-03

基于Hadoop的并行共享决策树挖掘算法研究

共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物。针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT)。该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT)。该算法采用混合数据结构,在计算分裂指标阶段使用属性表结构,在分裂阶段采用数据记录结构。数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是PSDT的0.34左右。实验结果表明,PSDT和HPSDT都具有良好的并行性和扩展性;HPSDT比PSDT性能更好,并且随着数据集的增大,HPSDT的优越性更加明显。

2018-07-03

一种改进的Hadoop数据负载均衡算法

在介绍Hadoop,HDFS的原理的基础上,分析了Hadoop的数据负载均衡算法.Hadoop负载均衡算法只是根据空间使用率对各个结点的负载进行均衡,这种均衡方法没有考虑结点的处理能力、带宽、文件访问频度等因素,因此,造成了基本相同的文件的响应时间存在很大的差别.提出了一种改进的负载均衡的模型,该模型综合了文件大小、文件并发访问时间、文件访问频度、结点的处理能力、带宽、结点的可用存储空间等因素进行负载均衡.试验结果表明,改进模型不仅实现了存储空间的负载均衡,而且使得同类文件的响应时间更一致.

2018-07-03

Hadoop环境下的分布式协同过滤算法设计与实现

以开源项目Hadoop为实验平台,论证传统协同过滤算法无法适应云平台;从相似度和预测偏好两方面,借鉴共词分析法,将传统协同过滤算法改进为适应Hadoop平台的分布式协同过滤算法;实现顺序组合式MapRe-duce协同过滤任务,并做进一步实验分析。

2018-07-03

一种基于Hadoop的语义大数据分布式推理框架

随着语义万维网(sematic Web)和关联数据集项目(linked data project)的不断发展,各领域的语义数据正在大规模扩增.同时,这些大规模语义数据之间存在着复杂的语义关联性,这些关联信息的挖掘对于研究者来说有着重要的意义.为解决传统推理引擎在进行大规模语义数据推理时存在的计算性能和可扩展性不足等问题,提出了一种基于Hadoop的语义大数据分布式推理框架,并且设计了相应的基于属性链(property chain)的原型推理系统来高效地发现海量语义数据中潜在的有价值的信息.实验主要关注于医疗和生命科学领域各本体之间的语义关联发现,实验结果表明,该推理系统取得了良好的性能———扩展性以及准确性.

2018-07-03

基于Hadoop生态系统的大数据解决方案综述

一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题。对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点。可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案。

2018-07-03

基于Hadoop的海量数据存储平台设计与开发

随着北部湾海洋生态资源的开发和利用,海量海洋科学数据飞速涌现出来,利用海量数据存储平台合理管理和存储这些科学数据显得极为重要.这里提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台.系统由五大模块组成,有系统管理模块、并行加载存储模块、并行查询模块、数据字典模块、备份恢复模块,能够实现存储海量海洋科学数据.系统模块实现结果表明,该系统安全可靠、易维护、具有良好的可扩展性.

2018-07-02

基于并行计算的文本分类技术

针对传统文本分类方法对于海量数据分类速度慢精度差等问题,将并行计算应用到文本分类领域,设计了一套基于MapReduce的并行化文本分类框架,结合Bagging算法思想提出了支持向量机的并行训练方法,并在Hadoop云计算平台上进行了实验,实验结果表明该分类方法具有较快的分类速度和较高的分类精度。

2018-06-30

云环境下基于衰减因子网格的Skyline查询

为了解决云环境下对于海量数据的Skyline查询,提出了在Map-Reduce框架下基于衰减因子网格Skyline查询(SQBDFG)算法,该算法通过衰减式的网格进行区域划分,利用网格间的统治关系进行快速过滤,达到减少传输开销的目的,并针对网格的衰减速度会影响实际查询性能进行进一步优化.首先提出网格的最大剪枝空间和最大剪枝效率两个概念,然后从理论上证明了采用衰减式网格在处理海量数据的Skyline查询时在这两方面具有明显的优势.最后通过Hadoop分布式集群上的大量实验,在Skyline查询时间和数据I/O开销两个方面进行对比,证明了提出的SQBDFG算法具有良好的有效性和实用性.

2018-06-30

基于Hadoop与Spark的大数据处理平台的构建研究

随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spark框架与MapReduce类似,也是一个分布式计算平台.而相比于MapReduce,Spark的速度更快且提供的功能更丰富.Spark只是一个计算平台,本身并没有提供分布式存储和管理,Spark的计算依赖于Hadoop生态系统中的分布式文件系统HDFS,以及集群资源管理器Hadoop Yarn.因此将Spark与Hadoop相结合来构建大数据处理平台,可提高算法运行效率和处理规模.本研究搭建了Hadoop集群和Spark集群,完成了大数据处理平台的构建.最后在搭建好的集群上运行了实现单词词频统计的Word Count程序,验证了大数据处理平台搭建的成功.

2018-06-29

面向大数据的超混沌和AES混合加密方法研究

针对大数据环境中的隐私保护及数据安全问题,综合运用混沌密码和AES算法的优点,提出一种面向大数据的超混沌和AES混合加密方法。利用两个超混沌系统产生的混沌序列,设计一个超混沌分组加密方案;基于Hadoop大数据平台的MapReduce并行编程模型,设计超混沌和AES级联加密的算法。实验结果表明,算法具有密钥空间大,执行效率高,密文统计特性及密钥敏感性良好的特点。

2018-06-29

大数据分析平台Hadoop的关键技术

本文着重研究了基于Hadoop平台大数据的分析技术的发展和功能模块的应用,对关键技术进行比较分析,将整体结构框架进行改良,使数据分析平台在不受场景限制的前提下进行使用。

2018-06-29

基于Hadoop的空间科学大数据的区域检索算法

针对空间科学大数据的快速检索需求,提出了分布式区域检索算法。算法主要包括四维空间科学数据的索引方法和分布式四维空间科学数据的索引架构两部分。在KTS存储结构下,通过基于立方体的Block-Grid三维网格剖分方法建立两级空间索引结构,包括分布式节点间的全局索引和分布式节点内的局部索引;在分布式系统架构下,确定了索引在分布式主从节点的分布策略以及数据在分布式环境下的容错机制。基于Hadoop基础架构设计了NSSC-Hadoop系统,通过多组试验数据测试算法效率,并与直接基于Hadoop无索引遍历数据方式相比较,数据检索效率提高了将近50倍,随着数据量的增大,算法优势会更加明显。

2018-06-29

基于云计算的Web数据挖掘Hadoop仿真平台研究

自2007年以来,随着云计算被广泛的应用到互联网,大量的服务器终端数据如何有效的组织,以便稳定、高效的运行已成为当前亟待解决的问题,基于云计算的web数据挖掘Hadoop仿真平台能够较快速的通过相关的网络结构,解决服务器地域分布较为分散,数据流量大等网络关键难题,最终实现仿真运算,从而提高网络平台的性能,最终达到云计算环境下的高速分布式计算的目标。

2018-06-29

基于Hadoop的分布式聚类算法研究

基于工业领域广泛用到的Hadoop分布式计算平台,使用Canopy+K-means算法对手写数字进行聚类研究.针对传统Canopy算法初始阈值的确定问题,引入"最大最小化原则"确定初始阈值,计算得到K-means算法所需的初始聚类中心点.实验结果表明,Canopy算法能够较大程度地提高K-means算法的正确率.

2018-06-29

自适应布谷鸟搜索的并行K-means聚类算法

针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:a)聚类的平均准确率在实验所采用的四种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;b)聚类的平均运行效率在实验所采用的五种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。

2018-06-29

Hadoop集群中影响应用性能的因素分析

针对Hadoop集群中应用执行的低效率、高成本问题,首先,通过对Hadoop分布式存储技术和并行编程模型的分析,发现数据集采用单文件还是多文件方式,以及数据块划分的大小是影响其性能的主要因素.其次,设计实验探讨了不同规模集群环境下,两类数据集以及不同大小的数据块对应用性能的影响程度.最后,综合实验结果发现,在数据量一定的情况下,随着数据块的增大,map任务数的变化导致大文件数据集的执行效率越来越高于小文件数据集的执行效率;另外,两类数据集在小规模集群(1个Slave)上的执行效率大约均是大规模集群(10个Slave)下的2倍.故此,在Hadoop集群环境中为了提高应用性能,应通过增大数据块等方法来减少map任务数,而不应盲目增大集群规模.该结论可对Hadoop集群环境下应用效率的优化提供参考.

2018-06-29

Hadoop云平台下基于HOG特征和Adaboost分类器的快速行人检测算法

行人检测在安保领域、无人驾驶领域、机器视觉领域以及多媒体分析领域等具有广泛的应用;针对目前行人检测技术运算量大、实时性差等不足,提出了一种Hadoop云平台下基于梯度直方图(HOG)特征和Adaboost算法的快速行人检测方法;该方法首先利用云计算模式提取图片的HOG特征,然后利用PCA方法对提取特征降维,最后使用Adaboost算法构建分类器对降维特征进行分类;利用不同场景照片对本文方法进行实验,仿真结果表明,在保持较高检测准确度前提下,采用Hadoop云计算的检测速度比传统的基于HOG特征行人检测算法提高将近五倍,有效提高检测算法的实时性。

2018-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除