郑家小组-CSDN博客

转载解决ActivityGroup的sub Activity中spinner的WindowManager$BadTokenException的问题

在ActivityGroup的sub activity中直接使用Spinner会遇到下面的异常信息： ERROR/AndroidRuntime(964): FATAL EXCEPTION: main ERROR/AndroidRuntime(964):android.view.WindowManager$BadTokenException: Unable to add window -

2013-11-26 23:07:32 964

原创可视化界面设计js库

http://nvd3.org/ghpages/examples.html这个类库基于知名的D3.js类库。目地在于帮助你创建可重用的d3.js图表和图表组件而不降低d3.js的强大功能。这个类库非常新，拥有的组件和图表不是很多，但是可以帮助你轻松的管理和自定义图表，而不必自己去构建所有的开发细节。支持的图形包括：线状图，柱状图，气泡图，区域图及其组合图等。支持所有主流

2013-04-27 15:09:49 1649

原创配置hbase出错

13/03/18 17:43:30 FATAL conf.Configuration: error parsing conf file: com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: 2 ▒ֽڵ▒ UTF-8 ▒▒▒е▒▒ֽ▒ 2 ▒▒Ч▒▒Exception in thread "main

2013-03-18 21:08:47 9004

原创运用hadoop计算TF-IDF续-支持中文读取-支持文件输出控制

jackydai987在文章《运用hadoop计算TF-IDF》（http://blog.csdn.net/jackydai987/article/details/6303459）提到了TF-IDF的计算，但是留下几个问题：1、输出的文件控制2、对中文字符的处理为此本文做如下改进：请参见《Hadoop的MapReduce中多文件输出》http://blo

2013-01-31 17:23:56 1871 1

原创 Mapreduce中文处理策略

hadoop源代码中涉及编码问题时都是写死的utf-8，但是不少情况下，也会遇到输入文件和输出文件需要GBK编码的情况。GBK编码文件的输入：（1）输入文件为GBK，则只需在mapper或reducer程序中读取Text时，进行一下转码，以确保都是以UTF-8的编码方式在运行。// 转码 Text newText = transformTextToUTF8(valu

2013-01-30 17:22:24 1450

转载介绍一个Mapreduce资料的blog

MapReduce 程序是设计用来并行计算大规模海量数据的，这需要把工作流分划到大量的机器上去，如果组件(component)之间可以任意的共享数据，那这个模型就没法扩展到大规模集群上去了（数百或数千个节点），用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。-------------------------------------------------

2013-01-30 11:24:36 3304

原创 Mapreduce中Combiner的使用及误区

问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做

2013-01-22 11:18:50 31237 5

转载 Hadoop中文件读写(Java)

前言在本文档中，你将了解到如何用Java接口读写Hadoop分布式系统中的文件，以及编码的转换等问题。其中有些细节，在你不知道的时候，是非常容易出错的。这边读写文件分以下三种情况：1. 在非Map Reduce过程中读写分布式文件系统中的文件比如说，你想自己遍历一个文件，想截断一个文件，都属于这种方式。一般该过程发生在run函数中，程序员处理Map Reduce产生的中间

2013-01-22 10:49:12 6751

原创 Mapreduce之间的参数传递

对于复杂的数据可以考虑把数据保存的公共的结点，然后在map'的setup方法中去读取这个文件，从而获得共享的数据，而对于简单的数据可以用conf进行传递。在驱动函数里面Configuration conf2=getConf();conf2.set("temp", String.valueOf(123));Job job2 = new Job(conf2, "Idf"

2013-01-21 16:45:20 6498 3

原创 Hadoop程序调试简易办法

基于Eclipse环境下进行mapreduce编程时最大的问题是调试问题，网上有很多的办法，但是都比较复杂，如果对于要测试数据是否准确，一条最简单的办法是采用System.exit(n)而n是你要测试的数据。只需要在使用了n语句后面写一条System.exit(n)如果，系统运行报错的话，则可以看到n是否你想要值。欢迎大家提供更多更简洁的方法来调试候程序。

2013-01-21 15:44:34 872

原创 Mapreduce的输入输出

1 读取reduce的输出在reduce输出中，key和value之间的间隔符是"\t"而不是空格，这个要注意。也就是如果是多个job，第二个要读取第一个job的输出，则采用下面的语句： String[] tokens = value.toString().split("\t");从而区分出，上一个reduce的key和value部分

2013-01-21 15:18:37 763

转载流式计算系统

文/杨栋本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统，希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。背景非实时计算几乎都基于MapReduce计算框架，但MapReduce并不是万能的。对于搜索应用环境中的某些现实问题，MapReduce并不能很好地解决问题。商用搜索引擎，像

2013-01-15 09:51:53 5685 1

原创当代孩子的自由

很多孩子，甚至很多到了青春期的孩子，对于他人情绪的识别能力几乎为零。他们不是不为他人着想，而是根本没有能力替他人着想，因为他们根本就不知道他人在“想”什么。话说人有两套评价系统，一套是自身所带的，一套是外界给的，那么二者比例究竟该如何把握呢？怎么样才叫把生活还给孩子自己，又怎样叫保持住孩子本来应该有的样子？西方的教育界在我们的印象里，是非常尊重孩子的“自由”的。仿佛孩子们在

2013-01-08 13:29:23 908

转载 HaLoop——适用于迭代计算的Hadoop

文章连接（VLDB‘2010）该文章提出了对Hadoop的修改，使之能够适用于迭代计算，将原生的Hadoop中每一个job中一个map-reduce对改成多个map-reduce对，这样job就可以复用（如果不复用，每一个job完成之后都会把reduce的结果写进Hdfs文件，同时启动新的job时会从Hdfs中读文件，造成I/O压力），实现了在job内就可以控制迭代，同时由于迭代计算本身的

2013-01-07 13:22:48 1363

转载 Twister

MapReduce programming model has simplified the implementations of many data parallel applications. The simplicity of the programming model and the quality of services provided by many implementations

2013-01-07 13:19:54 1333

原创 Mapreduce常见数据挖掘算法集收集

1. Map/Reduce方式实现矩阵相乘http://www.norstad.org/matrix-multiply/index.html2. Map/Reduce方式实现PageRank算法http://blog.ring.idv.tw/comment.ser?i=369http://code.google.com/p/map-reduce-assign

2013-01-07 10:54:51 5873

原创 hadoop碎片

MapReduce调度性能的三个主要因素：本地化、同步开销及公平性约束。

2013-01-06 16:15:12 629

转载三种流式计算系统--MapReduce Hold不住？

本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统，希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。背景杨栋百度分布式高级研发工程师，从事Hypertable、Hadoop及流式计算的研究和开发。非实时计算几乎都基于MapReduce计算框架，但M

2013-01-06 16:12:53 2062

原创数据密集、计算密集、IO密集，hadoop如何应对？

I/O bound(I/O密集型)I/O bound 指的是系统的CPU效能相对硬盘/内存的效能要好很多，此时，系统运作，大部分的状况是 CPU 在等 I/O (硬盘/内存) 的读/写，此时 CPU Loading 不高。计算密集型 (CPU-bound) 也有人认为是Compute-IntensiveCPU bound 指的是系统的硬盘/内存效能相对 CPU 的

2013-01-06 16:08:15 12852

转载分析数据获得：新浪微博兴趣圈自动挖掘

【IT168 技术】一.为何要在大规模SNS中挖掘兴趣圈子　　随着国外的facebook、twitter以及国内的人人、新浪微博等SNS及内容分享平台的逐步流行，如何从上亿的海量用户中自动挖掘兴趣圈子成为了一个有趣也非常必要的工作。所谓“兴趣圈子”，指的是在同一分享平台下，有着共同的兴趣爱好的用户群体，比如新浪微博里哪些用户是对云计算感兴趣的?他们是否形成了一个密切交互的圈子?对这些信

2013-01-05 14:09:49 1872

转载数据挖掘分类技术

1、过分拟合问题：造成原因有：（1）噪声造成的过分拟合（因为它拟合了误标记的训练记录，导致了对检验集中记录的误分类）；（2）根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。（由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会产生这样的模型，当决策树的叶节点没有足够的代表性样本时，很可能做出错误的预测）（3）多重比较也可能会导致过分

2013-01-05 14:04:41 10158

转载面向ad-hoc查询的实时SQL分析系统

Impala/Hive现状分析与前景展望Impala和Hive野史提到Impala就不得不提Google的Dremel，处理PB级数据规模的基于SQL的交互式、实时数据分析系统。Dremel是Google推出的PaaS数据分析服务BigQuery的后台。Google已经有了MapReduce，为什么还要开发Dremel呢？Dremel/Impala类系统和MapReduce有什

2013-01-05 11:08:42 14216 1

转载基于hadoop的海量数据挖掘的开源解决方案

一套基于hadoop的海量数据挖掘的开源解决方案. BI系统:Pentahopentaho是开源的BI系统中做得算顶尖的了.提供的核心功能如下: 报表功能: 可视化(client, web)的报表设计. 分析功能: 可以生成分析视图，作数据作动态分析. Dashboard功能: 可以定制动态图表(image/flash)页面. 调度功能:

2013-01-05 08:57:20 7571

转载 MapReduce和并行数据库，朋友还是敌人？

在2010年1月的ACM上，有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》，另一篇文章是Michael Stonebraker、Daniel Abadi、David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexander

2013-01-05 08:53:16 1109

guoery的大数据