攻城的蒂巴格-CSDN博客

转载 HDFS数据存储和删除

HDFS中的数据都是分块存储的，默认块大小为64M，这个值可以从hdfs配置文件中更改dfs.blocksize。这样分快处理的好处是可以增加读取数据的吞吐量，因为可以同时从读取文件的不同分块。一、数据写入在客户端想HDFS写数据的过程中，主要分为下面几个过程：客户端将数据缓存到本地的一个临时文件中；当这个本地的临时文件到达HDFS中的块大小限制时，客户端访问Namenod

2016-11-10 17:17:10 7120

原创 org.apache.hadoop.ipc.RemoteException(java.io.IOException)

[hadoop@master sbin]$ hdfs dfs -mkdir -p /user/oracle/input16/11/08 09:53:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where app

2016-11-08 16:45:34 8143 2

原创 CentOS7集群相互免登录

1、每台机器上执行ssh-keygen2、每台机器ssh-copy-id -i ~/.ssh/id_rsa.pub root@(集群中所有机器ip或host)3、service sshd restart4、测试

2016-11-01 19:46:19 854

原创 Building the main Guest Additions module

用VirtualBox下安装CentOS-7，结果一大堆的问题，这个问题还是最头疼，原因CenOS系统搭建完成后，不能全屏显示，就下载增强包安装，安装的时候一直报错：building the main guest additions module[失败]yum install kernel-headersyum install kernel-develyum install gcc

2016-10-31 18:17:37 753

原创 storm trident api

一、概述 Storm Trident中的核心数据模型就是“Stream”，也就是说，Storm Trident处理的是Stream，但是实际上Stream是被成批处理的，Stream被切分成一个个的Batch分布到集群中，所有应用在Stream上的函数最终会应用到每个节点的Batch中，实现并行计算，具体如下图所示：在Trident中有五种操作类型：

2016-10-28 10:03:29 819

原创 storm从入门到精通第七节 wordcount

4.0.0 com.storm storm-example 0.0.1-SNAPSHOT storm-example UFT-8 org.apache.storm storm-core 1.0.2 maven-assembly-plugin

2016-10-27 14:26:58 997

转载 Storm Trident state 原理

Trident在读写有状态的数据源方面是有着一流的抽象封装的。状态即可以保留在topology的内部，比如说内存和HDFS，也可以放到外部存储当中，比如说Memcached或者Cassandra。这些都是使用同一套Trident API。Trident以一种容错的方式来管理状态以至于当你在更新状态的时候你不需要去考虑错误以及重试的情况。这种保证每个消息被处理有且只有一次的原理会让你更放心的

2016-10-26 16:03:57 676

Trident 是 Storm 的一种高度抽象的实时计算模型，它可以将高吞吐量（每秒百万级）数据输入、有状态的流式处理与低延时的分布式查询无缝结合起来。如果你了解 Pig 或者 Cascading 这样的高级批处理工具，你就会发现他们和 Trident 的概念非常相似。Trident 同样有联结（join）、聚合（aggregation）、分组（grouping）、函数（function）以及过滤

2016-10-25 12:03:28 546

原创 python从入门到精通第三节字符串

字符串常用方法find查找子串位置，返回子串所在位置最左端的索引值，如果有多处匹配，返回第一次匹配的字串位置，没有找到返回-1:>>> "我是中国人，我是一名python程序员。".find("python")10>>> 起始参数：join语法： 'sep'.join(seq)参数说明： sep：分隔符。可以为空 seq：要连接的元素序

2016-10-21 17:26:33 551

原创 python从入门到精通第二节列表和元组

fsdfsdfsdf

2016-10-21 15:36:25 387

转载 python从入门到精通第一节数据类型

目录1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期1、字符串1.1、如何在Python中使用字符串a、使用单引号(')用单引号括起来表示字符串，例如：str='this is string';print str;b、使用双引号(")双引号中的字符串与单引号中的字符串用法完全相同，例如：

2016-10-19 10:01:33 916

原创 storm从入门到精通第四节拓扑的并发

一个运行中的拓扑是由什么组成的：worker（jvm进程），executors和tasks。Storm是按照下面3种主要的部分来区分Storm集群中一个实际运行的拓扑的： Worker进程 Executors (线程) Tasks下图简单的展示了它们的关系：配置拓扑的并发度注意Storm的术语"并发度(paralleli

2016-10-18 14:08:44 611

原创 storm从入门到精通第三节 storm消息机制

主要内容 storm有一个很重要的消息机制---确保spout发出的每个消息都会被完整的处理,本节将阐述storm是如何保证消息完整性和可靠性。看官网怎么说：Storm offers several different levels of guaranteed message processing, includeing best effort, at least once,

2016-10-17 19:56:18 1700

原创 storm从入门到精通第二节基础知识讲解

主要内容 Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers Configurationstorm集群架构Nimbus和Supervisor的关系就是传统的主从关系，它们单独都可以做成集群

2016-10-17 19:27:04 831

原创类和对象

object Students { var name:String = null var age:Int = 0;}编译成class文件：import scala.reflect.ScalaSignature;public final class Students{ static void age_$eq(int paramInt) { Students..M

2016-10-14 13:58:10 400

转载高阶函数

摘要: Scala中的函数作为一等公民，即第一类函数(first-class function)。作为一门函数式编程(FP，Functional Programming)语言，Scala鼓励EOP编程(Expression-Oriented Programming)，为了简化输入，在EOP中，所有表达式都是函数式值(Functional Values)返回。Scala 是一种函数式编程

2016-10-13 19:24:01 717

原创第四节函数和闭包

函数scala中的函数和Java中方法的概念是一样的，就是要将程序分成若干段可以个职其责任。看一个scala简单的函数：object FunctionTest { def testPro(name:String,age:Int): Unit ={ println(name+":"+"age"); } def main(args: Array[String]): U

2016-10-13 11:55:52 477

转载 Set、Map、Tuple、队列操作实战

本节主要内容mutable、immutable集合Set操作实战Map操作实战Tuple操作实战队列操作实战栈操作实战mutable、immutable集合以下内容来源于Scala官方文档： http://www.scala-lang.org/docu/files/collections-api/collections.htmlScala collections s

2016-10-12 18:42:44 1739

原创 Array、List的定义和操作

定义数组scala> val numberArray=new Array[Int](10)numberArray: Array[Int] = Array(0, 0, 0, 0, 0, 0, 0, 0, 0, 0)//定义一个长度为10的String类型数组scala> val strArray=new Array[String](10)strArray: Array[String] =

2016-10-11 14:20:05 3563

原创 scala程序控制结构

在Java中能使用if else等语句自如控制程序的流向，在sacala中又是如何控制的呢？

2016-10-10 10:09:05 659

原创 scala数据类型

和java的数据类型类似，scala中的数据类型都是以大写开头。不仅仅数据类型和Java类型，就连数据类型操作，都差不多，最大的区别就是写法的不同，但是对于有Java基础的同学，应该会在看到一段表达式以后，能立刻猜出代码的意图，因此这里就不错赘述了。直接讲讲scala好玩的写法。

2016-10-10 09:54:01 1153

原创 spark学习笔记（5）WordCount for Spark

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import java.util.Arrays;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i

2016-09-30 11:34:28 802

原创 spark学习笔记（4）IntelliJ IDEA搭建Spark开发环境

基于IntelliJ IDEA开发Spark的Maven项目——Scala语言1、Maven管理项目在JavaEE普遍使用，开发Spark项目也不例外，而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目，本文采用的工具是IntelliJ IDEA 2016，IDEA工具越来越被大家认可，开发Java, Python ,scala

2016-09-29 14:36:47 12204 3

原创 Intellij Idea

最近迷上大数据，打算搭建spark环境，据说Intellj IDEA可以完美驾驭，那就试试吧。编程的道路上每一个微不足道的Hello World都让我兴奋。

2016-09-28 19:17:02 544

转载 IntelliJ IDEA 常用设置讲解

说明IntelliJ IDEA 有很多人性化的设置我们必须单独拿出来讲解，也因为这些人性化的设置让我们这些 IntelliJ IDEA 死忠粉更加死心塌地使用它和分享它。常用设置IntelliJ IDEA 的代码提示和补充功能有一个特性：区分大小写。如上图标注 1 所示，默认就是 First letter 区分大小写的。区分大小写的情况是这样的：比如我们在 Java 代码文

2016-09-28 17:23:04 1476 2

原创 Ubuntu16.04下Java环境安装与配置

1、下载jdk。2、验证java是否安装，使用java -version命令，如下图所示说明没有安装：3、在usr目录中创建一个jdk-8目录，如下图所示：4、配置系统环境变量，编辑/etc/profile文件，在文件的末尾添加一下信息：export JAVA_HOME=/usr/jdk1.8.0_101expor

2016-09-28 16:16:40 88108

转载多线程面试题整理汇总

作为一名优秀的JAVA程序员多线程永远都是面试官爱问的问题，接下来一段时间准备好好整理一下。在典型的Java面试中，面试官会从线程的基本概念问起, 如：为什么你需要使用线程，如何创建线程，用什么方式创建线程比较好（比如：继承thread类还是调用Runnable接口），然后逐渐问到并发问题像在Java并发编程的过程中遇到了什么挑战，Java内存模型，JDK1.5引入了哪些更高阶的并

2016-09-27 17:47:28 1434

转载 Ubuntu16.04 全屏

vmware虚拟机显示屏幕太小的问题可以通过安装"VMware Tool"来解决，安装该插件后，你就可以根据自身需要自由切换显示屏幕的尺寸，还可以和本机进行相互间的拷贝操作，这里以vSphere Client中的VM虚拟机Ubuntu为例，逐步讲解“VMware Too”的安装流程。1. VM菜单栏中选择安装VMware Tool1点击V

2016-09-27 17:45:00 9042

原创 spark学习笔记（2）spark基本概念和术语解释

在学习大数据一些常用的概念或术语还是要理解和掌握的，这对解析的学习是很帮助。这也是我最近发现的，在接下来的大数据学习中，我将把这一块的知识点提到前面来。1、spark三种部署方式：standalone、spark on mesos、spark on yarn2、Master主控节点、Worker工作节点、客户端节点；（1）其中Master主控节点，顾名思义，类似于领导者，在整个集群中

2016-09-27 16:17:05 1442

原创 spark学习笔记（3）spark核心数据结构RDD

RDD是什么RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。（1）传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点

2016-09-27 15:02:14 3687

原创 spark学习笔记（1）初来乍到

spark的诞生随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。spark是基于map reduce算法实现的分布式计算框架。和Hadoop MapReduce类似，但是spark的诞生解决在Hadoop在计算速度上的劣势。spark的数据可以保存在内存上，而不是读

2016-09-27 11:31:22 803

原创 hadoop运行的幕后角色

Hadoop这头大象奔跑起来，需要在集群中运行一系列后台(deamon）程序。不同的后台程序扮演不用的角色，这些角色由NameNode、DataNode、 Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上，而在每个Slave节点上，部署一个Data

2016-09-19 17:40:01 1801

原创 Map-Reduce数据流(data flow)

Map-Reduce的处理过程主要涉及以下四个部分：客户端Client：用于提交Map-reduce任务jobJobTracker：协调整个job的运行，其为一个Java进程，其main class为JobTrackerTaskTracker：运行此job的task，处理input split，其为一个Java进程，其main class为TaskTrackerHDFS：hadoop分布式

2016-09-14 15:00:14 860

转载 HDFS学习笔记（8）mapreduce原理

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+004301

2016-09-14 11:53:37 716

转载 HDFS学习笔记（7）mapreduce

1、hadoop是一种分布式系统的平台，通过它可以很轻松的搭建一个高效、高质量的分布系统，而且它还有许多其它的相关子项目，也就是对它的功能的极大扩充，包括Zookeeper,Hive,Hbase等。2、MapReduce是hadoop的核心组件之一，hadoop要分布式包括两部分，一是分布式文件系统hdfs,一部是分布式计算框，就是mapreduce,缺一不可，也就是说，可以通过mapre

2016-09-13 16:27:22 566

原创 HDFS学习笔记（6）AVRO

一、引言1、简介Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集

2016-09-13 14:14:49 2672

转载 HDFS学习笔记（5）IO读写操作之数据压缩

Hadoop 作为一个较通用的海量数据处理平台，每次运算都会需要处理大量数据，我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率，提高数据在磁盘和网络中的传输速度，从而提高系统处理数据的效率。在使用压缩方式方面，主要考虑压缩速度和压缩文件的可分割性。综合所述，使用压缩的优点如下：1. 节省数据占用的磁盘空间；2. 加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度。

2016-09-13 13:51:37 3808 1

原创 HDFS学习笔记（4）IO读写操作之checksum

Datanode在把数据实际存储之前会验证数据的校验和（checksum的初始值？）。client通过pipeline把数据写入datanode. 最后一个datanode会负责检查校验和。当client从datanode读取数据时,也会检查校验和:把真实数据的校验和同datanode上的校验和进行比较。每个datanode都保存有一个checksum验证的持久化日志，日志中有当前datano

2016-09-13 11:59:50 1941

转载 HDFS学习笔记（3）HDFS数据流读写

一、数据流读取Configuration conf = newConfiguration();FileSystem fs = FileSystem.get(conf);FSDataInputStream in = fs.open(new Path(uri));步骤如下：1、客户端调用FileSystem的get()方法得到一个实例

2016-09-08 17:42:21 812

转载 HDFS学习笔记（1）认识HDFS

哦请问恶气我

2016-09-08 12:02:48 856

jquery打印控件

spring ibatis整合模板

中国移动账务管理系统

新闻发布系统(Java)

空空如也