自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

唤不醒的梦

纵使困顿难行 亦当砥砺奋进

  • 博客(25)
  • 收藏
  • 关注

原创 Flink Checkpointing

flink中每个function和operator都可以状态化,具有可状态化的元素,可以再处理数据过程中进行数据存储,参与数据的容错。启用和配置检查点flink程序中,默认关闭Checkpointin。如果想启用Checkpointing,可通过StreamExecutionEnvironment.enableCheckpointing(n),n为毫秒,表示进行checkpoint间隔时间。(未完待续。。。)...

2020-11-05 16:56:19 425

原创 Broadcast State模式

在flink中,大多数state只作用于各自的算子,算子间不能共用state,BroadcastProcessFunction和KeyedBroadcastProcessFunction则作用于全局算子,进行数据共享,但只能在广播端进行数据的读写,非广播端只有读操作。...

2020-11-03 18:27:21 1420

原创 配合状态(state)使用的键控流(KeyedDataStream)

Keyed DataStream键控流(KeyedDataStream)概念:在flink中数据集为DataStream,对其进行分区时,会产生一个KeyedDataStream,然后允许使用键控流的operator以及特有的state(如mapstate、valuestate等)如果想使用key state,需要对DataStream指明一个key进行分区,也可以使用keyby创建一个KeyedDataStream,对这个KeyedDataStream可以使用keyed state。keyby

2020-11-03 15:28:37 873

转载 Java hashcode作用

总的来说,Java中的集合(Collection)有两类,一类是List,再有一类是Set。 前者集合内的元素是有序的,元素可以重复;后者元素无序,但元素不可重复。 那么这里就有一个比较严重的问题了:要想保证元素不重复,可两个元素是否重复应该依据什么来判断呢? 这就是Object.equals方法了。但是,如果每增加一个元素就检查一次,那么当元素很多时,后添加到集合中的元素比较的次数就非常多

2017-01-03 16:49:12 332

原创 java使用jdbc调用hive出现The query did not generate a result set!

使用java通过jdbc调用hive,执行hive sql时出现如下异常:Exception in thread "main" java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMeth

2016-11-23 18:51:43 8622

原创 简单统计Hbase某列个数笔记

思路:将hbase表中数据输出到本地文件中,通过linux命令查找指定字符串个数。 echo "scan 'TestTable'"|hbase shell |grep column > test.txt cat test.txt |grep "TestColumn" |wc -l

2016-08-15 18:27:13 1878

转载 新旧 Hadoop MapReduce 框架比对

首先客户端不变,其调用 API 及接口大部分保持兼容,这也是为了对开发使用者透明化,使其不必对原有代码做大的改变 ( 详见 2.3 Demo 代码开发及详解),但是原框架中核心的 JobTracker 和 TaskTracker 不见了,取而代之的是 ResourceManager, ApplicationMaster 与 NodeManager 三个部分。我们来详细解释这三个部分,首

2016-08-08 13:34:22 284

原创 vmware centos上网配置

1. windows网络适配器中设置VMnet8的IPV4设置为自动获取2. 虚拟机设置为NAT,如下图   3. “编辑”-“虚拟网络编辑器”选中VMnet8,点选NAT(与虚拟机共享主机IP地址),把DHCP勾上(那两个框都勾上)。   4. 在windows 运行cmd命令,运行如下命令net start "VMware DHCP Service"start

2016-08-04 11:23:45 250

原创 Maven搭建hadoop环境之pom.xml基本配置

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.

2015-10-29 14:30:53 730

原创 Maven搭建hadoop环境报Missing artifact jdk.tools:jdk.tools:jar:1.8

使用Maven搭建hadoop环境,在pom.xml中报错:Missing artifact jdk.tools:jdk.tools:jar:1.8问题原因:没有配置jdk中tools.jar解决方法:在pom.xml中添加如下配置 org.apache.hadoop hadoop-mapreduce-client-core 2.7.1

2015-10-29 14:25:19 1802

原创 hive udf、udaf、udtf使用区分

UDF:一进一出实现方法:1. 继承UDF类  2. 重写evaluate方法  3. 将该java文件编译成jar      4. 在终端输入如下命令:hive> add jar test.jar;hive> create temporary function function_name as 'com.hrj.hive.udf.UDFClass';hive> s

2015-09-28 19:12:04 5120

原创 Hive中jline.jar与Hadoop中的jline.jar版本不同,启动hive出错

[root@wanghy conf]# hive15/05/30 10:36:52 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration in file:/root/work/hive/conf/hive-log4j.pro

2015-05-30 10:53:20 4080

转载 java实现51cto网站的自动签到与获取下载积分等功能代码

需要3个jar包,网上自己下载即可:1. commons-logging-1.1.1.jar2. httpclient-4.2.5.jar3. httpcore-4.3.2.jar将字符串USER和PASSWD改成自己的用户名与密码,然后在eclipse运行即可package cn.com.wanghy;import java.io.BufferedReader;im

2015-05-29 14:22:22 1288

转载 java实现快速排序算法

package cn.com.wanghy;/** * 快速排序:是对起泡排序的一种改进,它的基本思想是:通过一趟排序将待排序记录分割成独立的两部分, * 其汇总一部分记录的关键字均比另一部分记录的关键字小,则可分别对这两部分继续进行排序,已达到 * 整个序列有序。快速排序是一种不稳定的排序算法,时间复杂度为O(n*lg(n))。 * * */public class Quic

2015-05-15 16:23:10 617

原创 从const char *中获取指定char *字符串

今天做项目需要在代码中修改视频url格式,贴出主要实现代码,以本地视频url为例:        const char *url = "file:///home/wanghy/work/avFile/File_Seg-0.ts?                           FileName=a-1&HLS=true&SessionId=29061-366971083";

2015-05-15 16:06:21 2700

原创 MapReduce之shuffle过程

Shuffle描述着数据从map task输出到reduce task输入的这段过程。官网图片表示Shuffle过程横跨map与reduce两端,如下图:   一 map端shuffle    map端流程如下图:                        1. map的输入来自HDFS的block(块)。     2.map的输出是

2015-04-28 11:32:54 403

原创 原MapReduce与YARN比对

一、原 MapReduce 程序的流程        1. 首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上,需要管理所有 job 失败、重启等操作。        2. Tas

2015-04-21 18:14:06 409

转载 Hadoop之各进程与组件总结

1、hadoop通过一个jobtracker分派任务到一系列tasktracker来运行,tasktracker同时向jobtracker返回任务运行结果。jobtracker对作业的输入数据进行分片,然后为每个分片创建一个map任务,同时创建一定数量的reduce任务,并指派空闲的tasktracker来执行这些任务。tasktracker从jobtracker处获取任务jar包以及分片

2015-04-20 09:41:44 731

转载 hadoop实现Join的几种方法

1) reduce side joinreduce side join是一种最简单的join方式,其主要思想如下:在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签 (tag),比如:tag=0表示来自文件File1,tag=2表示来自文件File2。即:map阶段的主要任务是对不同文件中的数据打标签

2015-04-14 17:15:10 3431

转载 hadoop之namenode工作特点

1. namenode始终在内存中保存metedata(整个文件系统的目录结构,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个DataNode上),用于处理“读请求”(不需要修改内容),到有“写请求”到来时,namenode会首先对metedata修改的内容写editlog到磁盘(每一次改变都会同步到磁盘。),成功返回后,才会修改内存,并且向客户端返回。客户端在写数据到每个datano

2015-04-14 09:40:02 501

转载 hadoop Secondary NameNode作用

1.  光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。2. 对于hadoop进程中 ,

2015-04-09 18:02:07 692

原创 Hbase原理(更新中)

Hbase内部保留名为-ROOT-和.META.的特殊目录表。他们维护者集群上的所有区域的列表、状态和位置。-Root-表包含.META.表的区域列表。.META.表包含所有用户空间区域的列表。表中的项使用区域名作为键。要查找一个区(Region),首先新连接到ZooKeeper集群上的客户端首先查找-ROOT-的位置。然后客户端通过-ROOT-获取所请求行所在的范围所属的.META.区域

2015-03-31 10:07:49 449

原创 Linux系统下Hadoop2.6版本编译

花了5个小时终于将Hadoop2.6版本成功编译过了,过程中遇到的最多的就是编译环境的版本问题,话不多说,以下是我的编译步骤:1.准备环境:        1.1 安装gcc yum install gcc yum install gcc-c++        1.2 安装jdk(注意必须jdk,jre不行),版本最好是jdk1.7,否则后边编译会报错        1.3Pr

2015-03-18 19:16:35 825

转载 Hadoop2.x 源代码组织结构

在 Hadoop 的 JAR 压缩包解压后的目录 hadoop-{VERSION} 中包含了 Hadoop 全部的管理脚本和 JAR 包,下面简单对这些文件或目录进行介绍。bin:Hadoop 最基本的管理脚本和使用脚本所在目录,这些脚本是 sbin 目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用 Hadoop。etc:Hadoop 配置文件所在的目录,包括

2015-03-15 12:58:40 560

原创 Linux Unbutu系统下进行jdk版本切换

我的系统默认jdk是1.6,在系统中配置了jdk1.7版本,jdk1.7安装在/jdk1.7目录下。首先需要把新安装的jdk添加到alternatives,添加命令:       (1) alternatives --install  /usr/bin/java  java  /jdk1.7/bin/java 300       (2) alternatives --i

2015-03-10 19:45:54 273

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除