自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (19)
  • 收藏
  • 关注

原创 SFTP文件如何统计行数

想写个数据监测的工具,监测数据的流转过程是否有丢失的情况,有个数据来源是SFTP上的文件,需要统计他的文件个数和每个文件下的行数。用java自带的java.IO.工具试了一下不行。数据流是空的。搞了老半天才找到问题,并解决掉。在此给大家分享一下。可能我的视线流程复杂了。首先创建并初始化sftp对象。这里我给封装了个工具:public class SftpUtil { private FTPSClient ftp; private String ftpHost; priv

2020-10-22 11:58:09 2648

原创 (九)spark on yarn

YARN是一种统一资源管理机制,在其上面可以运行多套计算框架。目前的大数据技术世界,大多数公司除了使用Spark来进行数据计算,由于历史原因或者单方面业务处理的性能考虑而使用着其他的计算框架,比如MapReduce、Storm等计算框架。Spark基于此种情况开发了Spark on YARN的运行模式,由于借助了YARN良好的弹性资源管理机制,不仅部署Application更加方便,...

2019-10-16 17:25:02 558 1

原创 (八)spark学习之数据倾斜

为什么要处理数据倾斜问题什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜原因在Spark中,同一个Stage的不同Partition可以并...

2019-07-28 16:50:20 234

原创 (七)Spark实战之 wordCount

一,代码实现之Scala命令行实现 $scala>val rdd1 = sc.textFile("/home/centos/test.txt") //获取文本文件,按行切分,以行为单位的String $scala>val rdd2 = rdd1.flatMap(line=>line.split(" ")) // 压扁打散行数据,获取所有行的所有单...

2019-07-20 00:37:19 209

原创 (六) Spark的Transformation和action介绍

RDD支持两种类型的操作:Transformation(从现有的数据集创建新的数据集)和action(在对数据集运行计算后将值返回给驱动程序)。例如,map是一种Transformation,它通过一个函数来传递每个数据集元素,并返回一个表示结果的新RDD。另一方面,reduce是一个action,它使用某个函数聚合RDD的所有元素,并将最终结果返回给driver驱动程序(尽管还有一...

2019-07-11 12:13:01 609

原创 (五)Spark学习笔记 之 累加器(Accumulator)及常见问题分析

Accumulator简介Spark提供的Accumulator,主要用于多个节点对一个变量进行共享性的操作。Accumulator只提供了累加的功能。但是确给我们提供了多个task对一个变量并行操作的功能。但是task只能对Accumulator进行累加操作,不能读取它的值。只有Driver程序可以读取Accumulator的值。非常类似于在MR中的一个Counter计数器,主要用于统计...

2019-07-05 16:31:29 1342 1

原创 (四)spark之共享数据--广播变量

一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。二、广播变量介绍比如数据库中一份公共配置表格,需要同步给各个节点进行查询。广播变量允许程序在每台机器上面缓存一个只读的变量,每台机器上的所有task共享这个只读变量。而不是每个任务保存一份拷贝。如果将变量声明为广播变量,那么只是每个executo...

2019-07-05 14:45:54 531

原创 (三)Spark core之RDD

1.什么是RDD?RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,RDD是一个只读的有属性的数据集。属性用来描述当前数据集的状态,数据集是由数据的分区(partition)组成,并(由block)映射成真实数据。RDD属性包括名称、分区类型、父RDD指针、数据本地化、数据依赖关系等。RDD是理解Apache Spark 工作...

2019-07-04 11:38:57 164

原创 (一)初识Spark

1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计...

2019-07-04 09:59:39 164

原创 (二)spark HA安装部署

一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/回到顶部二、安装基础1、Java8...

2019-06-05 17:18:23 430

原创 ElasticSearch索引管理

原创不易,转载请注明出处。谢谢!创建索引迄今为止,我们简单的通过添加一个文档的方式创建了一个索引。这个索引使用默认设置,新的属性通过动态映射添加到分类中。现在我们需要对这个过程有更多的控制:我们需要确保索引被创建在适当数量的分片上,在索引数据 之前 设置好分析器和类型映射。为了达到目标,我们需要手动创建索引,在请求中加入所有设置和类型映射,如下所示: PUT /my_inde...

2019-03-28 10:20:42 386

原创 ElasticSearch分布式搜索的执行方式

分布式搜索的执行方式我们知道,一个文档是由index,type,id的组合来确定唯一性的。这意味我们可以准确知道某个文档在集群中的哪个分片上。但由于不知道哪个文档会被匹配查询,所以搜索需要一个更复杂的模型,一个搜索不得不通过查询每一个我们感兴趣的索引的复制分片,来看是否含有任何匹配的文档。在找到所有匹配的文档只完成了搜索的一半,搜索的执行过程分为两个阶段。查询阶段和取回阶段。查询阶...

2019-03-28 10:18:38 311

原创 ElasticSearch的映射和分析

映射和分析映射(mapping)机制用于进行字段类型确认,将每个字段匹配为一种确定的数据类型( string , number , booleans , date 等)。分析(analysis)机制用于进行 全文文本(Full Text)的分词,以建立供搜索用的反向索引。让我们看看Elasticsearch在对 megacorp索引中的 employee类型进行 mapping后是如何...

2019-03-28 10:17:19 672

原创 ElasticSearch多索引和多类别搜索

通过限制搜索的不同索引或类型,我们可以在集群中跨 所有文档搜索。Elasticsearch转发搜索请求到集群中平行的主分片或每个分片的复制分片上,收集结果后选择顶部十个返回给我们。通常,我们可能想搜索一个或几个自定的索引或类型,我们能通过定义URL中的索引或类型达到这个目的,像这样:URL/_search 在所有索引的所有类型中搜索URL/megacorp/_search ...

2019-03-28 10:14:45 3968

原创 ElasticSearch分布式文档存储介绍

分布式文档存储文档如何被路由到分片的当你索引一个文档,他将会被索引到单独的分片,ElasticSearch是如何知道文档属于哪个分片的?事实上,ElasticSearch是根据一个简单的算法实现的: shard = hash(routing)%numOfPrimaryShards routing是一个任意字符串,默认是_id,但也可以自定义。routing被has...

2019-03-28 10:14:03 260

原创 Elasticsearch的增删改查操作

检索文档GET请求GET请求返回的响应内容包括 {"found": true} 。这意味着文档已经找到。如果我们请求一个不存在的文档,依旧会得到一个JSON,不过 found 值变成了 false 。通常, GET 请求将返回文档的全部,存储在 _source 参数中。但是可能你感兴趣的字段只是 title 。请求个别字段可以使用 _source 参数。多个字段可以使用逗号分隔:(GE...

2019-03-28 10:11:39 1469

原创 ElasticSearch常见名词解释

文档元数据一个文档不只有数据。它还包含了 元数据(metadata)—— 关于文档的信息。三个必须的元数据节点是: 节点 说明 index 文档存储的地方 type 文档代表的对象的类型 id 文档的唯一标识 索引(index...

2019-03-28 10:10:03 956

原创 ElasticSearch内部工作方式和集群健康

一个 节点(node)就是一个Elasticsearch实例,而一个 集群(cluster)由一个或多个节点组成,它们具有相同的 cluster.name ,它们协同工作,分享数据和负载。当加入新的节点或者删除一个节点时,集群就会感知到并平衡数据。集群中一个节点会被选举为 主节点(master),它将临时管理集群级别的一些变更,例如新建或删除索引、增加或移除节点等。主节点不参与文档级别的变更或...

2019-03-28 10:07:57 142

原创 Linux定时器工具-crontab 各参数详解及如何查看日志记录

linux系统设置定时任务的参数详解,crontab命令等

2017-03-16 11:26:24 603

原创 利用Hbase解决HDFS小文件合并

自己开发心得,希望能够帮助大家!相关源码:http://download.csdn.net/download/zhtzh312/9259615

2015-11-11 08:49:58 5957

原创 JS怎么刷新当前页面

JS怎么刷新当前页面reload 方法,该方法强迫浏览器刷新当前页面。语法:location.reload([bForceGet]) 参数: bForceGet, 可选参数, 默认为 false,从客户端缓存里取当前页。true, 则以 GET 方式,从服务端取最新的页面, 相当于客户端点击 F5("刷新")replace 方法,该方法通过指定URL替换当前缓存在历史里

2015-06-30 17:03:25 324

HDFS block丢失,导致hadoop进入安全模式的解决方案

HDFS block丢失hadoop进入安全模式(Safe mode)的解决方法

2018-08-29

hbase分页代码

通过filterimplements,scan等过滤工具类和keyValue实现hbase的分页

2015-11-19

java开发----oracle/mysq导入到hbase和hdfs的源码

通过Java远程连接hbase和oracle,将oracle/mysql中的数据导入到hbase和hdfs中;

2015-11-19

hbase合并小文件Demo项目包

为解决小文件的存储Hadoop自身提供了两种机制来解决相关的问题,包括HAR和SequeueFile,这两种方式在某些方面解决了本层面的问题,单仍然存在着各自的不足。我们在进行多次的测试实现后最终觉得Hbase合并小文件更为靠谱些,

2015-11-11

Spark高手之路-Spark SQL编程动手实战

提供Spark解决方案: 1.彻底掌握Spark框架源码的每一个细节 2.根据不同的业务场景的需要提供Spark在不同场景下的解决方案; 3.根据实际需要,在spark框架基础上进行二次开发;

2015-11-09

Spark高手之路-API编程动手实战

通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面,包括项目的架构设计,用的的技术剖析、开发实现、运维等等。

2015-11-09

spark高手之路-spark架构设计与编程模型

此阶段掌握基于Spark上的核心框架的使用; spark作为云计算大数据时代的集大成者,在实时流处理,图技术,机器学习,NoSQL查询等方面具有显著的优势,我们使用spark的时候大部分时间都是在使用其框架如:spark,spark Steaming等

2015-11-06

spark高手之路-内核揭秘

此阶段主要是通过Spark框架的源码研读来深入Spark内核部分 1.通过源码掌握Spark的任务提交过程 2.通过源码掌握spark集群的任务调度; 3.尤其要精通DAGScheduler,TaskScheduler和worker节点内部的工作的每一步的细节;

2015-11-06

spark高手之路-实战Scala

spark框架是采用Scala语言编写的,精致而优雅,要想成为spark高手,你就必须阅读spark的源代码,就必须掌握Scala.....

2015-11-06

spark集群搭建

spark高手之路第一章:主要讲述如何搭建spark集群,hadoop的分布式集群环境,以及如何构建spark集群

2015-11-05

scala-2.11.0-M5.tar

最新的Scala安装包,版本为2.11.0-M5

2015-11-04

spring-data-hadoop-2.1.1.RELEASE-hadoop24-sources.jar

Java操作hbase完成hbase数据文件下载

2015-11-04

shell脚本开发

2.hive源表:创建hive源表,每个shell脚本对应一个hive源表 #!/bin/bash source /etc/profile CUR_DATE=`date +%Y%m%d` echo "-- CUR_DATE:"$CUR_DATE /opt/cloudera/parcels/CDH/bin/hive <<EOF (进入hive) USE default; ……(在hive下的HQL命令) quit; EOF (hive代码段结束) echo "--end" 3.hive计算:创建hive 表,并计算相应指标,每个shell脚本对应一个或多个计算步骤。 #!/bin/bash source /etc/profile CUR_DATE=`date +%Y%m%d` echo "-- CUR_DATE:"$CUR_DATE /opt/cloudera/parcels/CDH/bin/hive <<EOF USE default; ......

2015-07-22

kettle操作手册和基本用法

Kettle Kettle家族的4个产品:Spoon、Pan、Chef、Kitchen Spoon-转换(transform)设计工具(GUI方式) Pan-转换(transform)执行器(命令行方式) Chef-工作(job)设计工具(GUI方式) Kitchen-工作(job)执行器(命令行方式) Job和transformation的差别:transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。 .......

2015-07-22

R语言实战和案例

R是一种语法非常简单的表达式语言(expression language),大小写敏感。 可以在R 环境下使用的命名字符集依赖于R 所运行的系统和国家(系统的locale 设置),允许数字,字母,“.”,“_” 1). 命名 命名必须以”.”或者字母开头,以”.”开头时第二个字符不允许是数字。 2). 基本命令 基本命令要么是表达式(expressions),要么就是赋值(assignments)。.......

2015-07-22

solr学习心得和总结笔记

1、站内搜索的技术选型 2、什么是solr 3、solr的安装及配置 Solr整合tomcat 4、使用solr维护索引 a)添加 b)删除 c)修改 5、使用solr查询索引 6、Solr的客户端SolrJ a)solrJ维护索引 b)SolrJ查询索引 7、综合案例

2015-07-22

ajax+jquery

1:理解同步和异步 同步交互和异步交互 举个例子:普通B/S模式(同步) AJAX技术(异步) * 同步:提交请求->等待服务器处理->处理完毕返回 这个期间客户端浏览器不能干任何事 * 异步: 请求通过事件触发->服务器处理(这时浏览器仍然可以作其他事情)->处理完毕 同步是指:发送方发出数据后,等接收方发回响应以后才发下一个数据包的通讯方式。   异步是指:发送方发出数据后,不等接收方发回响应,接着发送下个数据包的通讯方式 易懂的理解: 异步传输:   你传输吧,我去做我的事了,传输完了告诉我一声   同步传输:   你现在传输,我要亲眼看你传输完成,才去做别的事 2:ajax技术.....

2015-07-22

大数据笔记

黑马大数据课程精品讲义,讲述hadoop框架,使用范围,功能,工具,算法库,部署使用,以及编程规范

2015-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除