- 博客(10)
- 收藏
- 关注
原创 scala调用接口
scaca post请求调用http接口返回json数据package xmadx.statisticsimport java.nio.charset.StandardCharsetsimport java.utilimport com.alibaba.fastjson.{JSON, JSONObject}import org.apache.commons.httpclient.me...
2020-04-17 14:06:16 1211
原创 spark 1.X中的DataFrame和RDD
DataFrame与RDD上面的图直观的提现了dataFrame和Rdd的区别,左侧的RDD虽然Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。...
2020-04-11 11:29:38 192
原创 HBase优化策略
HBase优化策略1. 解决热点效应预分区 在创建表时,不按照默认的策略,为表只创建一个Region,而是根据需要,为一张表创建多个Region,从而避免热 点效应预分区的依据 基于Rowkey进行预分区语法:3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’]3.2 create ‘t1’, ‘f1’, SPLI...
2020-04-07 11:43:46 161
原创 redis无格式操作
Redis使用手册一、NoSql简介NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”, 泛指非关系型的数据库Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。二、为什么会出现Nosql这个技术门类随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的web2.0纯动态网站已经显得力不从心,暴露...
2019-08-23 09:54:01 278
原创 ElasticSearch 全文检索
ElasticSearch简称ES,基于Lucene全文检索引擎服务,支持分布式集群(数据横向扩展,分布式计算)什么是全文检索:全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索(Full-Text Retrieval(检索))以文本作为检索对象,找出含有指...
2019-07-29 15:00:13 564
原创 Kafka面试总结
Kafka面试现在,消息中间件种类繁多,而且各种大厂的也逐渐开源了,每个企业都开始二次加工自己的消息中间件以满足自己的内部需求。其实,无论什么系统,框架,最值钱的就是为了保存和应用数据,保存各种数据以应付后期的调优,统计使用等。现在由于都是出于高并发环境下,由于来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达Mysql,直接导致无数的行锁表锁,甚至最...
2019-07-23 14:06:40 158
原创 Spring Cloud Hystrix:断路器
Hystrix是一个延迟和容错库,旨在隔离对远程系统,服务和第三方库的访问点,停止级联故障,并在复杂的分布式系统中实现弹性,在这些系统中,故障是不可避免的。引入以下依赖<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-star...
2019-07-23 14:02:36 96
原创 Kafka Stream 微服务领域流处理
流计算定义一般流计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一般先有全量数据集,然后定义计算逻...
2019-07-03 20:24:26 3121
转载 Spark Streaming
Spark Streaming Quick Start概念介绍初始化 StreamingContextAdvance Source KafkaSpark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和wi...
2019-07-03 17:25:15 153 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人