自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (1)
  • 收藏
  • 关注

翻译 高中时的一篇文章,闲时翻出来看看。。。

徒儿功成,拜别师父下山。  师父送至山门。  风雨凄迷,山色空蒙。  山风拂动师傅银髯,撩起师父衣带。师傅走了,就如山间一片飘零的黄叶。  这是师父最后一个徒儿,师父再也不会收徒了。师父潜心武功绝技“天罡刀法”的修炼,终生不娶,因而没有子嗣,以后就只有师父一个人孤守寒山了。这也是师父一生中最疼爱的一个徒儿,聪明好学,伶俐精明,平日饮食起居待师父如同亲父。师父于是把毕生心血全都传给了他。此时...

2019-01-05 10:05:01 108 1

原创 MySQL学习推荐

https://jeames.blog.csdn.net/article/details/123963994?spm=1001.2014.3001.5502

2022-04-07 11:35:13 524

原创 右键Open with Sublime Text出现此应用无法在你的电脑上运行问题解决

右键Open with Sublime Text出现此应用无法在你的电脑上运行问题解决:原因是Sublime Text这个软件没有处理好路径中的空格。我的路径是:D:\Program Files\Sublime Text 3\sublime_text.exeWindows 默认的解析方式是把空格后的全部当参数传入了。只需要修改Windows的键值,对键值路径加引号就能解决问题了。具体操作:Windows+R打开运行窗口,输入:regedit打开注册表。找到该键值:位于HKEY_CLASSES_

2020-11-25 10:12:43 1728

原创 CHD各组件版本

在官网下载Scala的时候,下载了很多次都下载失败,后来发现在浏览器种输入http://downloads.typesafe.com/scala/2.11.12/scala-2.11.12.msi就可以很快的下载下来了。版本号都可以更改。CHD组件版本查询https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_62_packaging.html...

2020-11-03 11:00:01 577

原创 关于Solr基本认证的几种坑爹认证

不得不说,Solr这个组件的坑很多,能使用Elasticsearch就尽量别使用Solr。如果在使用Solr的过程中出现401错误,一般就是因为Solr开启了基本认证。注意:是基本认证,不是Kerberos认证!首先是CDH版本的4.10.3的Solr添加基本认证登录之后的增删改查。 private static void loginSolr(String username,Strin...

2020-04-29 22:57:53 1647 3

原创 白天求生存、晚上求发展

计算机知识15-20分左右10大管理是核心重点 标准、法律法规10-15分左右(包含部分计算机知识) 英语5分1、看到有技术人员出身做项目经理就要回答在信息系统工程中,开发和管理是两条不同的主线,开发人员所需要的技能与管理人员 所需要的技能很不一样。角色定位可能不好、没有站在项目经理的角度管理项目,所以需要给他培训。 2、看到身兼数职就要回答可能没有多少时间去学习管理知识,去小马老师要...

2020-04-15 01:52:55 167

原创 solrexport

https://blog.csdn.net/wudinaniya/article/details/83011796

2020-01-06 14:53:52 214

原创 solr4.x的kerberos认证

public static void loginSolr(String username,String password) { HttpClientUtil.setConfigurer(new PreemptiveBasicAuthConfigurer()); ModifiableSolrParams params = new ModifiableSolr...

2019-12-20 11:09:10 227 2

原创 HBase操作

HBase导出HFile数据并压缩hbase org.apache.hadoop.hbase.mapreduce.Export -D mapreduce.output.fileoutputformat.compress=true -D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.Gz...

2019-08-08 18:32:18 179

原创 Solr学习指南

Solr简介Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。   Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述 Fie...

2019-05-30 14:56:54 137

原创 scala中的一些骚操作

scala中的:: , +:, :+, :::, +++, 等操作:package Demo/** * scala中的:: , +:, :+, :::, +++, 等操作; */object listDemo { def main(args: Array[String]): Unit = { val list = List(1,2,3) // :: 用于的是向队列...

2019-05-30 11:11:31 499

转载 处理迟到的数据对事实表和维度表的影响

迟到的数据分为两种,一种是迟到的事实表数据,另一种是迟到的维度表数据。对于迟到的事实记录,我们可以插入到相应的事实表中。在插入的同时,还需要做一些处理。首先,对于具有SCD TYPE 2型维度的事实记录需要在插入前判断该事实记录的发生日期到目前为止,维度记录是否发生过变化,如果有变化,该事实记录需要对应到事实发生时的维度记录上。其次,在事实记录插入完成后,与该事实表相关的聚集事实表和合并事实表需...

2019-04-24 15:24:40 971

原创 Spark为什么比MapReduce快

RDD缓存,RDD计算是可以设置缓存的,Spark把运算的中间数据存放在内存,迭代计算效率更高。Map缓存,Map的结果也是会被缓存的,以便以后利用Spark容错性好,弹性数据集可以进行计算重建,MR的容错只能重新计算。对Shuffle操作的优化,生成的中间文件减少了,那么磁盘IO就会减少,Spark计算对内存的利用和运行的并行度比MR高。由于MapReduce会对中间数据进行排序,所以...

2019-04-11 14:49:58 475

原创 HBase的预分区设计

如果找到HBase数据表的key的分布情况,就可以在建表的时候对HBase进行region的预分区。这样做的好处是防止大量数据插入时带来的热点问题,提高数据插入的效率。HBase默认建表时有一个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,此region已经不能承受不断增长的数据量,会进行...

2019-04-10 20:00:41 396

原创 RDD、DataFrame、Dataset的区别和各自的优势

它们都是基本的数据抽象,它们底层都是不可变的数据集。底层都是对于整个数据集进行分区,然后并行操作。DataSet和DataFrame对应的数据是机构化数据。DataFrame是DataSet的子集,DataFrame的数据类型只有一种,就是Row类型的。DataSet可以是任意的数据类型,是一种强类型。更早的发现代码和开发中的一些错误。节约时间。...

2019-04-10 16:53:32 984

原创 数据仓库的设计

左侧是我们常用的数据仓库分层,右侧是阿里巴巴使用的数据仓库分层。dw:数据集市层,面向主题的,放的用户宽表。将宽表抽取基本信息dim放维度表...

2019-04-10 09:40:55 365 1

原创 广播变量和累加器的使用场景

广播变量对于经常用到变量值,在分布式计算当中,多个点检task一定会多次请求这个变量就会产生大量网络IO,会影响效率,这时就可以使用广播变量的方式将数据广播到对应的Exector端,之后在使用该变量时就可以直接向本机获取该值计算即可。优点:不用从Driver端拉去数据了,也不用从其他节点拉取数据了,只需要从自己的Exector端获取数据就可以了,减少网络IO,提高运行效率。缺点:数据一旦广播...

2019-04-09 21:10:36 488

原创 Java面试常问技术点回顾

Java多线程实现的四种方式继承Thread类创建线程实现Runnable接口创建线程实现Callable接口通过FutureTask包装器来创建Thread线程使用ExecutorService、Callable、Future实现有返回结果的线程ExecutorService、Callable、Future三个接口实际上都是属于Executor框架。返回结果的线程是在JDK1.5中引...

2019-04-02 17:09:50 236

原创 大数据高并发常用解决方案

一、海量数据解决方法使用缓存技术:使用方式:①使用程序直接保存到内存中。主要使用Map,尤其ConcurrentHashMap使用缓存框架。常用的框架:Ehcache,Memcache,Redis等。最关键的问题是:什么时候创建缓存,以及其失效机制。对于空数据的缓冲:最好用一个特定的类型值来保存,以区别空数据和未缓存的两种状态。数据库优化:①表结构优化②SQL语句优化,语法优化和处理逻...

2019-04-02 10:08:31 912

原创 布隆过滤器

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。如果想要判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路. 但是随着集合中元素的增...

2019-04-02 09:39:21 108

原创 Java技术之垃圾回收

Java语言中一个显著的特点就是引入了垃圾回收机制,它使程序员在编写程序的时候不再需要考虑内存管理。由于有个垃圾回收机制,Java中的对象不再有“作用域”的概念,只有对象的引用才有“作用域”。垃圾回收可以有效的防止内存泄漏,有效的使用空闲的内存。内存泄漏:指内存空间使用完毕之后未回收,Java的内存泄漏表现为一个内存对象的生命周期超出了程序需要它的时间长度,我们有时也将其称为“对象游离”。垃圾...

2019-03-29 22:03:10 192

原创 Hive的优化

首先是表的优化:1.当数据量比较大的时候常用的手段就是拆分表,大表拆小表,分区表,临时表,外部表。2.尽量小表join大表,要把数据量小的表放在join的左边,先进行缓存,这样减少表join的时候内存的消耗量。好的模型设计事半功倍。减少job个数。自己动手写sql解决数据倾斜问题是个不错的选择。set hive.groupby.skwindata=true;对小文件进行合并,是行至游戏...

2019-03-18 23:57:11 159

原创 Kafka详解

消息队列内部实现原理为什么需要消息队列?解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。利于扩展和维护冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列采用的“插入-获取-删除”范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。扩展...

2019-03-08 00:06:36 469

原创 Kafka常见问题

1. 如果想消费已经被消费过的数据,如何实现?consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费者消费了数据...

2019-03-06 19:54:26 1648 2

原创 Spark的JDBC编写

package Spark_day03import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object JdbcRDD1 { def main(args: Array[String]): Unit = {...

2019-02-25 17:35:59 206

原创 Spark计算模型

一、什么是RDDRDD(Resilient Distributed Dateset)叫做分布式弹性数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD之间存在依赖关系,可进行恢复,RDD代表的数据集可以缓存,以便于加速后面的RDD计算,加快效率。RDD允许用户在执行多个查询时显式地将工...

2019-02-21 10:26:26 500

原创 Spark笔记

1.Spark集群启动流程:启动Master进程Master开始解析conf目录的slaves配置文件,找到相应的Worker节点,开始启动Worker进程Worker进程开始向Master发送注册信息Master接收到Worker的注册信息后并保存到内存和磁盘里,然后Worker发送注册成功信息Worker开始和Master建立心跳,Master每次接收到心跳后更新WokerInf...

2019-02-20 20:07:25 113

原创 Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFoundError: com/fasterxml/jackson/

启动Spark时(CDH版本较常见),报如下错误:19/02/20 00:20:33 INFO StandaloneRestServer: Started REST server for submitting applications on port 6066Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFo...

2019-02-20 00:48:17 4849 6

原创 Spark启动时出现Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configur

$ sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark-1.6.0-cdh5.13.2/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-bigdata.outfailed to launc...

2019-02-20 00:41:08 11330 1

原创 Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$scope()Lscala/xml/TopScope$;

Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$scope()Lscala/xml/TopScope$; at org.apache.spark.ui.jobs.AllJobsPage.<init>(AllJobsPage.scala:39) at org.apache.spark.ui....

2019-02-19 22:39:58 1474

原创 RPC通信

远程过程调用,可以通过网络远程计算机请求服务,不需要关注底层网络协议实现,通常请求从客户机发起,服务程序由服务器提供特点:RPC采用C/S模式客户端发送一个带有参数的请求信息到服务端服务器端根据发送过来的参数调用相应的程序,将结果发送回客户端客户端接受到结果后继续运行透明性:对于用户来说,远程调用其他机器上的程序,和调用本地方法一样高性能:能够并发处理多个来自客户端的请求可控制...

2019-02-18 19:17:36 285

转载 扫码登录的实现原理

当用户打开网站的登录界面的时候,点击扫码登录就会向服务器发送获取登录二维码的请求。服务器收到请求后,随机生成一个uuid,将这个id作为key值存入redis服务器,同时设置一个过去的时间,如果长时间未扫码,用户登录二维码需要进行刷新重新获取。同时,将这个key值和本公司研制字符串合在一起,通过二维码生成接口,生成一个二维码图片。(网站有很多线程的接口和源码)然后,将二维码图片和uuid一起返回给...

2019-02-15 17:56:32 241

原创 Scala特点

toString方法就是将任意对象转换成字符串。。。和Java或C++相比Scala有一个显著的不同, Scala并没有提供++和-操作符,我们需要使用+= 1 或者-= 1 :res变量是val的“字符串” * 4 = 字符串字符串字符串字符串10 max 2 相当于 10.max(2) Int类型没有定义max,所以编译器会搜索到一个到RichInt的隐式函数,然后使用其中的max方法...

2019-02-14 19:54:19 111

原创 Scala编写分析代码的逻辑实现

方法一:package ScalaStudy_day02object WordCount { def main(args: Array[String]): Unit = { val lines = List("hello python", "hello java", "hello scala", "hello c++ and scala")

2019-02-13 16:38:38 273

原创 Scala集合

map里面存放的键值对,且键唯一。package ScalaStudy_day02import scala.collection.immutable.HashMapimport scala.collection.mutableobject MapDemo { def main(args: Array[String]): Unit = { // 创建map //...

2019-02-13 13:05:12 110

原创 Scala集合和数组

集合可变集合,不可变集合可变集合,可扩展、添加元素、删除、修改不可变集合,可以模拟添加、删除1.区别:A (1,2,3) 不可变集合=> 模拟添加元素4,生成一个新的集合(1,2,3,4) 集合A不变A (1,2,3) 可变集合=> 添加元素4,集合A变成(1,2,3,4)2.使用时选择,使用可变集合还是使用不可变集合。首选不可变集合。效率高,占用的存储空间更少3.线...

2019-02-12 17:01:30 262

原创 java.lang.RuntimeException: HRegionServer Aborted问题

2018-10-20 20:38:01,799 INFO [regionserver/linux02/192.168.3.21:16020] regionserver.HRegionServer: STOPPED: Unhandled: org.apache.hadoop.hbase.ClockOutOfSyncException: Server linux02,16020,1540039076...

2019-02-12 10:46:56 4727 1

原创 Scala基础回顾

Scala中没有基本类和包装类之分,所有基本类型类似于java的包装类操作符基运算符±*/%关系运算符<> <= >= != ==逻辑运算符&& || !位运算符:^ | &

2019-02-12 10:34:25 104

翻译 浅谈Java多线程编程

继承Thread类时,只能创建不同的类,线程类间的资源不可共享,而实现Runnable接口后,可以共享线程资源。/** * 模拟火车站售票窗口,开启三个窗口,总票数为100张 */class Window extends Thread { // 使用static声明的变量是共用的 static int ticket = 10000; public void run...

2019-02-11 16:45:38 174

原创 浅谈二叉树

满二叉树:所有的分支结点都存在左子树,并且所有的叶子结点都在同一层上,这样就是满二叉树。就是完美圆满的意思,关键在于树的平衡。根据满二叉树的定义,得到其特点为:1.叶子只能出现在最下一层。2.非叶子结点度一定是2 。3.在同样深度的二叉树中,满二叉树的结点个数最多,叶子树最多。完全二叉树:对一颗具有n个结点的二叉树按层序排号,如果编号为i的结点与同样深度的满二叉树编号为i结点在二叉...

2019-02-11 15:28:38 136

快学scala第二版 中文.pdf

Scala 是一门十分有趣又非常实用的语言,它以JVM为目标环境,将面向对象和函 数式编程有机地结合在一起,带来独特的编程体验。 它既有动态语言那样的灵活简沽,同时又保留了静态类型检查带来的安全保障和 执行效率, 加上其强大的抽象能力,既能处理脚本化的临时任务,又能处理高并发场 景下的分布式互联网大数据应用,可谓能缩能伸。

2019-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除