自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 elasticsearch mapping设置

  mapping不仅告诉ES一个Field中是什么类型,它还告诉ES如何索引数据以及数据是否能被搜索到,所以当查询没有返回相应的数据时,很有可能时mapping有问题。组成及工作流程  一个mapping由一个或多个analyzer组成,一个analyzer又由一个或者多个filter组成的。  当ES索引文档时,它把字段中的内容传递给相应的analyzer,analyzer再传递给各自的...

2020-01-19 18:07:37 934

原创 elasticsearch架构及名词解释

elasticsearch是什么?  elasticsearch简称es,是一个基于json的分布式搜索和分析引擎es可以做什么?分布式文件存储,每个字段都可以被索引,并可被搜索分布式实时分析引擎处理pb级别的结构化数据和非结构化数据可以进行纵向拓展,拓张到上百台服务器集群架构  es主要有4类节点类型,分别如下:主节点(master):主要负责创建索引/删除索引/分配...

2020-01-19 14:55:08 289

原创 kafka重复消费和数据丢失问题

其实造成这两个问题的原因很类似,所以解决方式也比较类似,下面我们来看看这两个问题。重复消费造成原因commit的方式不合理。当我们从broker读取消费先处理在commit offset时,如果在commit前发生问题(如网络中断等),那么consumer无法知道这条消息是否已经消费。解决方案其实解决方案也比较简单,我们只要把offset和输出数据绑定在一起即可,要么一起成功,要么...

2020-01-16 22:58:58 377

原创 kafka架构

kafka是什么?kafka是一个分布式的消息系统(发布/订阅)kafka的特点以时间复杂度为O(1)的方式提供消息持久化能力,即对TB级以上的数据进行访问也能达到常数时间复杂度的访问性能 解耦 顺序性:保证分区内有序 可恢复性(容错性):部分组件的失效,不会导致影响整个系统 异步通信:允许用户把消息发生到消息队列中,并不立即处理 能同时实现离线和实时处理kafka架构图...

2020-01-16 22:43:23 163

转载 hadoop部署--比较全的搭建步骤

网上找到一篇hadoop部署比较全的博客,因为博主总结的比较好且内容较多,我就没有自己总结了,直接转载博主的,分享给大家......

2019-10-07 13:48:29 168

原创 python ES游标查询与批量插入

深度分页:一般采用from+size的方式。 缺点: 效率低。比如from=5000,size=100,es需要在各个分片上匹配排序并得到5000+100条有效数据,然后在结果集中取最后100条结果。 最大可查询条数为1W条。ES目前默认支持的skin值max_result_window=10000,当from+size>max_result_window时,ES就会返回错误。...

2019-06-05 09:36:00 1457

原创 agg、apply和transform的区别

相同点:都能针对Dataframe的特征的计算,常与groupby()方法连用不同点:1. agg():调用时要指定字段,apply默认传入整个Dataframe2. apply():参数可以是自定义函数,包括简单的求和函数以及复制的特征间的差值函数等。apply不能直接使用python的内置函数,比如sum、max、min。2. transform():参数不能是...

2018-12-11 18:25:20 3029 1

原创 pip升级时报错FileNotFoundError: [Errno 2] No such file or directory

使用命令python -m pip  install --upgrade pip进行pip升级时,报错文件找不到FileNotFoundError: 解决办法:上述是采用的自动安装过程,下面我们采用手动安装更新就可以解决这个问题,步骤如下:1.  官网下载最新版本的pip官网地址:https://pypi.org/project/pip/2.  which pip查看当前p...

2018-11-20 11:46:00 5843

原创 ETL中的关键技术

什么是ETL(Extract-transfrom-load)数据仓库技术,用来描述将数据从来源端经过抽取(extract)、交互转换(transfrom)、加载(load)到目的端的过程。数据抽取数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式。全量抽取全量抽取类似于数据迁移或数据复制,它将数据源中的表或视...

2018-09-06 17:37:22 920

原创 算法的复杂度问题--------时间复杂度和空间复杂度

大O表示法:概念:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数。T(n)称为这一算法的“时间复杂度”。当输入量n逐渐加大时,时间复杂度的极限情形称为算法的“渐近时间复杂度”。`运行时间`指一种算法的运算时间的增速,并不是以秒为单位的速度。一个算法,并不仅仅要知道他运行的时间,还要知道其随着数据内容的增加他的运算时间是如何增加的。 O(n) 中n是...

2018-09-04 11:33:01 1415

转载 Java常见经典问答题

1.什么是Java虚拟机?为什么Java被称作是“平台无关的编程语言”?Java虚拟机是一个可以执行Java字节码的虚拟机进程。Java源文件被编译成能被Java虚拟机执行的字节码文件。Java被设计成允许应用程序可以运行在任意的平台,而不需要程序员为每一个平台单独重写或者是重新编译。Java虚拟机让这个变为可能,因为它知道底层硬件平台的指令长度和其他特性。2.JDK和JRE的区别是什么?J...

2018-09-03 22:02:06 1753

原创 Java 关键字this和super

this关键字:可以区分实例变量和局部变量 调用该类的构造方法。通过this(Object... obj)  需要调用哪个构造器,就在参数列表中写这个构造器的参数 this指的是谁?   谁调用这个类,this就指的是谁 super关键字:通过super.变量名或者sup.方法名,调用父类的变量和方法 通过super(object... obj),调用父类的构造方法...

2018-08-29 22:21:02 108

原创 关键字static和final

static关键字: static修饰的代码块是静态代码块,一般用于初始化静态变量,或者是一些需要在类加载时完成的逻辑 static修饰的东西只在类加载的时候初始化一次 static修饰的变量和方法被多个对象共享 static修饰的变量和方法可以通过(类名.变量名)或者(类名.方法名)直接调用,不用创建对象 static修饰的方法中,不能使用实例变量和...

2018-08-29 22:08:58 119

原创 Java构造方法、重载和重写

构造方法:见名知意,构造方法就是用来构造类的对象的方法,每个类中至少有一个构造方法。构造方法的名字必须和类名相同,不能有返回值和返回值类型,除了访问修饰符,不能再被其他修饰符修饰。一般用于初始化对象的实例变量。 方法的重载:同一个类中,相同方法名和返回值类型的不同实现重载的要求: 方法名相同、返回值类型相同 参数的类型,数目,顺序不完全相同  方法的重写...

2018-08-29 21:59:02 1339

原创 Git的撤销和版本回退

把暂存区中的文件复制粘贴到工作目录: git checkout -- filename 使用场景:        工作目录的文件修改或者移出,但是并没有提交到暂存区和本地仓库,可以使用这个命令还原这个文件把本地仓库中的文件复制粘贴到暂存区:git reset HEAD [filename]使用场景:(前提:文件从工作目录提交到暂存区,但是并没有提交到本地仓库)...

2018-08-29 20:41:48 172

原创 Git的架构

什么是GitGit是由Linus Torvalds为了帮助管理Linux内核而开发的分布式版本控制系统,也可以简单的理解为Git就是一个软件Git的工作架构?它们各自负责什么?又是怎么关联起来的?Git主要是由远程仓库、本地仓库、暂存区、工作目录组成,而远程仓库在中心服务器上,本地仓库、暂存区、工作目录都在本地上。 远程仓库指的是在公网上的版本库;本地仓库指的是自己电脑上的版本...

2018-08-29 18:22:26 595

原创 switch穿透

switch语法:swtch(A){ case 值1: //语句1; break; case 值2: //语句2; break; case 值3: //语句3; break; ... ... ... default: //语句...

2018-08-28 23:44:44 569

原创 Java变量

什么是变量?答:变量是最基本的存储单元,一个变量通常是由作用域、变量类型、变量名、值组成。变量的分类实例变量(又称为成员变量或属性) 定义在方法外,类内。 出生:new一个对象的时候出生 死亡:堆内存地址(即这个对象)没有被引用,成为了垃圾被垃圾回收器回收 局部变量(又称为本地变量) 定义在方法内。这里可以分为形参和方法内部的局部变量 形参作用于整个方法的代...

2018-08-28 12:02:37 110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除