铁头娃1740-CSDN博客

转载 kafka深度解析

背景介绍Kafka简介　　Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区，及分布式消费，同时保证每个partition内的消息顺序传输同时支持...

2019-08-28 13:48:50 446

原创 linux命令大全

系统信息arch 显示机器的处理器架构uname -m 显示机器的处理器架构uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpuinfo 显示CPU info的...

2019-08-22 16:49:24 322

原创 HBase 性能优化

1. 修改Linux最大文件数Linux系统最大可打开文件数一般默认的参数值是1024，如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误，导致整个HBase不可运行查看： ulimit -a 结果：open files (-n) 1024临时修改： ulimit -n 4096持久修改：vi /etc/security/li...

2019-08-14 17:51:13 368

原创安装postgresql 数据库命令详解

安装postgresql步骤：1、yum install https://download.postgresql.org/pub/repos/yum/9.5/redhat/rhel-7-x86_64/pgdg-centos95-9.5-2.noarch.rpm2、yum install postgresql95-server postgresql95-contrib3、/usr/pgs...

2019-08-14 17:41:01 400

原创 shell 入门

shell入门1. 概述1.1. 简介 Shell Script ，Shell脚本与Windows/Dos下的批处理相似，也就是用各类命令预先放入到一个文件中，方便一次性执行的一个程序文件，主要是方便管理员进行设置或者管理用的。但是它比Windows下的批处理更强大，比用其他编程程序编辑的程序效率更高，毕竟它使用了Linux/Unix下的命令。换一种...

2019-08-14 17:39:45 227

原创 awk命令详解

简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr...

2019-08-14 17:37:08 344

原创如何制作yum本地源

CentOS-6.7-x86_64-bin-DVD1.iso 完整版的安装盘CentOS-6.7-x86_64-bin-DVD2.iso 对完整版安装盘的软件进行补充和升级。1、上传好cd1;cd2镜像文件后，先创建一个文件夹比如 mkdir iso2、挂载上传的镜像文件至创建的文件夹。类似于解压。 mount -o loop centOS-6.5.....i...

2019-08-14 17:35:05 1114

原创 Zookeeper详解

zookeeper02/ 分布式系统中协调服务的必要性在线感知1/所有服务节点，上线时，先去zookeeper上注册一个子节点2/“服务请求者”，监听父节点3/当有新的服务节点加入，或者有旧的服务节点掉线， “服务请求者”就能收到通知，就可以去zookeeper上查看最新的在线服务器列表主从协调配置管理名称服务分布式锁03/ Zoo...

2019-08-14 17:31:44 767

原创 hive 常用运算

hive 常用运算第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RL...

2019-08-14 17:24:57 854

转载 sftp常用命令介绍

某linux系统中有test.cap, 现在，我需要把它移动到PC上，然后用wireshark进行分析。怎么移动呢？没有什么samba啊，不支持ftp啊，也不支持tftp啊。用sftp吧。在PC上开启sftp服务器（下载一个sftpserver.exe）即可。让linux系统充当本地客户端，让sftserver充当服务器。前面的博文中，我们已经学习了sf...

2019-08-14 15:20:09 6956

原创 Django框架详解（更新中......）

Django软件框架一个公司是由公司中的各部部门来组成的，每一个部门拥有特定的职能，部门与部门之间通过相互的配合来完成让公司运转起来。一个软件框架是由其中各个软件模块组成的，每一个模块都有特定的功能，模块与模块之间通过相互配合来完成软件的开发。软件框架是针对某一类软件设计问题而产生的。MVC框架2.1 MVC简介MVC最初是由施乐公司旗下的帕罗奥多研究中心中的一位研究...

2019-08-09 10:47:01 792

原创机器学习之kmeans聚类算法及应用

1. Kmeans聚类算法原理1.1 概述K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。1.2 算法图示假设我们的n个样本点分布在图中所示的二维空间。从数据点的大致形状可以看出它们大致聚为三个clu...

2019-08-08 11:12:15 4271 1

原创机器学习之协同过滤推荐算法及应用

1. CF协同过滤推荐算法原理1.1 概述什么是协同过滤 (Collaborative Filtering, 简称 CF)？首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最近有什么好看的电影推荐，而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。协同过滤算法又分为基于用户的协同过滤...

2019-08-08 11:12:05 1812

原创机器学习之决策树算法应用以及分类

1. 决策树分类算法原理1.1 概述决策树（decision tree）——是一种被广泛使用的分类算法。相比贝叶斯算法，决策树的优势在于构造过程不需要任何领域知识或参数设置在实际应用中，对于探测式的知识发现，决策树更加适用1.2 算法思想通俗来说，决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：...

2019-08-08 11:11:52 2744

原创机器学习之lineage回归分类算法及应用

1. Lineage逻辑回归分类算法1.1 概述Lineage逻辑回归是一种简单而又效果不错的分类算法什么是回归：比如说我们有两类数据，各有50十个点组成，当我门把这些点画出来，会有一条线区分这两组数据，我们拟合出这个曲线（因为很有可能是非线性），就是回归。我们通过大量的数据找出这条线，并拟合出这条线的表达式，再有新数据，我们就以这条线为区分来实现分类。下图是一个数据集...

2019-08-08 11:11:28 257

转载 75道面试逻辑智力测试题内附详细答案

【1】假设有一个池塘，里面有无穷多的水。现有2个空水壶，容积分别为5升和6升。问题是如何只用这2个水壶从池塘里取得3升的水。由满6向空5倒，剩1升，把这1升倒5里，然后6剩满，倒5里面，由于5里面有1升水，因此6只能向5倒4升水，然后将6剩余的2升，倒入空的5里面，再灌满6向5里倒3升，剩余3升。【2】周雯的妈妈是豫林水泥厂的化验员。一天，周雯来到化验室做作业。做完后想出去玩。"等...

2019-08-08 11:10:03 907

原创机器学习之贝叶斯算法及应用

1. 朴素贝叶斯分类算法原理1.1 概述贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种注：朴素的意思是条件概率独立性1.2 算法思想朴素贝叶斯的思想是这样的：如果一个事物在一些属性条件发生的情况下，事物属于A的概率>属于B的概率，则判定事物属于A通俗来说比...

2019-08-07 14:56:39 1644

原创机器学习之knn分类算及应用

1. KNN分类算法原理1.1 概述K最近邻（k-Nearest Neighbor，KNN）分类算法是最简单的机器学习算法。KNN算法的指导思想是“近朱者赤，近墨者黑”，由你的邻居来推断出你的类别。本质上，KNN算法就是用距离来衡量样本之间的相似度1.2 算法图示从训练集中找到和新数据最接近的k条记录，然后根据多数类来决定新数据类别。算法涉及3个主要因素：训练数据集...

2019-08-07 14:53:06 1426 1

原创机器学习之python语言与numpy库

1 Python快速上手1.1.Python简介Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。Python是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。 Python是交互式语...

2019-08-07 14:45:35 345

原创机器学习之python数据类型详解

python数据类型详解目录1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期1、字符串1.1、如何在Python中使用字符串a、使用单引号(')用单引号括起来表示字符串，例如：str='this is string';print str;b、使用双引号(")双引号中的字符串与单引号中...

2019-08-07 14:37:23 412

原创 Linux系统下开启FTP文件上传服务

Linux开启FTP文件上传服务一：环境介绍：Linux操作系统：Centos6.5二：安装步骤：查看是否安装vsftpdrpm -qa|grep vsftpd2.执行以下安装命令yum install vsftpd3.设置开机启动服务chkconfig vsftpd on4.启动服务service vsftpd start5.配置防火墙关闭防火墙...

2019-08-07 14:20:32 1541

原创 SpingCloud介绍

Spring Cloud介绍Spring Cloud是一个基于Spring Boot的快速构建分布式系统的工具集。将Spring Boot开发单个微服务整合在一起。在微服务架构中，需要几个关键的组件，服务注册与发现、服务消费、负载均衡、断路器、智能路由、配置管理等。1、EurekaEureka Server作为一个独立的部署单元，提供了注册、管理和查询等操作。可以分为两...

2019-08-07 13:56:40 178

转载 Elasticsearch+Hbase实现海量数据秒回查询

我今天分享的是通过ElasticSearch与hbase进行整合的一个搜索案例，这个案例涉及的技术面比较广，首先你得有JAVAEE的基础，要会SSM,而且还要会大数据中的hdfs、zookeeper、hbase以及ElasticSearch和kibana。环境部署在4台centos7上。主机名为node1-node4。这里假设你已经安装好了zookeeper、hadoop、hbase和Ela...

2019-08-07 10:42:54 3358

原创 Kafka面试总结（持续更新中......）

# kafka分区数的确定## 1、kafka分区* Kafka可以将主题划分为多个分区（Partition），会根据分区规则选择把消息存储到哪个分区中，只要如果分区规则设置的合理，那么所有的消息将会被均匀的分布到不同的分区中，这样就实现了负载均衡和水平扩展。## 2、各角色对分区的操作* kafka的生产者和消费者都可以多线程地并行操作，而每个线程处理的是一个分区的数据。因此分区...

2019-08-07 10:16:42 520

原创 Spark面试问题整理（持续更新中......）

Spark应用转换流程 1、spark应用提交后，经历了一系列的转换，最后成为task在每个节点上执行 2、RDD的Action算子触发Job的提交，生成RDD DAG 3、由DAGScheduler将RDD DAG转化为Stage DAG，每个Stage中产生相应的Task集合 4、TaskScheduler将任务分发到Executor执行 ...

2019-08-07 09:22:25 12084 3

原创 Spark计算引擎之SparkStreaming详解

Spark Streaming流式处理1. Spark Streaming介绍1.1 Spark Streaming概述1.1.1什么是Spark StreamingSpark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据...

2019-08-06 17:06:41 757

原创 Spark计算引擎之SparkSQL详解

一、Spark SQL二、Spark SQL1．Spark SQL概述1.1．Spark SQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询，但是Shark继承了Hive的大且复杂的代码使得Shark...

2019-08-06 16:44:48 34581 3

原创 Spark运行机制详解

一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext（3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行...

2019-08-06 16:26:48 692

原创 Spark计算引擎RDD详解

一、Spark计算模型RDD二、弹性分布式数据集RDD2. RDD概述2.1 什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内...

2019-08-06 16:21:07 431

原创 Spark基础教程以及内核解析

SparkSpark的四大组件：SparkSqL，SparkStreaming，SparkMLlib，SparkGraphx基本概念：Spark是一种快速、通用的、可扩展的大数据分析引擎；是基于内存的分布式并行计算的大数据计算框架。为什么学习SaprkSpark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分...

2019-08-06 16:05:08 220

转载用于实时大数据处理的Lambda架构

用于实时大数据处理的Lambda架构原文地址：https://blog.csdn.net/brucesea/article/details/459378751.Lambda架构背景介绍Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm，Lambda架构是其根据多年进行分布式大数...

2018-10-10 10:52:29 3341

转载 hbase数据库详解

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据、HBase数据模型、HBase物理存储、HBase系统架构，HBase调优、HBase Shell访问等。不过在此之前，你可以先了解 Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5个节点的hadoop集群环境（CDH5）。好了，让我们来学习HBase吧！...

2018-08-10 13:52:30 52287 2

原创 Docker安装以及原理详解

Dockerdocker简介1.1虚拟化1.1.1什么是虚拟化在计算机中，虚拟化（英语：Virtualization）是一种资源管理技术，是将计算机的各种实体资源，如服务器、网络、内存及存储等，予以抽象、转换后呈现出来，打破实体结构间的不可切割的障碍，使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是不受现有资源的架设方式，地域或物理组态所限制。一般所指的虚拟化资...

2018-07-17 14:14:06 18914 1

原创 linux系统下安装oracle详解

本文档采用centos 6.x下静默安装Oracle 11g R2硬件要求：物理内存不少于1G硬盘可用空间不少于5Gswap分区空间不少于2G一．设置系统（root用户下） #vi /etc/redhat-release//操作系统，系统只支持Red Hat Enterprise Linux 6，CentOS 6其实就是RHEL6，但Oracle不认，所以要改一下#CentOS release 6...

2018-07-13 15:55:46 1052

原创 Sqoop导入导出

Sqoop 导入“导入工具”导入单个表从 RDBMS 到 HDFS。表中的每一行被视为 HDFS 的记录。所有记录都存储为文本文件的文本数据（或者 Avro、sequence 文件等二进制数据）。下面的语法用于将数据导入 HDFS。$ sqoop import (generic-args) (import-args)Sqoop 测试表数据在 mysql 中创建数据库 userdb,创建三张表: e...

2018-07-11 16:31:20 379

原创 ElasticSearch简单入门案例

1、原生操作使用 Xput创建索引说明：RESTful接口URL的格式：http://localhost:9200/<index>/<type>/[<id>]其中index、type是必须提供的。id是可选的，不提供es会自动生成。index、type将信息进行分层，利于管理。index可以理解为数据库；type理解为数据表；id相当于数据库表中记录的主键，是唯...

2018-07-11 16:27:32 4878

原创 ambari2.6.2安装详解

一、环境准备1、准备三台机器centos6.5Server：node-1（192.168.80.137）Agent：node-2（192.168.80.138），node-3（192.168.80.139）注：以下操作如无特殊说明，均需在3台机器上进行 2、设置FQDN修改/etc/hosts文件，设置fqdn：vi /etc/hosts192.168.80.137 IOP137.ambari.c...

2018-07-10 17:44:19 2298

原创 Oozie4.3.1安装指南详解

一、环境支持Oozie4.3.1Centos 6.5Java JDK 1.8Maven 3.5.4Hadoop2.7.4Pig0.17二、安装步骤详解Java的安装1、解压安装包tar -zxvf jdk-8u73-linux-x64.gz -C /export/service2、配置环境变量vi /etc/profileexport JAVA_HOME=/export/service/jdk1....

2018-07-09 19:44:16 1472

原创 Hadoop2.7.4安装部署详解

Hadoop集群安装文档一．安装步骤1 ．发行版本Hadoop 发行版本分为开源社区版和商业版，社区版是指由 Apache 软件基金会维护的版本，是官方维护的版本体系。商业版 Hadoop 是指由第三方商业公司在社区版 Hadoop 基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本，比较著名的有 cloudera 的 CDH、mapR 等。我搭建的是社区版：Apache Hado...

2018-07-09 15:36:11 3669

空空如也

空空如也