kClown1-CSDN博客

原创学习MaxCompute

学习MaxCompute什么是MaxCompute购买客户端- DataWorks- 命令行- idea什么是MaxCompute托关于阿里云上的EB级数据仓库类似于hive,不需要自己运维。使用它只需要一个谷歌浏览器访问阿里云，可以在浏览器的界面写sql进行数据分析购买由于是存储在云端所以使用肯定要收取存储和计算费用，选择按量付费，购买的时候都是0元开发者版：提供一部分免费。超出的部分...

2020-01-08 18:56:13 285

原创 kafka的数据迁移

使用命令生成迁移计划新建文件topic-to-move.json 加入内容如下： {"topics": [{"topic":"test-topic"}], "version": 1使用–generate生成迁移计划kafka-reassign-partitions --zookeeper cdh-002/kafka \ --topics-to-move-jso...

2019-06-25 11:27:50 460

原创 kafak组件详解

kaffka组件介绍：Topic ：消息根据Topic进行归类broker：每个kafka实例(server) ,相当于一个节点zookeeper:分布式服务框架在kafka 中的作用主要负责保存topic ，partition 元数据，和对broker 的监控及治理，以及partition 的leader 选举partition:分区，topic 中的消息都是存放在patition 中...

2019-06-25 11:14:07 376

原创 flume自定义拦截器和自定义source

拦截器拦截器是处理从source到channel的的数据处理静态拦截器：#指定拦截器的名字 a1.sources.r1.interceptors = i1 a1.sources.r1.interceptors.i1.type = static #指定键的名称 a1.sources.r1.interceptors.i1.key = type #指定值得...

2019-05-17 16:21:13 917

原创 flume详解

flume介绍：flume源码地址：https://github.com/apache/flume/flume的核心角色是agent,agent是一个java进程。agent相当于一个快递员。agent包括source，channel，sink,channel是为了防止source到sink数据丢失他们之间流动传输的最小单元是event，如果是文件则一行数据就是一个event一个eve...

2019-05-17 16:14:30 468

原创 sqoop的增量导入和split by

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。，底层运行的mr列出所有数据库：bin/sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password hadoop导入mysql表数据到HDFSbin/sqoop import \--connect jdbc...

2019-05-15 15:21:26 432

原创 hive常用的函数和udf开发

hive的udf开发继承udf这个类，方法重载evaluate1. add jar /opt/udftest.jar2. create temporary function 功能名as “主类路径”;使用python脚本transform开发：1. add FILE weekday_mapper.py;2. SELECT TRANSFORM (要转化的字段)USIN ‘python...

2019-05-14 15:41:40 700

原创 hive的压缩

hive支持存储的表的文件压缩，压缩可以减少空间，但同时耗费性能建表语句create table if not exists tb02(name string,age int ,male varchar(2) )row format delimited fields terminated by "," stored as sequencefile;hive支持的压缩格式：开启压缩...

2019-05-14 15:25:51 132

原创 hive的join操作

**hivejoin的三种形式**shuffle join：是hive中的普通的join方式，基于map/reduce实现，join的key通过shuffle汇集到相应的reduce里做join。这种join方式不考虑数据量和数据模型设计，比较耗费资源，是较慢的join策略。map join，join时，将小表load到每个节点的内存中，和大表在该节点上的数据进行join，在map端完成...

2019-05-14 15:18:22 374

原创 hive的建表语句

建表语句create [external] table [if not exists] table_name[(col_name data_type [comment col_comment], ...)][comment table_comment][partitioned by (col_name data_type [comment col_comment], ...)][clus...

2019-05-14 15:14:46 544

原创 hive元数据表详解

我的hive元数据是放在mysql下的**数据库相关的元数据表**（DBS、DATABASE_PARAMS）DBS:该表存储Hive中所有数据库的基本信息DATABASE_PARAMS:该表存储数据库的相关自定义描述信息hive数据表的元数据表（TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联）TBLS：表的相关信息，如表的拥有者、创建时间...

2019-05-14 14:27:01 334

原创 MapReduce的工作机制

以wordcount为例map过程首先，读取数据组件 InputFormat （默认 TextInputFormat）会通过 getSplits方法对输入目录中文件进行逻辑切片规划得到 splits。split=block的个数将输入文件切分为 splits 之后，由 RecordReader 对象(默认LineRecordReader）进行读取，以\n 作为分隔符...

2019-05-08 09:34:45 215

原创管理hadoop集群

使用 hadoop dfsadimn管理集群命令说明-metasave正在复制和等待复制的块的信息；-report报告集群的信息状态-safemodeenter 进入安全模式，leave离开安全模式-saveNamespace将当前内存中的文件系统映像保持为一个新的fsimage文件，重置edits文件。该操作仅在安全模式下进行*-resto...

2019-05-06 15:56:11 247

原创 hadoop文件目录详解

Dfs:hdfs文件系统，data:datanode目录，name：namenode目录Mapred：MapReduce目录Name目录：1.Current:里面包含edits、fsimage、seen_txid、VERSIONedits 日志：客户端执行写操作会先写入edits日志，并且在内存中保留Fsimage :namenode的镜像文件，每次checkpoing（合并所...

2019-05-06 15:46:34 4716

原创学习matplotlib解决显示中文问题

#解决显实中文问题plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False使用matplotlib绘制一个动态心形import matplotlib.pyplot as pltimport numpy as npimport mathfrom matplotlib.widge...

2018-12-06 15:22:38 170

原创机器学习第一天

1、机器学习关注的问题根据有无标签分为监督学习和非监督学习。监督学习又分为分类问题和回归问题。非监督学习有聚类问题。2、机器学习所需要的知识微积分对应的有梯度下降法、牛顿法。“梯度下降法使用平面逼近局部，牛顿下降法使用曲面接近局部”线性代数大多数的循环操作可以转化成矩阵之间的乘法，所以就和线性代数有关系。主要有PCA和奇异值分解SVD概率估计与统计极大似然思想、贝叶斯模型、高斯分布...

2018-12-06 15:17:55 79

原创 Python学习第一天

Python学习第一天1、python的注释（1）单行注释： #（2）多行注释：三个引号"""你好"""（3）解决中文乱码#coding=utf-8或者#_*_ coding:utf-8 _*_2、python的类型通过type（）获取变量的类型python的数据类型：3、输出1、输出print(self, *args, sep=' ', end='\n', ...

2018-11-26 15:15:02 90

原创 Elasticsearch查找出某个字段下的所有内容

通过exists和missing过滤可以找到文档中是否包含某个字段或者是没有某个字段具体列子GET /school/_search{ "query": { "exists": { "field": "birth" } }}birt代表字段java代码existsQuery("name"); ...

2018-11-23 10:50:13 6374 2

转载 Linux常用的排查cpu、io、网络、内存常用的工具

1、cpu工具描述uptime平均负载vmstat包括系统范围的cpu平均负载mpstat查看所有cpu核信息top监控每个进程cpu用量sar -u查看cpu信息pidstat每个进程cpu用量分解perfcpu剖析和跟踪，性能计数分析说明:uptime,vmstat,mpstat,top,pidstat只能查询到...

2018-11-22 09:33:50 2695

原创 Awk读取文件第5行到第十行内容输出其中包含a关键字的行号以及内容

awk 'NR&amp;amp;gt;=5&amp;amp;amp;&amp;amp;amp;NR&amp;amp;lt;=10&amp;amp;amp;&amp;amp;amp;match($0,'a'){print NR,$0}' awk命令形式:awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file[-F|-f|-v] 大参数

2018-11-16 13:11:58 4400

原创 elasticsearch映射dynamic详解以及指定日期的格式

ES中有一个非常重要的特性——动态映射，即索引文档前不需要创建索引、类型等信息，在索引的同时会自动完成索引、类型、映射的创建。那么什么是映射呢？映射就是描述字段的类型、如何进行分析、如何进行索引等内容。当ES在文档中碰到一个以前没见过的字段时，它会利用动态映射来决定该字段的类型，并自动地对该字段添加映射。有时这正是需要的行为，但有时不是，需要留意。你或许不知道在以后你的文档中会添加哪些字段，但...

2018-11-09 11:12:14 1468

转载 Top命令详解

接触 linux 的人对于 top 命令可能不会陌生（不同系统名字可能不一样，如 IBM 的 aix 中叫 topas ），它的作用主要用来监控系统实时负载率、进程的资源占用率及其它各项系统状态属性是否正常。下面我们先来看张 top 截图：（1）系统、任务统计信息：前 8 行是系统整体的统计信息。第 1 行是任务队列信息，同 uptime 命令的执行结果。其内容如下： ...

2018-11-09 10:46:14 1261

转载 Linux堆内存溢出排查定位到具体的线程

1、问题背景昨天下午突然收到运维邮件报警，显示数据平台服务器cpu利用率达到了98.94%，而且最近一段时间一直持续在70%以上，看起来像是硬件资源到瓶颈需要扩容了，但仔细思考就会发现咱们的业务系统并不是一个高并发或者CPU密集型的应用，这个利用率有点太夸张，硬件瓶颈应该不会这么快就到了，一定是哪里的业务代码逻辑有问题。 2、排查思路 2.1&nbsp;定位高负载进程&nbsp;pi...

2018-11-09 10:37:39 6426 3

原创使用SparkStreaming+Kafka+Flume的实现wordcount一个简单的小项目

使用SparkStreaming+Kafka+Flume的一个简单的小项目整体架构用Flume采集数据源下沉到Kafak中，再用SparkStreamming对数据做一个简单的WordCount;下面是具体代码：1.Flume的conf的配置#为我们的source channel sink起名a1.sources=r1a1.channels=c1a1.sinks=k1#指定我们的s...

2018-09-22 21:35:03 462

qq_43227570的博客