自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 资源 (1)
  • 收藏
  • 关注

原创 fastjson--对象与JSON之间的转换方法

json 和 java 之间的各种转换,进行网络传输数据时常用

2023-03-29 16:44:36 7515

原创 shell脚本快速入门(适合新学习者)

shell脚本快速入门常用基本命令命令:letexpr命令计算字串长度抓取字串抓取第一个字符数字串出现的位置整数运算Shell 变量定义变量使用变量只读变量删除变量变量类型Shell 字符串单引号双引号拼接字符串获取字符串长度提取子字符串查找子字符串Shell 数组定义数组读取数组获取数组的长度Shell 注释多行注释Shell 传递参数Shell 基本运算符算术运算符关系运算符布尔运算符逻辑运算符字符串运算符文件测试运算符Shell echo命令1.显示普通字符串:2.显示转义字符3.显示变量4.显示换行

2022-02-23 19:27:21 3570

原创 Kafka入门简介

Kafka入门简介什么是 KafkaKafka 是由 Linkedin 公司开发的,它是一个分布式的,支持多分区、多副本,基于 Zookeeper 的分布式消息流平台,它同时也是一款开源的基于发布订阅模式的消息引擎系统。Kafka 的基本术语brokerbroker指的是kafka的服务端,可以是一个服务器也可以是一个集群。producer和consumer都相当于这个服务端的客户端。Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka

2022-02-09 15:31:55 469

原创 从ES中读取数据,并将数据输出到本地(本地执行)

从ES中读取数据,并将数据输出到本地(本地执行)

2022-02-07 10:45:17 1944

原创 ES的一些常用命令

自学ES常用的一些入门命令

2022-01-27 15:53:19 8732

原创 python入门

python入门计算机相关知识变量条件语句循环语句while循环字符串字符串截取字符串格式化:将数字和字符串相结合字典 dict二维字典的遍历计算机相关知识unicode:32位,4个字节。优点:包含所有语言;弊端:占空间太大utf-8:对汉字编码,占3个字节GBK: 2个字节变量a=1b=2c=3d=a+b+cprint(d)条件语句if 9>10: print("假的")else: print("不是的")循环语句a=1while a<3:

2020-07-06 22:10:49 206

原创 Hive 的一些优化方法

Hive 的优化方法

2020-05-21 20:34:13 278 1

原创 yarn的一些知识点

yarn的一些知识点1.1、 YARN 概述1.2、原 MapReduce 框架的不足1.3、新版 YARN 架构的优点1.4、 YARN 的重要概念1.4.1、 ResourceManager1.4.2、 NodeManager1.4.3、 MRAppMaster1.4.4、 Container1.4.5、 ASM1.4.6、 Scheduler1.5 yarn的作业执行流程1.1、 YARN 概述YARN(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算

2020-05-15 11:13:36 1268

原创 yarn 的作业执行流程

yarn 的资源调度过程yarn 架构及各个角色的职责yarn 的作业执行流程另一种解释:yarn 架构及各个角色的职责yarn 的作业执行流程1、用户向 YARN 中提交应用程序,其中包括 MRAppMaster 程序,启动 MRAppMaster 的命令、用户程序等。2、 ResourceManager 为该程序分配第一个 Container,并与对应的 NodeManager 通讯,要求它在这个 Container 中启动应用程序 MRAppMaster。3、 MRAppMaster 首

2020-05-10 10:11:32 583 2

原创 sqoop使用入门

sqoop的使用数据导入 importmysql to hdfsmysql to hivemysql导入hive 过程普通导入导入到hive的指定库和表mysql to hbase数据导出hdfs to mysqlhive to mysqlhbase to mysqlsqoop使用时,第一个要用到的命令是:sqoop help 查看帮助文档第二个常用命令是:sqoop help COMM...

2020-04-03 16:58:51 400

原创 sqoop基本知识

sqoop基本知识sqoop产生背景sqoop是什么数据导入的方向sqoop的工作机制sqoop产生背景最早 数据存储是基于传统关系型数据库。随着数据量增长,传统的数据存储方式无法满足需求,换一种新的存储策略。 hdfs 分布式存储 应运而生。但传统的关系型数据库(mysql /oracle)里所存储的数据, 需要迁移到大数据平台。sqoop应运而生。sqoop 是 apache 旗下一款Ha...

2020-03-29 00:16:40 315

原创 HBASE的设计

HBASE的设计hbase的表设计hbase的列族设计hbase的行键设计hbase的表设计表设计应当做到:1)防止数据热点问题,建表的时候,最好进行表的预分区。并且插入的时候,rk 不要顺序递增。预分区的个数,不要超过regionserver个数。具体以数据量进行预分区。2)列族不建议过多hbase的列族设计列族设计应该注意以下几点:1)将具有相同io属性的列放在同一个列族中...

2020-03-24 16:43:56 335

原创 hbase各个角色的分工

hbase各个角色的分工hmaster 的职责hregionserver 的职责zookeeper 的职责hmaster 的职责1)进行region的分配,决定每一个region 分到哪一个regionserver上。2)负责 RegionServer 的负载均衡。3)通过zookeeper发现失效的 RegionServer 并重新分配其上的 region。4)HDFS 上的垃圾文件...

2020-03-23 14:27:50 1603

原创 Hbase 的相关原理

Hbase 的相关原理hbase架构hbase中的核心概念region 分区hbase架构Hbase是主从架构:主:hmaster从:hregionserverhregionserver 里面存储的是一个个 regionhbase中的核心概念region 分区每一个表的数据, 都需要划分为多个regionregion 是对hbase表在行的方向上的划分,一个region代表的是...

2020-03-15 19:32:08 397

原创 Hbase 和 hive 的整合

Hbase 和 hive 的关联

2020-03-14 11:07:33 404

原创 hbase的api操作

hbase的api操作TestHbaseConnectionTestHbaseDDLTestHbaseDMLTestHbaseFilter总结TestHbaseConnection两大对象:HbaseConfiguration: hbase的加载配置文件的对象,用于加载默认配置文件 hbase-dafult.xmlConnection: hbase的连接对象package hba...

2020-03-08 21:42:20 2245

原创 Hbase的产生背景

Hbase的产生背景GOOGLEDOUG CUTTING:GOOGLEgoogle是做搜索引擎的,面临3大问题及解决方案: 1、海量网页数据存储 ----> GFS 2、海量网页数据的计算 -----> MAPREDUCE 3、快速随机查询 -------> bigtable DOUG CUTTING:DOUG CUTTING 也在...

2020-03-03 22:27:15 509

原创 yarn 的 job 提交过程

yarn 的 job 提交过程各个角色作用:各个角色作用:resourcemanager的作用resourcemanager 1)接受客户端的请求 job提交 2)接受mrappmaster的请求 3)进行资源分配和调度 4)接受nodemanager 心跳 5)监控nodemanager 资源使用状况nodemanager的作用nodemanager: 1)接受reso...

2020-01-07 17:25:08 289

原创 zookeeper 的原理 及 集群选主

zookeeper 的原理 及 集群选主zookeeper中的角色:详解stat信息:非全新集群选主:数据同步过程:zookeeper中的角色:leader : 发起提议 接受客户端的读写请求 主要处理写请求 具有选举权 和 被选举权 时刻具备最新数据 follower 接受客户端的读写请求 读请求可以自己处理 如果接受到客户端的写请求 将写请求转发给leader 具...

2020-01-07 17:17:45 323

原创 mapreduce 自定义分区的实现

题目:有如下流量数据,要求 按照手机号 归属地进行分区。其中:134—136 归属地属于上海137—138 归属地属于北京139—159 归属地属于深圳其它归属地未知手机号 上行流量 下行流量 总流量13480253104 2494800 2494800 498960013502468823 101663100 1529437140 1631100240...

2019-12-16 16:09:23 476

原创 java.io.IOException: (null) entry in command string: null ls -F *... 解决办法

我的运行环境是eclipse:mapreduce在windows上运行时,指定输入路径的时候,如果路径下有很多文件,往往无法一次性识别。会遇到:java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: (null) entry in command ...

2019-12-14 18:52:22 3967 6

原创 hadoop中的各个模块及其作用

hadoop中的各个模块及其作用hdfs的组成yarn的组成hdfs的组成namenode(nn):存放元数据信息,存储文件名称,文件属性,文件块列表,所在dn节点列表。datanode(dn):存放具体的block块,检验文件。secondarynamenode(2nn):降低namenode压力,辅助作用。yarn的组成ResourceManager(rm):整个集群的资源调...

2019-12-11 10:10:31 3029

原创 mapreduce wordcount的java实现

整个实现过程可以用3个方法来实现:mapper、reducer、drivermapper方法如下:package com.aura.cn.mapreduce;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import...

2019-12-09 19:58:29 332

原创 增强for循环样例 (foreach)

public class ZengQiangForXunHuan { public static void main(String[] args) { int [] a = {1,3,5,7,89}; for(int i=1;i<a.length;i++) { System.out.println(a[i]); } System.out.println("------...

2019-12-09 19:11:40 105

原创 mysql练习题(做溜这几十道题,面试不再怕mysql任何问题)

有如下4张表:1、学生表mysql> select * from student;+------+--------+------------+-------+| s_id | s_name | s_birth | s_sex |+------+--------+------------+-------+| 01 | 赵雷 | 1990-01-01 | 男 || 0...

2019-12-06 20:50:40 204

原创 mysql 中(@i:=@i+1)的使用

原始表如下:mysql> select * from t;+------+--------+-------+| Name | Month | Sale |+------+--------+-------+| emi | 201801 | 10000 || emi | 201802 | 11000 || emi | 201903 | 12000 || tom | 2...

2019-12-05 15:43:35 1481

原创 mysql 和 hive 中几种关联(join/union) 的区别

两个表如下:mysql> select * from t1 ;+----+--------+| id | Name |+----+--------+| 2 | tim || 3 | hannah || 4 | samuel || 1 | jacob |+----+--------+mysql> select * from t2 ;+----+...

2019-12-05 15:10:22 1103

原创 自己会用到的一些命令

一些常用命令单独启动namenode:hadoop-deamon.sh start namenode将一个表从一个数据库移动到另一个数据库:use old_database;alter table table_a rename to new_database.table_a...

2019-12-05 12:50:43 76

原创 hive中 几个by的区别

hive 中几个by的区别group by:聚合函数分组,不排序。order by:全局排序sort by:局部排序(每个reducetask的结果中有序)每一组是有序的,但全局不一定有序。distribute by:分桶有多个文件,全局排序,难度很高,所以采取分桶排序。cluster by:分桶如果distribute by后面的字段 和 sort by 后面的字段一致,则:d...

2019-12-03 13:23:22 882

原创 hive 窗口函数/分析函数/开窗函数 over (以用户访问流量为例)

hive 窗口函数/分析函数/开窗函数 over (以用户访问流量为例)题目:现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,20...

2019-11-26 18:13:38 443

原创 hive 窗口分析函数 over:以 student表为例 求年龄top2

hive 窗口分析函数 over学生表student:求:每个部门年龄最大的2个人的信息。方法1:方法2:学生表student:hive> select * from student;OKstudent.id student.name student.sex student.age student.dept95002 刘晨 女 1...

2019-11-26 17:14:21 485

原创 hive 的查询语法

hive 的查询操作几个参数设置参数hive 的查询语法首先,进入hive cli后,输入命令: set hive.cli.print.header=true;设置输出结果显示表头。几个参数设置参数In order to change the average load for a reducer (in bytes):每一个reducetask最终能够加载的数据量set hive.exe...

2019-11-20 14:56:21 412

原创 hive 的入门及基本操作

hive 的基本操作hive的ddl操作数据库的操作表的操作1)建表2)查看表列表3)查看表的详细信息4)修改表4.1 修改表的列信息4.1.1 修改表的列名、类型4.1.2 添加列4.1.3 替换列4.1.4 删除列4.2 修改表的分区信息hive的dml操作hive的ddl操作DDL:data define language 数据定义语言数据库的操作1)创建数据库create da...

2019-11-06 15:56:29 250

原创 大数据入门及集群搭建(3个节点做示范)

1.大数据1.1 什么是大数据传统处理方式无法解决的大而且复杂的数据集(存储和计算)1.2 大数据的四个特性数据量大种类多速度快: 产生数据的速度快,要求时延小价值高: 整体价值,单条记录没有价值1.3 大数据价值应用2.Hadoop2.1.什么是hadoop​ 大数据存储和计算的一整套解决方案,软件平台2.2.hadoop的核心组件 * Common(基础设施...

2019-10-31 10:58:12 1968

原创 HBASE的寻址机制和存储机制

HBASE的寻址机制寻址机制读机制写机制寻址机制现在假设我们要从 user_info 里面寻找一条 RowKey 是 rk0001 的数据。那么我们应该遵循以下步骤:从.META.表里面查询哪个 Region 包含这条数据。获取管理这个 Region 的 RegionServer 地址。连接这个 RegionServer,查到这条数据。系统如何找到某个 RowKey (或者某个 R...

2019-10-24 11:28:39 762

原创 HBASE表结构、优缺点及设计思想

HBASE表结构、优缺点及设计思想HBASE来源HBASE特点hbase的表结构:hbase的优缺点:hbase的设计思想HBASE来源来自于google,最初是Google面临 海量网页数据 提出的解决方案。 来自于google的一篇论文: bigdataHBASE特点HBASE是面向列的。hive : 传统关系型数据库,是面向行的方式的。(一行数据,一定是存在一个文件中的)...

2019-10-22 16:24:36 1813

原创 HBASE的shell操作

HBASE的shell操作Group name: general 通用命令Group name: namespace进入shell界面(启动hbase客户端):hbase shell进入客户端后,可以使用help命令来查看命令分组:help命令分组分为:COMMAND GROUPS: Group name: general Commands: status, t...

2019-10-21 19:26:56 701

原创 hive 常用的一些内置函数

hive的一些常用函数nvlnvl首先在hive里输入:desc function nvl;出现提示:nvl(value,default_value) - Returns default value if value is null else returns value如果value值为null,则返回default值,不为null,则返回value值。eg:select nvl...

2019-10-18 20:25:19 656

原创 Hive 的优缺点及数据倾斜

HIVE 笔记hive的数据倾斜hive的数据倾斜什么是数据倾斜?由于数据分布不均匀,造成数据大量集中于一点,造成数据热点。hadoop框架特性不怕数据量大,怕数据倾斜jobs 数比较多的作业,运行效率相对比较低,例如 子查询比较多。sum、count、max、min等聚集函数,通常不会有数据倾斜问题。数据倾斜的主要表现:任务长时间维持在95%~100%之间,或者100%附近,...

2019-10-14 22:31:34 578

原创 zookeeper的文件系统、shell常用命令、及监听机制的shell命令

zookeeper的文件系统及监听机制zookeeper的文件系统文件系统:zookeeper中znode的分类:各种类型节点创建方式:zookeeper的操作命令zookeeper的监听机制zookeeper的文件系统文件系统:1)zk的文件系统的结构类似于linux的,从 / 开始2)zk的文件系统访问方式:绝对路径 (访问任何路径都要从 / 开始(类似于hdfs))3)zk中...

2019-10-09 22:31:07 426

FPGA设计高级技巧Xilinx篇

FPGA设计高级技巧Xilinx篇,可以帮助初学者快速入门FPGA的设计与开发,是一篇不错的文档。

2014-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除