自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 IDEA提示jar包不存在,但是jar包已经导入

idea提示jar包不存在问题

2022-09-06 11:41:02 1404 1

原创 spark写hive本地运行报错

Please make sure that jars for your version of hive and hadoop are included in the paths passed to spark.sql.hive.metastore.jars

2022-06-17 15:03:06 456

原创 The root scratch dir: tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-

The root scratch dir: tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-

2022-06-17 14:58:25 567

原创 java模糊匹配redis集群中的key

public Set<String> getAllKeys(String pattern){ Set<String> result = new HashSet<>(); try { Map<String, JedisPool> clusterNodes = jedisCluster.getClusterNodes(); for (Map.Entry<String, JedisPool> ent

2021-12-14 13:58:14 2086

原创 java使用密码连接Redis集群

public class RedisClusterUtil { private static JedisCluster jedis = null; //可用连接实例的最大数目,默认为8; //如果赋值为-1,则表示不限制,如果pool已经分配了maxActive个jedis实例,则此时pool的状态为exhausted(耗尽) private static Integer MAX_TOTAL = 10; //控制一个pool最多有多少个状态为idle(空闲)的jed

2021-12-14 13:49:58 2361

原创 修改hdfs文件所属用户提示:Non-super user cannot change owner

hdfs dfs -chown -R test /apps/hive/test.db/test.dat报错:chown: changing ownership of ‘/apps/hive/test.db/test.dat’: Non-super user cannot change owner使用如下命令可以正常修改:sudo -u hdfs hadoop fs -chown -R test /apps/hive/test.db/test.dat...

2020-09-03 09:30:18 2303

原创 hive 中 unnest的使用

unnest 类似 hive中的侧视图如数据:id infos1 01,02,032 04,05,06select id,info from test cross join unnest(split(info,',')) as info输出如下1 011 021 032 042 052 06

2020-09-02 17:22:41 3663

原创 hive分区表的创建和数据加载

create table ipbc(ip string)partitioned by(ds string)row format delimited fields terminated by '\t';load data local inpath '/root/ztj/ipbc0705.txt' into table ipbc partition (ds='2020-07-05');insert into table ipbc partition (ds='20200706') select

2020-07-14 17:05:28 205

原创 hive拉链表实战

–第一步:数据库源表orders()create table orders(order_id int,createtime string,modifiedtime string,status string)20190821开始做拉链表 数据如下±--------------------------------±----------------------------------...

2020-01-11 15:25:10 379

转载 submit Spark sql脚本并行度调优

添加链接描述

2020-01-06 20:36:06 221

原创 spark中dataset对象使用map算子报错问题

报错:Error:(29, 32) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for s...

2019-12-01 21:52:39 1406

原创 kettle连接hadoop报错问题

连接参数如下报错截图:the hadoop file system url dose not match the shims core-site.xml解决办法:将hadoop下etc/hadoop/下的所有xml配置配置文件,拷贝到kettle目录下(如下图标记的目录)路径:data-integration\plugins\pentaho-big-data-plugin\hadoop...

2019-11-27 21:39:48 1992

转载 linux中YUM安装MySQL5.7 linux

添加链接描述

2019-10-31 15:58:29 85

转载 yum源安装高版本mysql

添加链接描述

2019-10-31 15:18:04 210

转载 卸载mysql

添加链接描述

2019-10-31 15:15:19 70

原创 mapreducer的运行机制

mapreducer的运行机制map阶段1 通过读取数据组件 InputFormat (默认 TextInputFormat) 将文件进行逻辑切片,然后启动对应切片个数的maptask任务2 通过recordread读取数据,返回<key1,value1>的键值对3 进入自定义的mapper类中,调用map函数,读取一行记录就会调用一次,输出处理后的键值对;map的shuff...

2019-10-18 21:45:28 154

原创 mapreduce入门案例

worldcount输出单词出现的次数代码编写步骤1自定义mapper类继承自Mapper,自定义mapper主要是将,<k1,V1>转换成 <k2,v2>public class WordCountMapper extends Mapper<LongWritable,Text, Text , LongWritable> { //map方法就是将...

2019-10-18 21:42:38 117

原创 HDFS的高可用机制

在典型的HA集群中,两台独立的机器被配置为NameNode。在工作集群中,NameNode机器中的一个处于Active状态,另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作,而Standby充当从服务器。Standby机器保持足够的状态以提供快速故障切换(如果需要)。ZKFC进程中的三个组件ZKFailoverController是基于Zookeepe...

2019-10-18 21:38:49 144

原创 HDFS的api操作

1.2 使用文件系统方式访问数据### 1.2.1 获取 FileSystem 的几种方式* 第一种方式```java@Testpublic void getFileSystem1() throws IOException { Configuration configuration = new Configuration(); //指定我们使用的文件系统类型: c...

2019-10-18 21:33:21 104

原创 FsImage 和 Edits 详解

edits• edits 存放了客户端最近一段时间的操作日志• 客户端对 HDFS 进行写文件时会首先被记录在 edits 文件中• edits 修改时元数据也会更新fsimage• fsimage 存放了一份比较完整的元数据信息• 因为 fsimage 是 NameNode 的完整的镜像, 如果每次都加载到内存生成树状拓扑结构,这是非常耗内存和CPU, 所以一般开始时对 Nam...

2019-10-18 21:29:38 596

原创 HDFS 文件读取过程

Client向NameNode发起RPC请求,来确定请求文件block所在的位置;NameNode会视情况返回文件的部分或者全部block的主机列表,namenode会对列表进行排序,排序两个规则:网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE,这样的排靠后;Client 选取排序靠前的 DataNode 来读取 block,如果客户端本身就是D...

2019-10-18 21:27:13 97

原创 hdfs文件的写入过程

</head><body ><h1>这里以一个namenode,3个datanode为例</h1> <ul> <li>client 发送上传文件的请求</li> <li>namenode接收到请求后会检查上传权限,</li> <li> 如果符...

2019-10-18 21:24:38 231

原创 hdfs基准测试

测试写入速度hadoop jar /export/servers/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB完成之后查看写入速度结果hdfs dfs -text /benchmarks...

2019-10-18 20:54:23 151

原创 hdfs的安全模式

安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时 候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是3,那么在datanode上就应该有3个副本存 在,假设只存在2个副本,那么比例就是2/3=0.666。hdfs默认的副本率0.999。我们的副本率,0.666明显小于0.999,因此...

2019-10-18 20:50:11 134

原创 hdfs常用的命令

HDFS常用命令类似于Linux的ls命令,显示文件列表hdfs dfs   -ls /在整个目录下递归执行ls, 与UNIX中的ls-R类似hdfs dfs   -ls -R /创建目录。使用-p参数可以递归创建目录hdfs dfs -mkdir dir2hdfs dfs -mkdir -p dir3/testput将单个的源文件src或者多个源文件srcs...

2019-10-18 20:48:54 214

原创 HDFS的副本机制和机架感知

1 HDFS 文件副本机制所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中,作用如下1. 一个文件有可能大于集群中任意一个磁盘,引入块机制,可以很好的解决这个问题2. 使用块作为文件存储的逻辑单位可以简化存储子系统3. 块非常适合用于数据备份进而提供数据容错能力在 Hadoop1 当中, 文件的 block 块默认大小是 64M, hadoop2 当中, 文件的 b...

2019-10-18 20:46:16 401

原创 NameNode和DataNode

1 ,NameNodeNameNode在内存中保存着整个文件系统的名称 空间和文件数据块的地址映射整个HDFS可存储的文件数受限于NameNode的内存大小1,管理元数据信息2,管理数据块(Block)映射信息 ,配置副本策略3,处理客户端读写请求。4,NameNode心跳机制 全权管理数据块的复制,周期性的接受心跳和块的状态报告信息(包 含该DataNode上所有数据块的列表) 若接...

2019-10-18 20:45:10 381

原创 hadoop集群 中每个角色的用途(非高可用模式)

HDFS是主/从(Mater/Slave)体系结构 ,HDFS由四部分组成,HDFS Client、NameNod e、DataNode和Secondary NameNode。每个服务的作用1、Client:就是客户端。文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存 储。与 NameNode 交互,获取文件的位置信息。与 DataNo...

2019-10-18 20:43:39 551

原创 hadoop配置文件修改

#######################################################################core-site.xml<configuration> <!-- 指定集群的文件系统类型:分布式文件系统 --> <property> <name>fs.default.name</nam...

2019-09-17 20:11:41 2094

原创 hadoop集群部署

1、 Hadoop的介绍狭义上来说,hadoop就是单独指代hadoop这个软件,HDFS :分布式文件系统MapReduce : 分布式计算系统Yarn:分布式集群资源管理广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件2、hadoop的历史版本和发行版公司**####################################################...

2019-09-17 19:53:54 217

原创 hadoop集群环境准备

1 安装vm虚拟机和centos6.9系统安装好后克隆两份,(这里使用三台机器搭建hadoop集群)2 修改克隆系统的 配置文件vim /etc/udev/rules.d/70-persistent-net.rules修改name=“eth0”vim /etc/sysconfig/network-scripts/ifcfg-eth0修改网卡信息HWADDR 与70-persist...

2019-09-17 19:37:49 89

jdk1.8 无需安装,配置java_home 即可使用

jdk1.8 无需安装,配置java_home 即可使用

2022-10-09

scala-2.11 环境,免安装版,配置环境变量即可使用

scala-2.11 环境,免安装版,配置环境变量即可使用

2022-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除