秃头小姐-CSDN博客

原创 hive调优汇总

mapjoin：默认打开行列技术：join where => where + join采用分区列存储（加快查询速度）压缩（减少磁盘IO）合理设置map个数块大小：max(1, min(快大小，Long的最大值))块大小一般设置128m数据 =》1个maptaskdistribute by rand()，将数据随机分区，保证每个分区的数据流基本一致合理设置reduce个数；可以根据数据量适当增加reduce个数；小文件如何产生？动态分区reduce个数设置的过多;分区的key.

2021-04-12 14:21:46 175

原创数据倾斜

数据倾斜就是在计算数据的时候，数据的分散度不够，导致大量的数据集中到了集群中的一台或者几台机器上计算，而集群中的其他节点空闲。这些倾斜了的数据的’计算速度远远低于’平均计算速度，导致整个计算过程过慢。产生原理：以Spark和Hive的使用场景为例数据运算的时候会涉及到，'count distinct、group by、join on'等操作，这些都会触发'Shuffle'动作。一旦触发Shuffle，所有'相同key'的值就会被拉到'一个或几个Reducer'节点上，容易发生单点计算问题，导致数据倾斜

2021-04-12 14:21:01 160

原创 Spark中的Standalone 模式配置时的坑

1、sbin/start-all.sh直接群起--可能错误原因：之前已经开启了Hadoop集群，all会重复启动，会造成DataNode假死；--解决（1）重启能解决99%的问题（2）重启不行，要是集群没有上传什么重要文件，建议直接格式化，简单粗暴注意：格式化前，一定要将data和logs文件夹删掉格式化命令：bin/hadoop namenode -format2、Namenode is safe modeException in thread "main" or

2021-03-26 21:00:35 450 2

原创 sublime安装package control报错please try manual install

一、下载正常在sublime中文官网下载对应版本的安装包或者压缩包即可；二、安装package control插件2.1 正常方法是根据官网操作指南做可通过下图方式在官网点击进入2.2 上述安装package control不成功？按官方方式调出命令行，粘贴官网代码，报错please try manual install,可以使用下面代码解决import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = su

2021-03-19 11:03:32 1202

原创 maven工程打包

写好类之后，1点击右侧的Maven-----选择当前要打包的工程----2选择工程中的 package----3选择tests mode----4运行打好包之后，就会出现一个target文件夹，文件夹中有已经打好的包若打包成功但是没有显示文件，点击file---Reload all from disk...

2021-03-17 10:33:30 98

原创 maven工程

file右键----新建project----Maven—next----填写name、location—finish在pom.xml中加入配置信息，例如<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version></dependenc..

2021-03-17 09:35:12 69

原创 hive分桶抽样查询

分桶抽样查询对于非常大的数据集，需要使用的是具有代表性的查询结果而不是全部。Hive可以通过对表进行`分桶抽样·来满足这个需求。查询表stu_buck中的数据hive (stu)> select * from stu_buck tablesample(bucket 1 out of 4 on id);tablesampletablesample是抽样语句语法：TABLESAMPLE(BUCKET x OUT OF y) 含

2021-03-13 09:36:35 237

原创 hive分桶步骤

1、创建分桶表不能直接通过load将数据导入分桶表，直接导入后查看会发现没有被分成4个桶！【load不行，要走MapReduce任务】create table stu_buck(id int,name string)clustered by(id）按id分桶into 4 buckets 分几个桶row format delimited fields terminated by '\t';2、创建普通表普通表目的：导入数据，将数据通过查询的方式导入分桶表3、将数据load到

2021-03-13 09:36:23 425

原创 hive查询中的排序总结

四个排序总结order by全局排序reduce启动个数为一个sort by区内排序和distrbute by 结合使用reduce个数为多个distribute by同上reduce个数为多个cluster by当distribute by 和 sort by相同时使用。reduce个数为多个全局排序（Order By）Order By：全局排序，一个Reducer,使用 Order By 子句排序ASC（ascend）:升序（默认）;DESC（

2021-03-13 09:36:10 235

原创 YARN架构

1. ResourceManagerResourceManager管理整个集群的资源调度通常在独立的机器上以后台进程的形式运行，它是整个集群资源的主要协调者和管理者。ResourceManager 负责给用户提交的所有应用程序分配资源，它根据应用程序优先级、队列容量、ACLs、数据位置等信息，做出决策，然后以共享的、安全的、多租户的方式制定分配策略，调度集群资源。2. NodeManagerNodeManager 是 YARN 集群中的每个具体节点的管理者。主要负责该节点内所有容器的生命周期的管理.

2021-03-13 09:35:49 59

原创 yarn的资源调度器

资源调度器目前，Hadoop作业调度器主要有三种：FIFO：【只有一个队列】；Capacity Scheduler：Hadoop2.7.2默认的资源调度器是Capacity Scheduler【有多个队列，可以增加资源调度的并行度，各队列资源可调，每个队列资源分配给1个job】。；Fair Scheduler：【有多个队列，可以增加资源调度的并行度，各队列资源可调，每个队列的资源分配给多个job，按优先级存在分配多少问题】。...

2021-03-13 09:35:34 105

原创 MapReduce优化

1MapReduce 跑的慢的原因系统资源限制：内存、CPUI/O问题小文件太多超大文件不能切片Map和Reduce参数设置不合理Map运行太长，Reduce等待太久溢写次数太多merge合并次数太多2 MapReduce优化方法MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。数据输入：合并小文件:CombineTextInputFormatMap 阶段：减少溢写次数：增大内存存储上限，减少

2021-03-13 09:35:20 236

原创 MapReduce阶段的排序

MapReduce阶段的排序map阶段：全排序、二次排序、部分排序二次排序实现：对map端输出的key进行排序，实现compareTo方法。在compareTo方法中排序条件有两个。reduce阶段：分组排序

2021-03-13 09:35:15 233

原创 MapReduce工作流程

2.3 MapReduce工作流程整个MapReduce的重点Map阶段步骤1，已有数据，在`/user/input下步骤2，该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value其实就是切片步骤3，提交信息：切片信息、xml、jar步骤4，由YARN调用Resourcemanager【Yarn RM】，Yarn RM创建Mr appmaster【一个job资源协调的老大;分配整个集群任务的调度和协调】，Mr appmaster根据步骤3

2021-03-13 09:35:07 733

原创 MapReduce的FileInputFormat实现类对比

FileInputFormat实现类对比类切片KV值TextInputFormat按块大小，小文件就是文件个数K:偏移量longWritable； V：这一行内容KeyValueTextInputFormat按块大小，小文件就是文件个数K：文件第一列 V:文件该行剩下的内容NLineInputFormat按N行切片。看N值，K: 偏移量； V：这一行内容CombineTextInputFormat与设置最大值有关，文件小于最大值，会将小文件合并到

2021-03-11 13:52:11 73

原创 HADOOP基础1

HADOOPHadoop是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。总之，Hadoop包括以下内容：HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）：HDFS允许你以一种分布式和冗余的方式存储大量数据。例如，1 GB（即1024 MB）文本文件可以拆分为16 * 128MB文件，并存储在Hadoop集群中的8个不同节点上。每个分裂可以复制3次，以实现容错，以便如果1个节点故障的话，

2021-03-11 13:49:46 84

原创 Hadoop端口号、配置文件

端口号2.x 50070 8088 19888 9000web端查看HDFS文件系统http://hadoop101:50070/dfshealth.html#tab-overview注意：如果不能查看，看如下帖子处理http://www.cnblogs.com/zlslch/p/6604189.htmldfs.namenode.http-address:50070SecondaryNameNode:辅助名称节点端口号：50090dfs.datanode.address:500

2021-03-11 13:45:43 695

原创神经网络

2021-03-11 13:43:33 51

原创极大似然估计

在统计学中，似然函数（likelihood function，通常简写为likelihood，似然）是一个非常重要的内容，在非正式场合似然和概率（Probability）几乎是一对同义词，但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性，也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性，比如抛硬币，抛之前我们不知道最后是哪一面朝上，但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%，这个概率只有在抛硬币之前才是有意义的，抛完硬币后的结果便是确.

2021-03-11 13:40:54 81

原创线性回归

2021-03-11 13:26:28 70

原创激活函数

一、激活函数作用激活函数是用来加入非线性因素的，解决线性模型所不能解决的问题。一、激活函数分类1）阶跃函数2）sigmoid3）RELU4）tanh 函数5）恒等函数6）softmax1）阶跃函数阶跃函数的导数在绝大多数地方（除了0之外）的导数都是0。所以用它做激活函数的话，参数们的微小变化所引起的输出的变化就会直接被阶跃函数抹杀掉，在输出端完全体现不出来，训练时使用的损失函数的值就不会有任何变化，这是不利于训练过程的参数更新的。**参考代码和结果如下：**2）sigmoid

2021-03-11 13:24:42 160

原创 2021-03-11

1、损失函数（loss function）也叫代价函数（cost function）。是神经网络优化的目标函数，神经网络训练或者优化的过程就是最小化损失函数的过程（损失函数值小了，对应预测的结果和真实结果的值就越接近）2、损失函数分类2.1 二代损失函数2.2交叉熵代价函数交叉熵代价行数是信息熵的概念，神经网络分类中常用的代价函数，只考虑正确类损失，没有对错误类损失的考量当分类输出正确类的结果（输出概率化的值即使用了softmax函数之后）接近于1，对应正确类的标签为1，即y=1，即可得到，

2021-03-11 13:06:49 54

原创最大熵原理

最大熵原理1.前言最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法了，它和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术。而对熵的使用，让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型，对逻辑回归，支持向量机以及决策树算法都会加深理解。2.信息论2.1信息熵熵度量了事物的不确定性，越不确定的事物，它的熵越大。在没有外部环境的作用下，事物总是向着熵增大的方向发展，所以熵越大

2021-03-11 12:44:33 432

原创上采样和下采样

上采样和下采样缩小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。放大图像（或称为上采样（upsampling）或图像插值（interpolating））的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。下采样对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而，确实有一些缩放方法能够增加图像的信息，从而使得缩放后的图像质量超过原图质量的。下采

2021-03-11 12:43:08 7689

原创 Centos7安装MySQL续2

接 Centos7安装MySQL遇到libaio问题一、安装MySql服务器1．安装mysql服务端[root@hadoop01 mysql-libs]# rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm有问题见文章 Centos7安装MySQL遇到libaio问题2、查看产生的随机密码[root@hadoop102 mysql-libs]# cat /root/.mysql_secretefC5PXPBafoMz3Zk3、查看mysql状态[

2021-03-08 18:27:50 47

原创 Centos7安装MySQL遇到libaio问题1

一、问题[root@localhost upload]# rpm -ivh MySQL-server-5.6.24a-1.rhel5.x86_64.rpmerror: Failed dependencies:libaio.so.1()(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x86_64libaio.so.1(LIBAIO_0.1)(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x86_64

2021-03-08 18:03:14 2215

HDFS-0529.zip

data_pubfig.mat

libsvm-3.11.rar

liblinear-1.94.rar

空空如也