自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(91)
  • 资源 (4)
  • 收藏
  • 关注

原创 hive调优汇总

mapjoin:默认打开行列技术:join where => where + join采用分区列存储(加快查询速度)压缩(减少磁盘IO)合理设置map个数块大小:max(1, min(快大小,Long的最大值))块大小一般设置128m数据 =》1个maptaskdistribute by rand(),将数据随机分区,保证每个分区的数据流基本一致合理设置reduce个数;可以根据数据量适当增加reduce个数;小文件如何产生?动态分区reduce个数设置的过多;分区的key.

2021-04-12 14:21:46 175

原创 数据倾斜

数据倾斜就是在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几台机器上计算,而集群中的其他节点空闲。这些倾斜了的数据的’计算速度远远低于’平均计算速度,导致整个计算过程过慢。产生原理:以Spark和Hive的使用场景为例数据运算的时候会涉及到,'count distinct、group by、join on'等操作,这些都会触发'Shuffle'动作。一旦触发Shuffle,所有'相同key'的值就会被拉到'一个或几个Reducer'节点上,容易发生单点计算问题,导致数据倾斜

2021-04-12 14:21:01 160

原创 Spark中的Standalone 模式配置时的坑

1、sbin/start-all.sh直接群起--可能错误原因: 之前已经开启了Hadoop集群,all会重复启动,会造成DataNode假死;--解决(1)重启能解决99%的问题(2)重启不行,要是集群没有上传什么重要文件,建议直接格式化,简单粗暴 注意:格式化前,一定要将data和logs文件夹删掉 格式化命令:bin/hadoop namenode -format2、Namenode is safe modeException in thread "main" or

2021-03-26 21:00:35 450 2

原创 sublime安装package control报错please try manual install

一、下载正常在sublime中文官网下载对应版本的安装包或者压缩包即可;二、安装package control插件2.1 正常方法是根据官网操作指南做可通过下图方式在官网点击进入2.2 上述安装package control不成功?按官方方式调出命令行,粘贴官网代码,报错please try manual install,可以使用下面代码解决import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = su

2021-03-19 11:03:32 1202

原创 maven工程打包

写好类之后,1点击右侧的Maven-----选择当前要打包的工程----2选择工程中的 package----3选择tests mode----4运行打好包之后,就会出现一个target文件夹,文件夹中有已经打好的包若打包成功但是没有显示文件,点击file---Reload all from disk...

2021-03-17 10:33:30 98

原创 maven工程

file右键----新建project----Maven—next----填写name、location—finish在pom.xml中加入配置信息,例如<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version></dependenc..

2021-03-17 09:35:12 69

原创 hive分桶抽样查询

分桶抽样查询     对于非常大的数据集,需要使用的是具有代表性的查询结果而不是全部。Hive可以通过对表进行`分桶抽样·来满足这个需求。查询表stu_buck中的数据hive (stu)> select * from stu_buck tablesample(bucket 1 out of 4 on id);tablesampletablesample是抽样语句语法:TABLESAMPLE(BUCKET x OUT OF y) 含

2021-03-13 09:36:35 237

原创 hive分桶步骤

1、创建分桶表不能直接通过load将数据导入分桶表,直接导入后查看会发现没有被分成4个桶! 【load不行,要走MapReduce任务】create table stu_buck(id int,name string)clustered by(id) 按id分桶into 4 buckets 分几个桶row format delimited fields terminated by '\t';2、创建普通表普通表目的:导入数据,将数据通过查询的方式导入分桶表3、将数据load到

2021-03-13 09:36:23 425

原创 hive查询中的排序总结

四个排序总结order by全局排序reduce启动个数为一个sort by区内排序和distrbute by 结合使用reduce个数为多个distribute by同上reduce个数为多个cluster by当distribute by 和 sort by相同时 使用。reduce个数为多个全局排序(Order By)Order By:全局排序,一个Reducer,使用 Order By 子句排序ASC(ascend):升序(默认);DESC(

2021-03-13 09:36:10 235

原创 YARN架构

1. ResourceManagerResourceManager管理整个集群的资源调度 通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者。ResourceManager 负责给用户提交的所有应用程序分配资源,它根据应用程序优先级、队列容量、ACLs、数据位置等信息,做出决策,然后以共享的、安全的、多租户的方式制定分配策略,调度集群资源。2. NodeManagerNodeManager 是 YARN 集群中的每个具体节点的管理者。主要负责该节点内所有容器的生命周期的管理.

2021-03-13 09:35:49 59

原创 yarn的资源调度器

资源调度器目前,Hadoop作业调度器主要有三种:FIFO:【只有一个队列】;Capacity Scheduler:Hadoop2.7.2默认的资源调度器是Capacity Scheduler【有多个队列,可以增加资源调度的并行度,各队列资源可调,每个队列资源分配给1个job】。;Fair Scheduler:【有多个队列,可以增加资源调度的并行度,各队列资源可调,每个队列的资源分配给多个job,按优先级存在分配多少问题】。...

2021-03-13 09:35:34 105

原创 MapReduce优化

1MapReduce 跑的慢的原因系统资源限制:内存、CPUI/O问题小文件太多超大文件不能切片Map和Reduce参数设置不合理Map运行太长,Reduce等待太久溢写次数太多merge合并次数太多2 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。数据输入:合并小文件:CombineTextInputFormatMap 阶段:减少溢写次数:增大内存存储上限,减少

2021-03-13 09:35:20 236

原创 MapReduce阶段的排序

MapReduce阶段的排序map阶段:全排序、二次排序、部分排序二次排序实现:对map端输出的key进行排序,实现compareTo方法。在compareTo方法中排序条件有两个。reduce阶段:分组排序

2021-03-13 09:35:15 233

原创 MapReduce工作流程

2.3 MapReduce工作流程整个MapReduce的重点Map阶段步骤1,已有数据,在`/user/input下步骤2,该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value其实就是切片步骤3,提交信息:切片信息、xml、jar步骤4,由YARN调用Resourcemanager【Yarn RM】,Yarn RM创建Mr appmaster【一个job资源协调的老大;分配整个集群任务的调度和协调】,Mr appmaster根据步骤3

2021-03-13 09:35:07 733

原创 MapReduce的FileInputFormat实现类对比

FileInputFormat实现类对比类切片KV值TextInputFormat按块大小,小文件就是文件个数K:偏移量longWritable; V:这一行内容KeyValueTextInputFormat按块大小,小文件就是文件个数K:文件第一列 V:文件该行剩下的内容NLineInputFormat按N行切片。看N值,K: 偏移量; V:这一行内容CombineTextInputFormat与设置最大值有关,文件小于最大值,会将小文件合并到

2021-03-11 13:52:11 73

原创 HADOOP基础1

HADOOPHadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容:HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即1024 MB)文本文件可以拆分为16 * 128MB文件,并存储在Hadoop集群中的8个不同节点上。每个分裂可以复制3次,以实现容错,以便如果1个节点故障的话,

2021-03-11 13:49:46 84

原创 Hadoop端口号、配置文件

端口号2.x 50070 8088 19888 9000web端查看HDFS文件系统http://hadoop101:50070/dfshealth.html#tab-overview注意:如果不能查看,看如下帖子处理http://www.cnblogs.com/zlslch/p/6604189.htmldfs.namenode.http-address:50070SecondaryNameNode:辅助名称节点端口号:50090dfs.datanode.address:500

2021-03-11 13:45:43 695

原创 神经网络

2021-03-11 13:43:33 51

原创 极大似然估计

在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果便是确.

2021-03-11 13:40:54 81

原创 线性回归

2021-03-11 13:26:28 70

原创 激活函数

一、激活函数作用激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题。一、激活函数分类1)阶跃函数2)sigmoid3)RELU4)tanh 函数5)恒等函数6)softmax1)阶跃函数阶跃函数的导数在绝大多数地方(除了0之外)的导数都是0。所以用它做激活函数的话,参数们的微小变化所引起的输出的变化就会直接被阶跃函数抹杀掉,在输出端完全体现不出来,训练时使用的损失函数的值就不会有任何变化,这是不利于训练过程的参数更新的。**参考代码和结果如下:**2)sigmoid

2021-03-11 13:24:42 160

原创 2021-03-11

1、损失函数(loss function)也叫代价函数(cost function)。是神经网络优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程(损失函数值小了,对应预测的结果和真实结果的值就越接近)2、损失函数分类2.1 二代损失函数2.2交叉熵代价函数交叉熵代价行数是信息熵的概念,神经网络分类中常用的代价函数,只考虑正确类损失,没有对错误类损失的考量当分类输出正确类的结果(输出概率化的值即使用了softmax函数之后)接近于1,对应正确类的标签为1,即y=1,即可得到,

2021-03-11 13:06:49 54

原创 最大熵原理

最大熵原理1.前言​ 最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。2.信息论2.1信息熵熵度量了事物的不确定性,越不确定的事物,它的熵越大。在没有外部环境的作用下,事物总是向着熵增大的方向发展,所以熵越大

2021-03-11 12:44:33 432

原创 上采样和下采样

上采样和下采样缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。下采样对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而,确实有一些缩放方法能够增加图像的信息,从而使得缩放后的图像质量超过原图质量的。下采

2021-03-11 12:43:08 7689

原创 Centos7安装MySQL续2

接 Centos7安装MySQL遇到libaio问题一、安装MySql服务器1.安装mysql服务端[root@hadoop01 mysql-libs]# rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm有问题见文章 Centos7安装MySQL遇到libaio问题2、查看产生的随机密码[root@hadoop102 mysql-libs]# cat /root/.mysql_secretefC5PXPBafoMz3Zk3、查看mysql状态[

2021-03-08 18:27:50 47

原创 Centos7安装MySQL遇到libaio问题1

一、问题[root@localhost upload]# rpm -ivh MySQL-server-5.6.24a-1.rhel5.x86_64.rpmerror: Failed dependencies:libaio.so.1()(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x86_64libaio.so.1(LIBAIO_0.1)(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x86_64

2021-03-08 18:03:14 2215

原创 集群启动与停止

2021-03-06 12:09:43 98

原创 集群环境配置

过程截图如下:

2021-03-06 12:07:53 121

原创 2少包安装

PyCharm中少包?选择Terminal比如输入 下面代码安装 matplotlib 【临时使用清华镜像】pip install -i https://pypi.tuna.tsinghua.edu.cn/simple matplotlib

2021-02-04 11:27:34 120

原创 2创建常量和变量

引入:代码解释import tensorflow as tfa=tf.constant([1,5],dtype=tf.int64)print(a)print(a.dtype)print(a.shape)#运行结果:<tf.Tensor([1,5], shape=(2 , ) , dtype=int64)<dtype: 'int64'>(2,)直接输出变量会将变量的所有信息输出出来,ex: tf.Tensor([1,5], shape=(2 , ) , dtype=in

2021-02-04 11:25:39 266

原创 1.安装

一、tensorflow安装1.1、安装环境python3.7Anaconda3-5.3.1-Windows-x86_641.2、安装步骤选择anaconda的prompt窗口有显卡,输入conda create -n TF2.1 python=3.7【用python3.7版本创建一个名叫TF2.1的环境】【中途选择’y’:表示同意安装相关软件包】输入conda activate TF2.1,进入TF2.1环境输入conda install cudatoolkit=10.

2021-02-04 11:23:36 65 1

原创 53 求n天后的日期

问题描述 :写一个函数,传入年月日,计算它的第二天,并返回该日期。由用户输入年月日和一个n值,使用前述函数,计算该日期加n天的日期为多少。输入说明 :输入year,month,day和n共4个正整数,以空格分隔。n的值不超过2000。输出说明 :输出计算得到的结果年月日共3个正整数,整数之间以一个空格分隔,行首与行尾无多余空格。输入范例 :2000 1 1 366输出范例 :20...

2020-04-04 11:38:34 598

原创 52 N的倍数

问题描述 :明明的爸爸在研究一个复杂的数学问题,研究了很长时间都没有结果。明明看见后就问爸爸在研究什么。明明的爸爸回答说:“我在研究一个整数的倍数问题,想找到某个数的倍数……”明明还没有等他爸爸说完,就抢着说:“这不是很简单嘛,你把这个整数乘以1,乘以2,……,就能得到很多的倍数呀。”明明的爸爸当然知道这种方法,但是他接着说:“这样的方法找倍数当然容易,但是我找的倍数有一个特点,那个倍数只能由0...

2020-04-04 11:36:41 177

原创 51 歌德巴赫猜想

问题描述 :歌德巴赫猜想指出:任何一个大于2的偶数,都可以表示成两个素数的和。例如:8 = 3+5, 44 = 13+31等。试编程在6至100范围内验证歌德巴赫猜想。输入说明 :先输入一个正整数n,表示有n组测试数据。所有数据前后没有多余的空行,两组数据之间也没有多余的空行。每组输入数据由一行组成,在接下来的n行中,每行有1个偶数a(6≤a≤100),在行首和行尾没有多余的空格。输出说明...

2020-04-04 11:35:19 136

原创 50 素数

问题描述 :明明的爸爸是一位数学家,明明受他爸爸的影响从小就喜欢数学,经常向他爸爸学习或请教数学问题。一天,明明问他爸爸什么是素数,明明的爸爸回答说:“首先,素数都是大于1的自然数;其次,素数是只能被1和其本身整除的数。例如‘3’这个数,它只能被1和3这两个整数整除,因此‘3’就是素数;但是‘4’就不是素数,因为4除了能被1和4整除外,还能被2整除,因此‘4’就不是一个素数。”明明对于爸爸的回答...

2020-04-04 11:34:03 226

原创 49 我素故我在

问题描述 :有这样一种素数叫纯素数(YY出来的名字),当它是一个多位数的时候,你把它的末位去掉之后余下的数依然是一个素数。比如说2393,2393 本身是一个素数,它的末位去掉之后,余下的是239。239 是一个素数,它的末位去掉之后,余下的是23 。23是一个素数,它的末位去掉之后,余下的是2 。2依然还是一个素数。纯素数的长度叫做“维”。2393 是一个4维素数。3797也是一个4维素数。...

2020-04-04 11:32:48 134

原创 48 求N!

问题描述 :给你一个整数N(0 ≤ N ≤ 10000),你的任务是计算并输出 N!输入说明 :输入多行,每行一个N。输出说明 :对于每个输入N,在一行中输出N!行首与行尾为空格,两组输出之间无空行。输入范例 :21100输出范例 :219332621544394415268169923885626670049071596826438162146859296389521...

2020-04-04 11:29:45 222

原创 47 最少拦截系统

问题描述 :某国为了防御敌国的导弹袭击,发展出一种导弹拦截系统。但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能够到达任意的高度,但是以后每一发炮弹都不能达到前一发的高度。某天,雷达捕捉到敌国的导弹来袭,如果系统数量太少,将导致有可能不能拦截所有的导弹。所以,根据雷达捕捉到的导弹高度,需要预先准备相应数量的拦截系统。比如导弹的高度依次为:5 3 4 2 4 1则一个拦截系统的第一发炮...

2020-04-04 11:28:17 79

原创 46 人见人爱A-B

问题描述 :A和B是两个集合,A-B求的是两个集合的差,就是做集合的减法运算。(当然,大家都知道集合的定义,就是同一个集合中不会有两个相同的元素,这里还是提醒大家一下)呵呵,很简单吧?输入说明 :输入数据包含T个测试实例。首先输入数字T,然后输入T组测试数据,每组输入数据占1行,每行数据的开始是2个整数n(0<=n<=100)和m(0<=m<=100),分别表示集合...

2020-04-04 11:26:51 252

原创 45 等差数列

问题描述 :一个等差数列是一个能表示成a, a+b, a+2b,…, a+nb (n=0,1,2,3,…) 在这个问题中a是一个非负的整数,b是正整数。写一个程序来找出在双平方数集合S中长度为n的等差数列。双平方数集合是所有能表示成p2+q2的数的集合。输入说明 :第一行: N(3<= N<=25),要找的等差数列的长度。 第二行: M(1<= M<=250),搜索...

2020-04-04 11:24:44 193

HDFS-0529.zip

hadoop、HDFS

2021-02-04

data_pubfig.mat

PubFig数据库是一个大型的真实人脸数据集,包含从互联网上收集的200人的58,797张图像。与大多数其他现有的面部数据集不同,这些图像是在非合作对象的完全不受控制的情况下拍摄的。因此,姿势,照明,表情,场景,摄影机,成像条件和参数等都有很大差异。

2020-03-11

libsvm-3.11.rar

libsvm是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,提供源代码和可执行文件。

2020-03-08

liblinear-1.94.rar

liblinear是支持向量机的一种,目前的应用较为广泛,可安装到matlab中,然后进行对数据的训练和预测。

2020-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除