自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (2)
  • 收藏
  • 关注

原创 安装TensorFlow conda create -n tensorflow python=3.7报错的问题

在安装TensorFlow输入conda create -n tensorflow python=3.7之后报错如下:CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.anaconda.com/pkgs/r/win-64/repodata.json.bz2>Elapsed: -An HTTP er...

2019-11-06 10:37:56 13228 5

原创 linux下R语言离线安装依赖包

linux下R语言离线安装依赖包shell命令行执行 R CMD INSTALL package.tar.gz

2018-12-18 16:26:56 1654 1

原创 查看出口ip

使用如下指令即可查看出口IPcurl http://ipinfo.io

2018-01-12 15:06:08 5268 1

原创 flume的安装配置及使用

flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志

2018-01-12 14:35:55 675

原创 一张图看懂Mapreduce的shuffle过程

shuffle过程从map()的输出到reduce()的输入,中间的过程被称为shuffle过程。map side1.在写入磁盘之前,会先写入环形缓冲区(circular memory buffer),默认100M(mapreduce.task.io.sort.mb可修改),当缓冲区内容达到80M(mapreduce.map.sort.spill.percent可修

2018-01-12 11:58:35 466

原创 Yarn的基本流程(执行流程)

1.client向yarn提交job,首先找ResourceManager分配资源,2.ResourceManager开启一个Container,在Container中运行一个Application manager3.Application manager找一台nodemanager启动Application master,计算任务所需的计算4.Application master向A

2018-01-12 11:42:22 10152 4

原创 Mapreduce实现二次排序

SecondarySortMR1.应用场景:MR默认会对键进行排序,然而有的时候我们也有对值进行排序的需求。满足这种需求一是可以在reduce阶段排序收集过来的values,但是,如果有数量巨大的values可能就会导致内存溢出等问题,这就是二次排序应用的场景——将对值的排序也安排到MR计算过程之中,而不是单独来做。2.需求: name money zhangsan 125

2018-01-12 11:39:27 524

原创 sqoop的导入导出

一.SQOOP的导入首先在MySQL中使用下面的命令创建测试用的数据库和表,同时为表插入数据create database testdb;use testdb; create table user(id int not null auto_increment,account varchar(10) default null,password varchar(10

2018-01-12 11:34:05 312

原创 Sqoop安装及测试

1.${SQOOP_HOME}/conf/ $ cp sqoop-env-template.sh sqoop-env.sh     //拷贝模板生成配置环境目录=============修改sqoop-env.sh配置文件#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/opt/

2018-01-12 11:26:51 1143

原创 HIVE基础知识及优化(面试必备)

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Metastore (hive元数据) Hive将元数据存储在数据库中,比如mysql ,derby.Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录Hive数据存储在HDFS,大部分的查

2018-01-11 20:14:39 16542 2

原创 Windows下Eclispe远程开发Mapreduce程序

将hadoop-eclipse-plugin-2.6.0.jar拷贝至${MyEclispe_HOME} /plugins以管理员权限解压hadoop-2.5.0.tar.gz到F:/根目录配置hadoop的环境变量右击我的电脑——》属性——》高级系统设置——》环境变量添加HADOOP_HOME系统变量:HADOOP_HOME=【hadoop的解压目录】

2018-01-11 18:09:13 233

转载 Mongodb 查询指定时间范围的数据

今天用mongodb查昨天某个collection产生的记录数量,在mysql里面可以用between..and..或者 >、>=、mongodb有自己的语法。mongodb里比较,用 "$gt" 、"$gte"、 "$lt"、 "$lte"(分别对应">"、 ">=" 、" db.userReadRecord.find({ "createTime" : { "$gte" : ISODat

2018-01-11 18:03:53 8308 1

原创 搭建HBase完全分布式(高可用)

HBase分布式搭建(我的配置如下)PC01 PC02 PC03ZooKeeper ZooKeeper ZooKeeperNameNode NameNode DateNode DateNode DateNodeJournalNode JournalNode JournalNode              ResourceManagerNodeManager  Node

2018-01-11 17:37:56 1465

原创 搭建Zookeeper集群

1.将ZooKeeper上传至第一台/opt/sofewares目录下1.安装ZooKeeper$ tar -zxf  /opt/software/zookeeper-3.4.5.tar.gz -C  /opt/modules/1.在Zookeeper目录下新建一个data目录$ mkdir zkData   --//可以不用手动创建,启动自动生成 2.

2018-01-11 17:24:43 254

转载 一张图秒懂HBase(HBase架构图)

一张图看懂HBase

2018-01-11 17:16:19 8740

原创 json导入hive

hive中可以直接导入json格式的数据,mongodb数据或者json串1.到点击打开链接下载json-serde-1.3.7-jar-with-dependencies.jar2.这个jar包添加到hive安装路径的lib目录下3.打开hive执行add jar /jar包所在路径/json-serde-1.3.7-jar-with-dependencies.jar;

2018-01-11 14:45:06 3601

转载 shell通过端口号获取PID(进程号)

执行此命令可直接获得PID:netstat -anp|grep 12000|awk '{printf $7}'|cut -d/ -f1

2017-09-14 19:28:25 13514

HDFS FS API

HDFS FS API 本地上传文件至HDFS,HDFS下载文件至本地,在HDFS上新建删除文件夹

2017-06-07

Windows下Eclispe远程开发Mapreduce程序

Windows下Eclispe远程开发Mapreduce程序

2017-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除