月牙儿XUE-CSDN博客

原创安装TensorFlow conda create -n tensorflow python=3.7报错的问题

在安装TensorFlow输入conda create -n tensorflow python=3.7之后报错如下：CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.anaconda.com/pkgs/r/win-64/repodata.json.bz2>Elapsed: -An HTTP er...

2019-11-06 10:37:56 13228 5

原创 linux下R语言离线安装依赖包

linux下R语言离线安装依赖包shell命令行执行 R CMD INSTALL package.tar.gz

2018-12-18 16:26:56 1654 1

原创查看出口ip

使用如下指令即可查看出口IPcurl http://ipinfo.io

2018-01-12 15:06:08 5268 1

原创 flume的安装配置及使用

flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志

2018-01-12 14:35:55 675

原创一张图看懂Mapreduce的shuffle过程

shuffle过程从map()的输出到reduce()的输入，中间的过程被称为shuffle过程。map side1.在写入磁盘之前，会先写入环形缓冲区(circular memory buffer),默认100M(mapreduce.task.io.sort.mb可修改),当缓冲区内容达到80M(mapreduce.map.sort.spill.percent可修

2018-01-12 11:58:35 466

原创 Yarn的基本流程（执行流程）

1.client向yarn提交job，首先找ResourceManager分配资源，2.ResourceManager开启一个Container,在Container中运行一个Application manager3.Application manager找一台nodemanager启动Application master，计算任务所需的计算4.Application master向A

2018-01-12 11:42:22 10152 4

原创 Mapreduce实现二次排序

SecondarySortMR1.应用场景：MR默认会对键进行排序，然而有的时候我们也有对值进行排序的需求。满足这种需求一是可以在reduce阶段排序收集过来的values，但是，如果有数量巨大的values可能就会导致内存溢出等问题，这就是二次排序应用的场景——将对值的排序也安排到MR计算过程之中，而不是单独来做。2.需求： name money zhangsan 125

2018-01-12 11:39:27 524

原创 sqoop的导入导出

一．SQOOP的导入首先在MySQL中使用下面的命令创建测试用的数据库和表，同时为表插入数据create database testdb;use testdb; create table user(id int not null auto_increment,account varchar(10) default null,password varchar(10

2018-01-12 11:34:05 312

原创 Sqoop安装及测试

1.${SQOOP_HOME}/conf/ $ cp sqoop-env-template.sh sqoop-env.sh //拷贝模板生成配置环境目录=============修改sqoop-env.sh配置文件#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/opt/

2018-01-12 11:26:51 1143

原创 HIVE基础知识及优化（面试必备）

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Metastore （hive元数据） Hive将元数据存储在数据库中，比如mysql ,derby.Hive中的元数据包括表的名称，表的列和分区及其属性，表的数据所在的目录Hive数据存储在HDFS，大部分的查

2018-01-11 20:14:39 16542 2

原创 Windows下Eclispe远程开发Mapreduce程序

将hadoop-eclipse-plugin-2.6.0.jar拷贝至${MyEclispe_HOME} /plugins以管理员权限解压hadoop-2.5.0.tar.gz到F:/根目录配置hadoop的环境变量右击我的电脑——》属性——》高级系统设置——》环境变量添加HADOOP_HOME系统变量：HADOOP_HOME=【hadoop的解压目录】

2018-01-11 18:09:13 233

转载 Mongodb 查询指定时间范围的数据

今天用mongodb查昨天某个collection产生的记录数量，在mysql里面可以用between..and..或者 >、>=、mongodb有自己的语法。mongodb里比较，用 "$gt" 、"$gte"、 "$lt"、 "$lte"（分别对应">"、 ">=" 、" db.userReadRecord.find({ "createTime" : { "$gte" : ISODat

2018-01-11 18:03:53 8308 1

原创搭建HBase完全分布式（高可用）

HBase分布式搭建（我的配置如下）PC01 PC02 PC03ZooKeeper ZooKeeper ZooKeeperNameNode NameNode DateNode DateNode DateNodeJournalNode JournalNode JournalNode ResourceManagerNodeManager Node

2018-01-11 17:37:56 1465

原创搭建Zookeeper集群

1.将ZooKeeper上传至第一台/opt/sofewares目录下1.安装ZooKeeper$ tar -zxf /opt/software/zookeeper-3.4.5.tar.gz -C /opt/modules/1.在Zookeeper目录下新建一个data目录$ mkdir zkData --//可以不用手动创建，启动自动生成 2.

2018-01-11 17:24:43 254

转载一张图秒懂HBase（HBase架构图）

一张图看懂HBase

2018-01-11 17:16:19 8740

原创 json导入hive

hive中可以直接导入json格式的数据，mongodb数据或者json串1.到点击打开链接下载json-serde-1.3.7-jar-with-dependencies.jar2.这个jar包添加到hive安装路径的lib目录下3.打开hive执行add jar /jar包所在路径/json-serde-1.3.7-jar-with-dependencies.jar;

2018-01-11 14:45:06 3601

转载 shell通过端口号获取PID（进程号）

执行此命令可直接获得PID：netstat -anp|grep 12000|awk '{printf $7}'|cut -d/ -f1

2017-09-14 19:28:25 13514

月牙儿