自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 收藏
  • 关注

转载 pandas入门(一):pandas的安装和创建

pandas对于数据分析的人员来说都是必须熟悉的第三方库,pandas在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了Numpy,但是Numpy还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中EXCEL扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。pandas是对表格数据模型在pytho...

2019-07-05 15:37:21 1548

转载 Python: with open()as filename

2018年04月10日 18:52:46wanggaoxingH阅读数 2653使用文件用with的好处1.会在运行完后自动关闭文件2.很简单打开文件并读取 with open('c.xls','r') as t1: content = t1.read() print(content) with open('c....

2019-07-05 11:04:36 1356

转载 Flume详细配置

Flume:===================== Flume是一种分布式的、可靠的、可用的服务,可以有效地收集、聚合和移动大量的日志数据。 它有一个基于流数据的简单而灵活的体系结构。 它具有健壮性和容错能力,具有可调的可靠性机制和许多故障转移和恢复机制。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 source:源 ...

2019-07-04 15:37:38 687

转载 Git GUI和Git CMD以及Git Bash

Git GUI:可视化图形界面Git CMD:cmd命令行界面。(windows风格)Git Bash:一个封装过的cmd命令行,并在其中加入了指向bash环境的环境变量。(linux风格)Git Bash 命令配置提交作者$ git config --globaluser.name"[你的github名]"$ git config --globaluser....

2019-07-01 13:35:14 1515

转载 Exception in thread "main" java.lang.Exception: When running with master 'yarn' either

Exception in thread "main" java.lang.Exception: When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.上面中的错误是HADOOP_CONF_DIR和YARN_CONF_DIR没有设...

2019-06-27 16:26:51 1052

转载 负载均衡的一致性哈希及java实现

以一致性哈希用在负载均衡的实例来说,一致性哈希就是先把主机ip从小大到全部放到一个环内,然后客户端ip来连接的时候,把客户端ip连接到大小最接近客户端ip且大于客户端ip的主机。当然,这里的ip一般都是要先hash一下的。我的程序运行结果如下: 添加客户端,一开始有4个主机,分别为s1,s2,s3,s4,每个主机有100个虚拟主机: 101客户端(ha...

2019-06-13 22:04:32 251

转载 Spark容错机制

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dengxing1234/article/details/73613484容错方式容错指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,Spark这样的大型分布式计算集群提供了...

2019-06-04 18:30:20 163

转载 Spark 窄依赖、款依赖

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Suubyy/article/details/81190460窄依赖 定义:窄依赖英文为Narrow Dependency。在Spark中,我们具体操作的是RDD数据,而RDD是由多个Partition组成的,所以实际上我们真正操作的是Partition上的数据。当我们操作Parti...

2019-06-04 17:04:56 212

转载 Spark on Yarn的运行原理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013573813/article/details/69831344一、YARN是集群的资源管理系统1、ResourceManager:负责整个集群的资源管理和分配。2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源...

2019-06-04 16:12:16 161

转载 CentOS7 ambri2.6.1.5+hdp2.6.4.0 大数据平台搭建

原文地址:https://www.jianshu.com/p/a6a1536ae18eCentOS7ambari前言本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停掉,然后将不需要的环境变量注释掉即可,如果不注释掉,后面虽然可以安装成功,但是在启动某些服务的时候可能会有异常,比如最后提到的h...

2019-05-30 23:14:43 233

转载 spark map和mapPartitions区别

主要区别:map是对rdd中的每一个元素进行操作;mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有...

2019-05-27 22:57:30 231

转载 scalikeJDBC

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/caiyefly/article/details/78045526ScalikeJDBC基于SQL的简介DB访问1.什么是ScalikeJDBCScalikeJDBC是一款给Scala开发者使用的简洁DB访问类库,它是基于SQL的,使用者只需要关注SQL逻辑的编写,所有的数据库...

2019-05-26 14:39:19 173

转载 log4j的8个日志级别(OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL)

转载自:《log4j的8个日志级别(OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL)》log4j定义了8个级别的log(除去OFF和ALL,可以说分为6个级别),优先级从高到低依次为:OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL。ALL最低等级的,用于打开所有日志记录。TRACEdesigna...

2019-05-25 14:16:28 218

转载 spark窗口函数简单实现

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhangfengBX/article/details/80659612Window函数,可以统计最近一段时间的数据,使用Window函数加载成DStream:DStream.window("窗口长度","滑动间隔")reduceByKeyAndWindow窗口长度:必须是B...

2019-05-23 18:26:44 469

转载 spark中的cache() persist() checkpoint()之间的区别

cache()与persist():会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory,写磁盘的话那就叫 checkpoint 了。 哪些 RDD 需要 checkpoint?运算时间很长或运算量太大才能得到的 RDD,computing chain 过长或依赖其他 RDD 很多的 RDD。 实际上,将 ShuffleMapTask 的输出结果存放...

2019-05-23 18:20:51 197

转载 maven中pom.xml中的scope讲解

一、compile:编译范围compile是默认的范围;如果没有提供一个范围,编译范围依赖在所有的classpath 中可用,同时它们也会被打包。而且这些dependency会传递到依赖的项目中。二、provided:已提供范围provided 明了dependency 由JDK或者容器提供。例如如果开发了一个web 应用,可能在编译 classpath 中需要可用的Servl...

2019-05-23 18:02:32 334

转载 大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等

常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口Zookeeper: 2...

2019-05-23 17:52:29 171

原创 IDEA中已经安装scala插件,也关联 了scala,新建的项目没有scala选项

按照以下操作:6步骤付款即可快递 方是负数

2019-05-23 12:46:35 1142

转载 intellij idea使用maven本地仓库及修改本地仓库路径

什么maven本地仓库,默认是用户目录下的.m2/repository这个文件。现在在网上搜,idea怎么使用maven?很多都还说要下载maven插件的,其实idea是自带maven插件的,所以不用我们再下载什么?怎么把依赖包下载到我们的本地仓库呢?一般是idea默认了路径,而且idea是没有所谓的setting.xml配置的,更新依赖r包,我们只需要更改pom.xml配置就好,写好...

2019-05-23 11:47:30 3665 2

转载 spark读取日志中文乱码,日志是GBK类型

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012893747/article/details/72844058由于spark在读取文件时的默认编码格式为utf-8,所以spark在处理gbk格式的文件时会出现乱码问题,以下代码则可以解决这一问题import org.apache.spark.SparkConfimp...

2019-05-21 12:30:41 1013

转载 Intellij IDEA 安装Scala插件 + 创建Scala项目

版权声明:有问题的请留言 喜欢的请给个赞 --------------------------------不定时会更新,因为学习,所以快乐,因为分享,所以便捷!转载请标注出处,哈哈! https://blog.csdn.net/Appleyk/article/details/82180599一、IDEA 2018Ultimate edition (旗舰破解版下载地址)...

2019-05-19 23:57:03 352

转载 java运算符 与(&)、非(~)、或(|)、异或(^)

1.十进制转二进制原理:给定的数循环除以2,直到商为0或者1为止。将每一步除的结果的余数记录下来,然后反过来就得到相应的二进制了。比如8转二进制,第一次除以2等于4(余数0),第二次除以2等于2(余数0),第三次除以2等于1(余数0),最后余数1,得到的余数依次是0 0 0 1 ,反过来就是1000,计算机内部表示数的字节长度是固定的,比如8位,16位,32位。所以...

2019-05-16 17:21:21 72

转载 IDEA中右键运行main方法发现没有Run和Debug选项菜单

在github中下载了示例源码使用idea打开有 main 入口的文件,准备启动实验一下的时候发现右键并没有 Run 和 Debug发现了这种方式可解决以上问题,步骤如下:1.在idea界面右侧有收起来的工具栏,其中有一个是 Maven Projects,点开2. 点击 "+" ,选择需要启动工程的 pom 文件,点击 ok3. 在右侧栏中就会出...

2019-05-15 15:41:04 3185

转载 IDEA左侧project模式下,不显示项目工程目录,只有几个配置文件

I、问题原因一般为配置文件*.iml 出错了II、解决办法 方法1:找到 出错位置,修复 方法2:清除配置,重新导入 1)关闭IDEA, 2)删除项目文件夹下的.idea文件夹 3)重新用IDEA工具打开项目I、问题原因一般为配置文件*.iml 出错了...

2019-05-15 14:13:51 6067

转载 spark中文文档

原文链接:http://www.apachecn.org/bigdata/spark/268.htmlApache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间,在原来Spark 2.0.2 中文文档版本的基础上,终于迭代出...

2019-05-12 20:38:54 360

转载 spark-submit 详细参数说明

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_29303759/article/details/82659185主要参考:https://www.cnblogs.com/weiweifeng/p/8073553.html在spark命令行输入./bin/spark-submit --help可以看到spark-sub...

2019-05-12 18:58:02 5863

转载 解决scalac Error: bad option -make:transitive

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_24309787/article/details/80924831关闭idea打开项目所在位置并进入 .idea修改scala_compiler.xml文件删除掉参数行包含-make:transitive保存后退出编辑并重启idea打开项目...

2019-05-10 15:16:30 199

转载 将 Spark 中的文本转换为 Parquet 以提升性能

https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html1列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。如果您...

2019-05-09 16:38:45 257

转载 ERR! registry error parsing json

版权声明:出了问题总得有个背锅的,你若不想背锅,转载请注明出处!谢谢! https://blog.csdn.net/weixin_41610178/article/details/81216312报错日志:ERR! registry error parsing jsonERR! registry error parsing json解决过程:从github上克隆一...

2019-05-08 18:58:38 312

转载 grep -v grep

1.grep 是查找含有指定文本行的意思,比如grep test 就是查找含有test的文本的行2.grep -v 是反向查找的意思,比如grep -v grep 就是查找不含有 grep 字段的行我们想要找出哪个进程的id可以使用如下语段:ps -ef | grep "mongod" | grep -v "grep" | awk '{print $2}'...

2019-04-30 19:44:34 242

转载 yum安装找不到包问题解决

yum安装找不到包问题解决出现错误如下:[root@localhost ~]# yum -y install gstreamer-ffmpegLoaded plugins: refresh-packagekitSetting up Install ProcessNo package gstreamer-ffmpeg available.Nothing to doYou h...

2019-04-30 18:19:08 8040

转载 Linux环境下为普通用户添加sudo权限

版权声明:本文为博主原创文章,如有不妥地方欢迎指正,希望能够一起进步。 https://blog.csdn.net/qq_39290007/article/details/81125750系统环境:Centos6.51.背景:sudo是Linux系统管理指令,是允许系统管理员让普通用户执行一些或者全部root命令的一个工具。Linux系统下,为了安全,一般来说...

2019-04-29 16:46:30 442

转载 nginx的location 规则匹配详解

语法规则location [=|~|~*|^~] /uri/ { … }模式 含义 location = /uri = 表示精确匹配,只有完全匹配上才能生效 location ^~ /uri ^~ 开头对URL路径进行前缀匹配,并且在正则之前。 location ~ pattern 开头表示区分大小写的正则匹配 location ~* pa...

2019-04-24 12:31:34 158

转载 Nginx配置文件详解

1、安装Nginx在安装Nginx之前,需确保系统已经安装了gcc、 openssl-devel、 pcre-devel和zlib-devel软件库。下面是Nginx安装过程: wget http://nginx.org/download/nginx-1.0.14.tar.gz tar zxvf nginx-1.0.14.tar.gz ./con...

2019-04-24 12:08:16 77

转载 linux 无法使用pstree

安装pstreecentos7上默认没有安装psmisc包.1、在Mac OS上 brew install pstree2、在Fedora/Red Hat/CentOS yum -y install psmisc3、在Ubuntu/Debian apt-get install psmisc...

2019-04-19 12:19:29 490

转载 巧用find命令删除Linux下乱码文件及文件夹

文件在Linux中,每个文件都有一个节点编号,我们可以利用此来搞定乱码,首先查看乱码文件的节点号ls-i2241331412?..??mp3前面的就是节点号了,接下来使用find命令查询并且删除find-inum22413314-delete-inum指根据节点号查询;-delete顾名思义就是删除操作了。这样就成功删除乱码文件了,值得注意的是,此方法...

2019-04-17 14:39:00 589

转载 grep命令参数及用法

功能说明:查找文件里符合条件的字符串。语  法:grep[-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]补充说明:grep指令用于查找内容...

2019-04-16 12:22:06 876

转载 Eclipse 安装反编译插件(两种方式)

反编译插件有 jdeclipse 和 jadclipse(乍看好像是一样的!其实不同)以下为两种插件的安装方式:(推荐1)1、jdeclipsehttps://blog.csdn.net/qq_31772441/article/details/802813282、jad + jadclipsea.下载 jadeclipse:https://sourceforge.net/pr...

2019-04-16 10:38:22 198

转载 CentOS7yum安装mysql+需要:libsasl2.so.2()(64bit)

1.rpm-Uvhhttp://dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm #下载2.yuminstallyum-utils-y #装源3.yum-config-manager--disablemysql56-community #禁用MySQL5.6的源4.yum-config-...

2019-04-15 14:06:53 4670 1

转载 yum安装软件时报错libmysqlclient.so.18()(64bit)---Linux报错

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/debimeng/article/details/78143071yum安装软件时报错libmysqlclient.so.18()(64bit)环境:CentOS 7.2,使用网易yum的网络源问题:使用yum安装软件时报错...2:postfix-2.10.1-6...

2019-04-15 14:01:25 1281

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除