自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (6)
  • 收藏
  • 关注

原创 Spark运行任务 文件 /etc/hadoop/conf.cloudera.yarn/topology.py 报错解决

执行Spark任务的时候,之前一直运行正常,突然就报错了。不知道原因,开始先从程序日志排查解决。看日志在调用一个python脚本是发生了错误,ExitCodeExceptionexitCode=1:File"/etc/hadoop/conf.cloudera.yarn/topology.py",line43printdefault_rack从错误上看感觉...

2019-04-22 14:35:16 4039 1

转载 HBase Scan 中文字符串

Author:Pirate LeomyBlog:http://blog.csdn.net/pirateleo/myEmail:[email protected]转载请注明出处,谢谢。文中可能涉及到的API:Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase:http://hbas...

2019-04-18 14:27:09 1057

原创 CentOS7 安装CDH5.7.1 too many values to unpack 异常解决

CentOS7 安装CDH5.7.1 too many values to unpack 异常解决too many values to unpack异常解决办法too many values to unpack异常[26/Feb/2019 23:39:00 +0000] 5852 MainThread agent ERROR Caught unexpected except...

2019-02-26 15:54:48 1632 1

原创 SpringBoot 文件上传遇到的错误解决

最近在做文件上传,把遇到的问题和解决办法整理出来:1、NoClassDefFoundError: org/apache/commons/fileupload/FileItemFactory这个是因为缺少  commons-fileupload 的包,pom里添加依赖即可解决。<dependency> <groupId>commons-fileuploa...

2018-11-27 14:40:54 1057

原创 Spark SQL java.lang.StackOverflowError 异常处理

前言之前写了一个hive业务数据ETL后导出的程序,通过通过SparkSQL实现的,当时的需求是每天导出前一天的数据。数据在hive中是有年月日分区的,为了提高效率,所以我在where条件里面每天动态生成了需要的分区条件。一直运行都没什么问题。最近需要一次导出一年的数据,我就在担心这下动态生成的分区条件肯定特别长。哈哈,果然,程序一跑在spark解析SQL的时候就报错了,错误如下:Exce...

2018-08-31 10:51:03 8079 2

原创 spark-submit 传递系统变量 或 自定义属性 的方法

现有Spark任务需要配置一些系统变量(注:并非环境变量)。 在程序中可以通过在代码中进行配置:System.setProperty("prop", "value");但是如果一些实际的生产环境,改动代码的话涉及到重新的测试和部署上线。这样就很麻烦了。 java普通程序可以通过 java -Dprop=value的参数来设置。 hadoop的MapReduce程序也可以通过用To...

2018-07-24 15:45:14 9959

原创 基于HBase的模糊查询以及分页

最近一直忙于项目的落地,都快把CSDN的博客忘记了。现在有时间就补上一篇吧。前言这次讲的是基于HBase的模糊查询和分页。肯定有人问为什么要用HBase,其实我也知道基于大数据量的检索和模糊查询和分页 用ES比HBase强多了。因为HBase是面向列存储的K-V型nosql数据库,先天的特性使它不擅长于业务复杂的查询 甚至是模糊查询。但是实际情况是客户落地的机器数量有限制,只能从已有的数据...

2018-07-19 17:24:27 15450 2

转载 Java8 lambda表达式10个示例

Java8支持了lambda表达式,对于lambda表达式和API。越来越多的了解它们,越能够写出通俗易懂的代码。如果你之前学习过scala,你会觉得总有些相似。因为scala是函式语言,所以也就不奇怪了,哈哈。 下面是我转载的10个示例,原文在这里:http://www.importnew.com/16436.html例1、用lambda表达式实现Runnable 我开始使用Java 8时,首

2017-12-06 11:56:51 4076

原创 多线程从MongoDB读取数据,并以固定大小写入HDFS

从Mongo里多线程取数据,我一开始尝试了用Executors.newFixedThreadPool线程池来实现。实际操作中,发现只有第一个线程会正常取数据,后建立的线程访问Mongo的cursor会报错。 后来改变了实现方式,通过Thread.start()来进行多线程取数据。代码如下:RsUserTagsRunner job = new RsUserTagsRunner(start, end,

2017-12-06 10:30:03 8408 3

原创 hive on spark 动态解决小文件太多的办法

在做项目时,有个ETL需要处理,数据都在HIVE里面,需要对数据进行统计分析转换。开始直接用的HIVE的JDBC,效率不高。后来想到用hive on spark的方式处理。底层不再使用MapReduce进行计算,避免shuffle引起的大量读写硬盘和rpc网络拷贝带来的性能底下问题,程序效率有了明显提高。但是随之而来的是用sparksql往hive表中插入数据时,会产生很多小文件。用hive时,可以

2017-11-27 15:58:01 18331 7

原创 Maven项目 混合编译Java和Scala

建立maven-scala项目后,会生成相应的pom文件。把maven-surefire-plugin的插件注释掉或者直接删掉。然后加入maven-shade-plugin的插件配置。 接下来正常边写程序运行项目时,由于java和scala代码相互调用,所以maven install的时候报错了。 scala:216: error: not found: value java class 然后

2017-11-15 17:27:09 7560

原创 myeclipse的scala插件安装以及maven的支持

项目需要从事scala开发,之前都是用IntelliJ IDEA和scala eclipse,但是我这里目前的环境是myeclipse,刚做的一个项目也在里面,所以就干脆直接用了,下面开始介绍如何使用myeclipse集成scala和maven的相关插件。首先安装scala插件 地址:http://download.scala-ide.org/sdk/lithium/e44/scala211/

2017-11-14 14:20:12 5619 5

原创 Linux下用mail命令发送邮件

服务器首先要能连外网,这里我使用的是我的163的邮箱,所以要保证能连接163的邮件服务器。 使用命令 telnet smtp.163.com 25 如上图所示证明能够成功连接,下面接着要去登陆163的邮件启用授权码。 开启成功后,接着配置linux机器的mail.rc配置文件。 使用命令 vi /etc/mail.rc 编辑mail.rc文

2017-11-14 12:02:58 5011

eclipse/myeclipse maven-for-scala插件

maven-for-scala插件,用来解决eclipse/myeclipse scala插件安装后报错的问题: Plugin execution not covered by lifecycle configuration: net.alchim31.maven:scala-maven-plugin:3.2.0:compile (execution: default, phase: compile)

2018-08-22

hadoop2.6winutils插件包含eclipse插件

hadoop2.6版本编译的winutils 、hadoop.dll以及相应的eclipse插件。 windows开发hadoop可使用。

2017-11-03

db2jcc4.jar

java连接DB2数据库的jdbc jar包,亲测可用。 可用于连接各种DB2服务器

2017-11-03

informatica 学习培训手册

通过该课程你能上手熟悉informatica 1、知道如何使用大部分的 PowerCenter组件来进行开发 2、能够建立基础的ETL mappings 和 mapplets 3、能够创建,运行,监控工作流 4、知道装载目标数据可用到的一些选项 5、能够根据业务编写ETL,调试和解决大部分问题

2017-07-21

编程实现银行家算法c++

编程实现银行家算法 (1) 掌握银行家算法原理 (2) 输入实例,判断是否存在安全序列

2011-04-26

编程实现生产者消费者或读写者的同步问题

1) 利用线程模拟进程 2) 可视化显示模拟同步

2011-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除