自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Sir_yuan的博客

原创 sparksql 如何指定输出的文件名

这是sparksql写入hive表指定输出文件名的自定义方式。贼简单！！！版本：spark-2.3.2实现目的在目前的业务需求中，需要实现场景为：当往一个hive表中不断以Append的方式写入数据，需要知道哪些文件是哪一次运行后追加的文件，所以最好的方法是往输出的文件名前添加前缀，如日期，或者调度编号等。但是spark未提供相应参数接口，需要更改一丢丢源码来实现。实现方式...

2020-04-20 18:22:24 2229

原创使用cdh的hbase-indexer工具的两个问题

在使用hbase实现点查询业务中，经常要用到二级索引的方式，而 hbase over solr 是一种比较灵活，性能较高的方案。cdh平台提供了hbase-indexer工具可以实现将hbase的数据同步到solr中的方式，下面说一下实际使用的过程中遇到的两个问题。问题一之前在设置类型之后需要使用hbase-indexer的官方类型int将hbase中的byte转换成solr中的整数型...

2019-09-29 21:49:19 874

原创 spark-sql读取映射hbase数据的hive外部表

之前在业务处理中建立的一个hive映射hbase数据的外部表，通过hive查询成功，但是通过spark-sql去查询报了如下错误：Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.org.apache.hadoop.

2017-12-27 17:06:35 5148 4

原创 cdh上使用spark-thriftserver操作carbondata

carbondata 是一种新型的适用于分布式计算的列式文件格式，本次使用spark-thrift方式来操作carbondata，简略介绍如何启动spark-carbondata-thriftserver。版本cdh 5.10.3spark 2.1.0carbondata 1.2.0 下载spark https://archive.apache.org/dist/spark/spark-2

2017-11-27 18:48:00 1943 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Sir_yuan CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：上海市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

4: 原创

112万+: 周排名

126万+: 总排名

1万+: 访问

: 等级

167: 积分

3: 粉丝

2: 获赞

6: 评论

14: 收藏

私信

关注

热门文章

分类专栏

cdh 1篇
carbondata 1篇

最新评论

spark-sql读取映射hbase数据的hive外部表
卑以自牧w: 肯定不会快这么大的数据量不适合用映射表的这种方式还是利用spark blukload数据进hive比较好而且hive本身不是一个以查询见长的数据库
spark-sql读取映射hbase数据的hive外部表
杜之心回复百物易用是苏生: sparksql 去查hive hbase 映射表就是慢，我也遇到了
cdh上使用spark-thriftserver操作carbondata
nszkadrgg: 可以联系你一下不，你加我的qq 349146591 我有问题请教
spark-sql读取映射hbase数据的hive外部表
百物易用是苏生: sparksql去查询hive外部表(内部hbase数据)，是不是很慢，我这边生产上select * from tablename rowkey>'startRow' and rowkey<'endRow' limit 1，都巨慢无比，①生成task少，基本跟region个数对应，②看的查询计划，rowkey变成了Filter((rowkey>'startRow') and rowkey<'endRow' )),怀疑spark这样做到hbase里就是scan的是全表了。不知道你的生产环境上慢不慢？我这生产环境上那张表是1天300G数据，region最大10G split，rowkey range 无伦是几秒、几分、几小时都要花费十几个小时，随着数据增长花费时间越来越长，跑了十几天150个region、上面简单查询例子，3个job，task数300不到（调优已设置好）。目前都还只能考hive去查询出数据分析和报告。rowkey有根据设计有热点问题，但是比hive还慢几百倍就不能忍了！为何有以上①②猜想，后面测试hive中insert overwrite newtable select * from oldhbasetable where ...弄到一张hive的parquet格式的表中，然后spark.read.parquet("parquet文件")，生成的任务数是总数据量/128M 然后几分钟就跑完数据，跟hive就一样快了，就只剩下热点问题导致的计算任务大量集中在一台机器上的排队问题了。（但是insert 到hive的parquet表太慢太慢了，两小时的数据35G就要50分钟，方案同样不可取）不知道你有没有这样的问题
cdh上使用spark-thriftserver操作carbondata
weixin_42151128: 楼主有打包好的jar 分享下

最新文章

提示

确定要删除当前文章？

取消删除