- 博客(3)
- 问答 (1)
- 收藏
- 关注
原创 hbase的优化点
Hbase的优化点最近在总结hbase的相关内容,在此分享几个较为基础的优化点:GC配置flush阶段compact阶段split阶段GC配置 GC配置也就是JAVA堆内存的垃圾回收,主要用于regionserver的垃圾回收,堆内存中分为三块区域:新生带,老年带,永生带。 新生带:一般存储刚刚生成的对象,一般存储空间较小 老年带:一般用于存储存活时间比较长的对象,一般空间
2017-10-11 22:22:19 237
原创 SQL,计算group by分组后组内不同值的数量
SQL,group by分组后分别计算组内不同值的数量如现有一张购物表shopping name cargo 小明 笔 小明 橡皮 小明 笔 小明 橡皮 小明 橡皮 小红 笔 小红 橡皮 小红 橡皮现要求小明和小红分别买了多少笔和多少橡皮,形成以下格式 姓名 笔 橡皮 小明 2 3 小红 1 2
2017-09-25 12:06:06 7479
原创 用SparkCore统计变位词
用SparkCore统计变位词接触了Spark之后,确实是不想再碰mapreduce了,用scala编程实在是太舒爽了,这里介绍一下如何用SparkCore统计变位词什么是变位词编程思路代码块什么是变位词由相同长度并且组成字母相同但排位顺序不同的单词叫作变位词 如:steal和stale编程思路将每一个单词拆分成字母的数组,在数组内顺序排序,然后将排序后的字母组合成新的单词,最后返回二元组
2017-09-22 16:44:51 298
空空如也
SparkSql中读取hive中的表不能存在"."
2017-09-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人