自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (3)
  • 收藏
  • 关注

原创 spark mllib window运行demo 抛异常NativeSystemBLAS

Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS原因是:java在用jni调度dll库,确不能发现依赖的netlib-native_system-win-x86_64.dll解决方法:1.下载dll库文件  csdn:http://download.csdn.NET/detai

2017-11-29 15:53:20 2895 2

原创 spark 运行内存异常及参数调整

主要异常信息:org.apache.spark.shuffle.MetadataFetchFailedException:  Missing an output location for shuffle 0解决方法:加大executor内存,减少executor个数,加大executor并发度主要异常信息:ExecutorLostFailure (executor 3 exited cau

2017-07-19 19:14:31 1323

原创 hadoop的lzo插件安装

由于lzo的压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;可以在linux系统下安装lzop命令,使用方便。所以选lzo作为hadoop中hdfs的压缩文件的格式,但是lzo文件需要手动安装,下面介绍Hadoop的lzo插件的安装,以及测试是否安装成功。 在ambari环境中1.hadoop-lzo-0.4.2

2016-11-07 16:25:32 893

原创 Hbase rowkey 热点问题

最近通过映射查询hbase的数据、非常慢、造成热点原因是rowkey设计不合理。造成数据倾斜都存在同一个reginserver上。所有的请求都跑到同一个reginserver上。    当处理由连续事件得到的数据时,即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不

2016-03-01 15:32:23 857

原创 hive实例讲解实现in和not in子句

目前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。假设有一个会员表tb_member(当天会员记录,只有一个memberid),和一个会员消费表tb_sales(当天会员消费,字段有一个memberid),这两个表都包含一个字段,memberid。in查询如果要查询当天会员的会员消费,需要用in查询,hive sql如下:se

2016-02-18 09:40:30 4227

原创 shell awk 检查程序是否执行

1.Linux中怎样判断某一进程是不是运行?2.Linux中怎样倒排序查看,服务器各类进程数?3.Linux中怎样利用awk检查程序是否执行?通过shell结合awk可以很好判断某一进程是不是运行,或者某一程序文件是否被执行,下面以php为例来说明一下。定义一个crontab,每一分钟执行一次,时间间隔为一分钟,可能下一次执行的时候,上次还没有执行完,所以我们要做一下判断。

2016-02-16 14:42:43 586

原创 使用hbase版本异常

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, java.lang.NoSuchMethodError: org.apache.hadoop.hbase.protobuf.generated.ClientProtos$Result$Builde

2016-02-15 17:42:38 2060

原创 oozie 客户端常用命令

常用命令1.提交作业,作业进入PREP状态 oozie job -oozie http://XXXXXX:11000/oozie -config job.properties -submit job: 14-20090525161321-oozie-joe2.执行已提交的作业oozie job -ooziehttp://XXXXXX:11000/oozie -sta

2016-02-01 09:57:20 509

原创 hadoop append 追加文件 错误

2016-01-25 22:13:11,601 ERROR [Thread-173] org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler: Error writing History Event: org.apache.hadoop.mapreduce.jobhistory.TaskFinishedEvent@57aa9c83

2016-01-26 10:05:04 4840

原创 sorl创建core和删除core

solr删除corehttp://dmhadoop009:8900/solr/admin/collections?action=DELETE&name=XXXXsolr创建corehttp://dmhadoop009:8900/solr/admin/collections?action=CREATE&name=XXXX&numShards=3&replicationFactor=3&m

2016-01-12 18:45:15 1830

原创 服务器时间没同步.---ntpdate

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, begin > end in range (begin, end): (1452509988017, 1452509976937)java.lang.IllegalArgumentExcept

2016-01-12 11:41:07 567

原创 hadoop 读取文件异常

Error: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.Text        at com.symbol.data.tech.consumer_hot.ConsumerHotMapper.map(ConsumerHotMapper

2015-10-20 14:23:48 538

原创 crontab执行报异常

异常信息:nohup: failed to run command `java': No such file or directory/data/om-analytics/business/hive_hbase/workwf.sh: line 4: 4: command not found这就是由于环境变量引起的,这种情况出现时,只需要在你的脚本中,比如XX.sh中加入以下两条语句

2015-10-16 15:29:10 498

原创 hdfs访问异常

Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1/user/dub/data/analyze/CY001/20151014/memberdata, expected: file:///        at org.apache.hadoop.fs.File

2015-10-16 14:57:19 1499

原创 hive 高级查询常用函数关键字总结

最近需求变动数据量在疯涨、学习了hive的高级函数查询的总结。聚合函数1.count计数count(*):求计数 同时运用group by的功能分值出求出它的次数2.sum求和sum(可转成数字的值)返回bigint,比如求和后加1,1必须转化成为bigint类型,sum(col)+cast(1 as bigint)3.avg求平均值avg(可转化成数字的值)返

2015-08-30 13:15:56 856

原创 hive的异常

java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver        at java.net.URLClassLoader$1.run(URLClassLoader.java:366)        at java.net.URLClassLoader$1.run(URLClassLoader.java:355)

2015-08-14 11:26:14 531

原创 hbas连接异常

java.io.IOException: Call to dmhadoop005/192.168.28.76:60020 failed on local exception: java.io.IOException: Call 246130 not added as the connection dmhadoop005/192.168.28.76:60020/ClientService/dub (

2015-08-10 17:43:53 901

原创 hbase client访问的超时时间、重试次数、重试间隔时间的配置

socket超时你认为有几种?1:建立连接的超时时间;2:读数据的超时时间。可以配置如下几个参数:1. hbase.rpc.timeout:rpc的超时时间,默认60s,不建议修改,避免影响正常的业务,在线上环境刚开始配置的是3秒,运行半天后发现了大量的timeout error,原因是有一个region出现了如下问题阻塞了写操作:“Blocking updates …

2015-08-09 12:33:20 6646

原创 hbase 查询大量数据异常并解决方法

java.lang.RuntimeException: org.apache.hadoop.hbase.client.ScannerTimeoutException: 66216ms passed since the last invocation, timeout is currently set to 60000        at org.apache.hadoop.hbase.cl

2015-08-07 17:27:13 14732

原创 练习--hive查询实例和Shell去重

一、HIVE查询hive中students表nid    nname   ncourse   ngrade1    张三    yuwen       852    李四    yuwen       753    张三    shuxue      754    李四    shuxue      955    张三    yingyu       656  

2015-07-31 09:57:08 452

原创 storm系统监控脚本

关于nimbus没有自动重启机制,如何保证系统挂掉后重启的问题。写了个集群免登陆的脚本,及集群ZK操作的脚本。免登陆后再执行zk操作脚本,我们就可以在一台机子上启动集群的ZK、停止ZK及查看ZK状态等等。nimbus监控脚本,只需要后台让他执行就行了,他会自动检测nimbus是否挂掉,如果挂掉就会重启他,有点像nimbus守护进程类似的东西,顺便还给他写了monitor监控的log,方便查询。

2015-07-26 17:50:28 664

转载 Spark Core---从作业提交到任务调度完整生命周期浅析

1.Spark作业提交到执行是一个怎样的过程?2.Driver任务提交是一个怎样的过程?3.作业从提交到任务调度经历了一个怎样的生命周期?引言这一小节我们将就之前写的几篇博文,从提交Job,到Stage划分,到任务分发,再到任务的执行,这一完整过程做一系统的回顾。在这一过程中理清思路,明确几篇文章中涉及到的调度关系和逻辑关系。Spark作业提交到执行过程

2015-07-26 17:03:08 493

原创 hive查询报错误

hive> select ip,time from dataclean;Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there's no reduce operatorStarting Job = job_1437186236276_0047, Tracking URL

2015-07-24 16:18:23 936

转载 storm是如何保证at least once语义的

问题导读1.spout、bolt、acker的关系是什么?2.storm如何如何追踪消息(tuple)的处理?3.2.storm示例说明什么问题?背景本篇看看storm是通过什么机制来保证消息至少处理一次的语义的。storm中的一些原语要说明上面的问题,得先了解storm中的一些原语,比如:tuple和message 在sto

2015-07-24 13:57:00 473

转载 storm基础框架分析

问题导读1.在Topology中我们可以指定spout、bolt的并行度,在提交Topology时Storm如何将spout、bolt自动发布到每个服务器并且控制服务的CPU、磁盘等资源的?2.worker、executor、task之间有什么关系?3.线程模型与消息系统的基本关系?4.topology提交是一个怎么的过程?背景本篇来建立一个基本的背景,来大

2015-07-24 13:39:43 503

转载 hadoop2提交到Yarn: Mapreduce执行过程分析

问题导读1.为什么会产生Yarn?2.Configuration类的作用是什么?3.GenericOptionsParser类的作用是什么?4.如何将命令行中的参数配置到变量conf中?5.哪个方法会获得传入的参数?6.如何在命令行指定reduce的个数?7.默认情况map、reduce为几?8.setJarByClass的作用是什么?9.如果想在控制台

2015-07-20 09:45:38 365

转载 MapReduce的笔记

一、MR作业运行过程        JobClient的runJob()方法:新建JobClient实例,并调用其submitJob()方法。提交作业后,runJob()每秒轮询作业进度,如果发现上次上报后信息有改动,则把进度报告输出到控制台。作业完成,成功则显示作业计数器;失败则输出错误到控制台。 (一)JobClient的submitJob()的作业提交过程:1. 向JobTr

2015-07-20 09:34:08 333

转载 Spark生态和Spark架构

问题导读1.什么是Spark?2.Spark生态系统包括哪些?3.Spark的依赖有哪些?4.了解Spark架构是怎样的?5.Spark是如何运行的?6.Spark架构有哪些组件?Spark概览Spark 是一个通用的大规模数据快速处理引擎。可以简单理解为 Spark 就是一个大数据分布式处理框架。Spark是基于map reduce算法实现的分

2015-07-20 09:20:00 1208

转载 机器学习和统计模型的差异

问题导读:1、什么是机器学习、统计模型?2、从本文中的商业案例中理解统计模型和机器学习算法的差别?3、机器学习和统计模型的差异有哪些?在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机

2015-07-16 09:40:28 871

转载 Apache Spark新手入门学习

本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。一、 为什么要使用Apache Spark时下,我们正处在一个“大数据”的时代,每时每刻,都有各种类型的数据被生产。而在此紫外,数据增幅的速度也在显著增加。从广义上看,这些数据包含交易数据、社交媒体内容(比如文本、图像和视频)以及传感器数据

2015-07-15 09:48:52 814

转载 hadoop学习之基础Java GC详解

1. GC特性以及各种GC的选择1.1 垃圾回收器的特性该回收的对象一定要回收,不该回收的对象一定不能回收 一定要有效,并且要快!尽可能少的暂停应用的运行 需要在时间,空间,回收频率这三个要素中平衡 内存碎片的问题(一种解决内存碎片的方法,就是压缩) 可扩展性和可伸缩性(内存的分配和回收,不应该成为跑在多核多线程应用上的瓶颈) 对垃圾回收器的选择1.

2015-07-14 09:24:40 500

翻译 HBase在线数据备份

hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和HLog来实现的。当请求发送给master cluster时,HLog日志放入hdfs的同时进入replication队列,由slave cluste

2015-07-13 09:40:40 556

证券交易用户生命周期标签文档

文档主要描述券商交易用户流程的生命周期标签文档、为后续用户运营提供数据决策、分析加工、挖掘深层次的数据。

2020-09-23

数据仓库监控质量文档

文档主要是数据源从抽到hive数仓,进行配置化模板来监控各个数仓层的质量问题,以及涉及到监控的页面设计

2019-03-09

jdk1.8和1.9版本

java版本1.8和1.9有压缩包和可执行文件.exe,下载后打开链接直接下载,根据需要选择安装类型。

2018-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除