- 博客(32)
- 资源 (65)
- 收藏
- 关注
原创 随笔:配置属性的设置
配置属性:1. 确认对应配置属性是否正确2. 确认配置属性作用于哪个组件,如 :Spark 的 Master 还是 Worker 组件3. 确认对应配置对应组件的使用时机:启动时、运行时 —— 如:配置后是否需要重新启动才能生效,或者是否是支持动态变更属性4. 确认该组件所在节点上可以获取该配置的属性 —— 如 :分布式时,是否需要发布到各个节点5. 各种框架都有自己的属性配置
2017-03-16 14:58:00 422
原创 hive 中 非默认数据库的json字段
使用 hive 的函数 get_json_object, 方式:1. 指定From中的表所在是数据库名SELECT get_json_object(tableName.json, '$.jsonField') , json FROM databaseName.tableName;2. 指定表别名:SELECT get_json_object(aliasName.json, '
2016-08-19 15:50:52 888
原创 spark sql 中 hive变量的使用记录
一、 使用变量的方式: 和 hive 中使用方式一样,如 ${varName}案例如下:scala> spark.sql("set unit_len=8")res3: org.apache.spark.sql.DataFrame = [key: string, value: string]scala> spark.sql("set unit_flag=unit_day"
2016-08-19 14:18:34 8633
原创 Hive 或 Impala 的数据类型与 对应底层的 Parquet schema的数据类型不兼容
背景: 修改了hive表的某些字段的数据类型,如从String -> Double , 此时,该表所对应的底层文件格式为Parquet,修改之后,更新Impala索引,然后查询修改数据类型的字段,会出现与Parquet schema 列数据类型不兼容的问题。如: Impala —— 正在提取遇到以下错误的结果:Bad status for request TFet
2016-07-04 14:38:12 13343 1
原创 Cloudera:Hue监控页面的时间显示问题
背景: CM安装时选择时区正确 各机器时间已同步、正确问题描述: 其他各个监控页面的时间显示正常 Hue中job监控页面的时间显示错误 —— 时区不对解决方法: CM 中, 群集 -> Hue 服务 --> 配置 选择Hue(服务范围) -> 修改时区属性配置 - time_zone , 默认为 Americ
2016-06-22 15:31:19 3127 1
原创 基于Spark SQL 读写Oracle 的简单案例分析常见问题
1 概述本文主要内容包含Spark SQL读写Oracle表数据的简单案例,并针对案例中比较常见的几个问题给出解决方法。最后从常见的java.lang.ClassNotFoundException(无法找到驱动类)的异常问题出发,分析相关的几种解决方法,以及各个解决方法之间的异同点。2 案例中比较常见问题及其解决方法2.1 启动首
2016-04-28 14:08:36 19746
原创 小知识点-大数据处理之初步理解
单机处理时扩展到集群处理: 单机数据处理 à 集群大数据处理对应的变化:1. 单机上的计算 à 集群中的计算2. 单机上的数据存储 à 集群中的数据存储3. 单机上的计算资源极其管理 à 集群中的计算资源极其管理将生态圈中的各个框架对应到计算、数据存储于资源管理三大部分:1. 集群计算:Spark计算框架、 Hadoop的MR
2016-03-29 01:59:03 882
原创 小知识点实践——RDD 在STAGE 中计算时的PIPELINE测试
小知识点实践——RDD 在Stage 中计算时的pipeline测试1 分析在Stage中,以pipeline方式进行计算,计算时对分区的每一条记录是依次从头到尾(在数据获取角度存在回溯的概念,但执行上是从前到后依次计算)使用各个操作算子进来实现的。下面以一条记录计算后对应一条记录为例进行说明(可以认为是map操作,对应逻辑可以扩展到filter、flatMap等
2016-03-23 18:20:35 616
原创 小知识点源码解析-STAGE由最后一个RDD确定并行度的源码解析
以ShuffleMapStage 为例进行解析。1 假设RDD A – ShuffleDependency – RDD B 即 RDD B依赖 RDD A,并且依赖关系为宽依赖—— 依赖,针对的是两个RDD之间的关系,RDD可以有多个父依赖RDD,但针对每个父依赖RDD都会有对应的具体依赖。2 关键源码及其解析关键源码为构建ShuffleMapStage 的
2016-03-23 02:25:53 522
原创 小技巧-CLASS文件源码查看方法整理
小技巧-class文件源码查看方法整理1 场景跟踪源码时,点击某类或某方法后进入.class文件。2 需求查看该.class文件的源码。3 方法1. 进入.class文件后,右上角会出现download… 和attach… 提示,分别对应为下载相关源码与关联相关源码。二者可选其一(网络下载OK的前提下)。2.
2016-03-22 11:50:14 1944 1
原创 centos yum方式安装git
查询可用安装包 [harli@cluster04 cluster_13]$ yum list git Loaded plugins: fastestmirror, refresh-packagekit, security Loading mirror speeds from cached hostfilebase: centos.ustc.edu.cnextras: centos.ustc.
2015-06-03 00:42:52 884
原创 窄依赖的pipeline作用对象分析
当父子RDD间的依赖为窄依赖时,可以pipeline 但对应的pipeline作用在分区数据层,而不是作用在记录级别,在性能上并没有完全体现pipeline的最大优势。如:filter + map, 对应在父RDD的各个分区中,会有一次iterator的filter,然后pipeline时,再次子RDD各个分区的iterator的map。如果iterator本身支持pipeline,则可以通过sc
2015-03-13 11:26:30 585
原创 编译Spark应用代码报对象已定义错误
错误界面: ** 提供者:北京-hadoop-happy解决分析: 从重复加载进行考虑,查看依赖的jar包是否重复有10和11两个Scala版本。
2015-03-06 01:23:36 436
原创 Spark单节点多应用启动失败
单节点多应用:指在单个节点上,运行了多个应用程序(driver)—— 包含client或cluster模式。 1. 问题:在同一个节点启动多个应用 时,报java.net.BindException:地址已在使用,报错信息如下: 2. 原因:driver会启动一个jetty server,此时会绑定一个driver上的默认端口(4040),如果driver所在节点已经启动了一个应用的话,
2015-03-06 01:21:21 1132
原创 Spark应用运行时报错
报错信息与Scala有关,如类型不能转换,方法找不到等等,先检查下,编译对象依赖的Scala版本,有以下两种可能: a) 运行环境的scala版本与编译时使用的版本不一致 b) 引进的依赖包,如scalatest等,编译时的scala版本与运行时的版本不一致。 错误信息如:java.lang.ClassCastExceptionException in thread “main” ja
2015-03-06 01:17:52 834
原创 Spark提交应用失败
第一种失败: TaskSchedulerImpl 调度失败 报错信息: TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory 原因分析: 1. w
2015-03-06 01:16:22 828
原创 Spark集群关闭失败
错误提示信息: 原因分析: 可能是因为找不到Worker与Master节点对应的pid文件,导致这种错误。 解决方法: 查看pid文件是不是放在tmp目录下,由于linux系统会定时(或重启时)删除tmp目录,所以导致pid文件缺失。查看脚本spark-daemon.sh: PID默认存放路径为/tmp
2015-03-06 01:13:00 639
原创 IDEA的auto import 与 Scala的隐式转换
IDEA的auto import 与 Scala的隐式转换设置IDEA的auto import 之后,编写Spark应用程序时的一些自动导入情况及其说明。第一种情况 普通类的自动导入 如代码: var cnames = new ArrayBuffer[String]() var ips = new ArrayBuffer[String]()此时自动导入设置会提示: 第二种情况 针
2015-03-05 22:44:04 2314
原创 Ruby的常量在嵌套类与子类中的引用 —— 差异点
# 嵌套类class Drawing PI = 123123 def Drawing.give_me_a_circle Circle.new end def xpi PI end class Line end class Circle def what_am_i "This is a circle" end def pi PI end
2014-03-17 22:02:35 1854
原创 采用oracle.jdbc.driver.OracleDriver连接数据库
问题:使用 oracle.jdbc.driver.OracleDriver连接数据库时, 报错:java.sql.SQLException: ORA-01031: insufficient privileges 使用 sqlplus sys / as sysdba 连接成功解决方法1: 采用 DriverManager的方法 :public static Connec
2013-10-17 13:23:48 3393
原创 汤普金斯先生的日记
汤普金斯先生的日记《最后期限》(The Dead Line)[美]汤姆.迪马可(Tom Demarco)/著UMLChina 翻译组/译 Harli阅读笔记 + 心得 1 (第二章P10)阅读摘要: 雇佣人是经理所做的惟一重要的事。 如何建设一个团队、如何保持团队的健康、如何带领团队起步、如何给他们凝聚在一起的机会。 管理中最根本的四个要素:人员的
2011-11-23 00:36:41 3815
原创 你的灯亮着吗?
你的灯亮着吗?——发现问题的真正所在《Are Your Lights On?》 [美]Donald C. Gause, Gerald M. Weinberg /著/译 Harli阅读笔记 + 心得 1 代序1. 智者:把自己当成别人;把别人当成自己;把别人当成别人;把自己当成自己。2. 动手去解决问题之前,好好想想问题的来源;Harli:一个
2011-11-23 00:35:35 1474
原创 对温伯格书籍层次的分析
温伯格(Gerald M. Weinberg)致中国读者一文中关于书籍间关系的摘要和分析。Gerald M. Weinberg:清华大学出版社引进翻译的我的这系列作品,让我有机会将这些选本看作一个整体来思考,并且发现了其中的一些相通的主题。 从我有记忆开始,我就对"人们如何思考"产生了浓厚的兴趣。 1. 入门 第一本书是《程序开发心理》(The Psychology o
2011-11-23 00:34:51 9130
原创 工具
1. Cygwin工具 : 安装Cygwin工具(www.Cygwin.com),在Windows系统下得到一个类似Unix的shell以及一个非常类似于Linux提供的环境。 Cygwin工具并不能提供所有的Linux功能。
2011-11-23 00:34:05 439
原创 一键清理系统垃圾文件.bat
<br />@echo off<br />echo 正在清理系统垃圾文件,请稍等......<br />del /f /s /q %systemdrive%/*.tmp<br />del /f /s /q %systemdrive%/*._mp<br />del /f /s /q %systemdrive%/*.log<br />del /f /s /q %systemdrive%/*.gid<br />del /f /s /q %systemdrive%/*.chk<br />del /f /s /q %
2011-03-20 21:59:00 488
转载 CruiseControl 的 108 种调度模式
http://www.blogjava.net/chelsea/archive/2008/01/05/173004.html /*************************/"拥抱变化" 是敏捷的态度之一, CruiseControl 正是来实证这种态度的作品. 多种类型的"变化"都会触发CruiseControl的一次构建过程.我们知道CruiseControl能根据
2010-03-19 23:41:00 517
转载 自动进行团队构建和单元测试过程
自动进行团队构建和单元测试过程类别:Linux 编程技术 发布时间:2008年12月01日 出处:Mark Wilkinson 收藏此篇文章 极限编程和敏捷方法建议开发过程要包含持续集成和单元测试。支持这些实践的一个实际方法是设置一个自动系统,每次在源代码发生变化时,都自动构建和测试源 代码的最新版本。这篇文章将介绍为 Java™ 项目建立基于 Linux™ 的构建服务器时涉及的实际问
2010-03-19 23:31:00 819
转载 Perl学习指南
http://wiki.perlchina.org/Perl%E5%AD%A6%E4%B9%A0%E6%8C%87%E5%8D%97Perl学习指南取自 PerlChina.org - wiki跳转到: 导航, 搜索Perl 学习指南 原 名:Perl 学习指南 作 者:qiang 审 校:JackyCheng 发 表:2005 出 处:中国 Per
2010-03-17 22:02:00 570
转载 Perl安装说明
http://www.yuzi.net/Show.asp?id=9585 Perl对MySQL的支持借助DBI/DBD客户接口而提供。见20.5 MySQL Perl API。Perl DBD/DBI客户代码要求Perl 5.004或以后版本。如果你有Perl的一个更旧的版本,接口将不能工作。 MySQL Perl支持也要求你安装了MySQL客户编程支持。如果你从RPM文件安装M
2010-03-17 22:00:00 820
转载 Perl模块多平台安装方法
Perl模块多平台安装方法 http://wiki.perlchina.org/Perl%E6%A8%A1%E5%9D%97%E5%A4%9A%E5%B9%B3%E5%8F%B0%E5%AE%89%E8%A3%85%E6%96%B9%E6%B3%95#.E4.BD.BF.E7.94.A8_CPAN_.E6.A8.A1.E5.9D.97.E8.87.AA.E5.8A.A8.E5.AE.89.
2010-03-17 21:57:00 644
原创 理论与方法的触发器学习法
理论与方法的触发器学习步骤1. 将理论与方法分类,并设置优先级,从中选出当前学习对象2. 为每个学习对象设置触发器3. 由开始的触发器出发学习到成为习惯4. 记录学习标志阶段,并改进5. 循环过程
2010-01-28 13:12:00 365
XLearning - 机器学习调度系统.pdf
2019-12-24
(201411)机器学习大家迈克尔·乔丹 谈大数据等重大技术探索的迷思.pdf
2019-12-24
Security Identity Manager White Paper.pdf
2020-01-05
Big Ball of Mud-mud.pdf
2020-01-01
Deis文档翻译.pdf
2019-12-26
Conduit官方文档中文版.pdf
2019-12-26
Choerodon(猪齿鱼)v1.7 中文文档.pdf
2019-12-26
[英文] Tekton Pipelines Document.pdf
2019-12-26
[英文] Kubernetes clusters for the hobbyist..pdf
2019-12-26
Istio 服务网格进阶实战.pdf
2019-12-26
边缘计算 OpenEdge 文档.pdf
2019-12-25
ZooKeeper深入浅出.pdf
2019-12-25
Apache Kudu 1.4.0 中文文档.pdf
2019-12-25
Building-Realtime-Data-Pipelines-with-Kafka-Connect-and-Spark-Streaming.pdf
2019-12-25
Understanding-Memory-Management-In-Spark-For-Fun-And-Profit.pdf
2019-12-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人