harli-CSDN博客

原创随笔：配置属性的设置

配置属性：1. 确认对应配置属性是否正确2. 确认配置属性作用于哪个组件，如：Spark 的 Master 还是 Worker 组件3. 确认对应配置对应组件的使用时机：启动时、运行时 —— 如：配置后是否需要重新启动才能生效，或者是否是支持动态变更属性4. 确认该组件所在节点上可以获取该配置的属性 —— 如：分布式时，是否需要发布到各个节点5. 各种框架都有自己的属性配置

2017-03-16 14:58:00 422

原创 hive 中非默认数据库的json字段

使用 hive 的函数 get_json_object，方式：1. 指定From中的表所在是数据库名SELECT get_json_object(tableName.json, '$.jsonField') , json FROM databaseName.tableName;2. 指定表别名：SELECT get_json_object(aliasName.json, '

2016-08-19 15:50:52 888

原创 spark sql 中 hive变量的使用记录

一、使用变量的方式：和 hive 中使用方式一样，如 ${varName}案例如下：scala> spark.sql("set unit_len=8")res3: org.apache.spark.sql.DataFrame = [key: string, value: string]scala> spark.sql("set unit_flag=unit_day"

2016-08-19 14:18:34 8633

原创 Hive 或 Impala 的数据类型与对应底层的 Parquet schema的数据类型不兼容

背景：修改了hive表的某些字段的数据类型，如从String -> Double ，此时，该表所对应的底层文件格式为Parquet，修改之后，更新Impala索引，然后查询修改数据类型的字段，会出现与Parquet schema 列数据类型不兼容的问题。如： Impala —— 正在提取遇到以下错误的结果：Bad status for request TFet

2016-07-04 14:38:12 13343 1

原创 Cloudera：Hue监控页面的时间显示问题

背景： CM安装时选择时区正确各机器时间已同步、正确问题描述：其他各个监控页面的时间显示正常 Hue中job监控页面的时间显示错误 —— 时区不对解决方法： CM 中，群集 -> Hue 服务 --> 配置选择Hue（服务范围） -> 修改时区属性配置 - time_zone ，默认为 Americ

2016-06-22 15:31:19 3127 1

原创基于Spark SQL 读写Oracle 的简单案例分析常见问题

1 概述本文主要内容包含Spark SQL读写Oracle表数据的简单案例，并针对案例中比较常见的几个问题给出解决方法。最后从常见的java.lang.ClassNotFoundException（无法找到驱动类）的异常问题出发，分析相关的几种解决方法，以及各个解决方法之间的异同点。2 案例中比较常见问题及其解决方法2.1 启动首

2016-04-28 14:08:36 19746

原创小知识点-大数据处理之初步理解

单机处理时扩展到集群处理：单机数据处理 à 集群大数据处理对应的变化：1. 单机上的计算 à 集群中的计算2. 单机上的数据存储 à 集群中的数据存储3. 单机上的计算资源极其管理 à 集群中的计算资源极其管理将生态圈中的各个框架对应到计算、数据存储于资源管理三大部分：1. 集群计算：Spark计算框架、 Hadoop的MR

2016-03-29 01:59:03 882

原创小知识点实践——RDD 在STAGE 中计算时的PIPELINE测试

小知识点实践——RDD 在Stage 中计算时的pipeline测试1 分析在Stage中，以pipeline方式进行计算，计算时对分区的每一条记录是依次从头到尾（在数据获取角度存在回溯的概念，但执行上是从前到后依次计算）使用各个操作算子进来实现的。下面以一条记录计算后对应一条记录为例进行说明（可以认为是map操作，对应逻辑可以扩展到filter、flatMap等

2016-03-23 18:20:35 616

原创小知识点源码解析-STAGE由最后一个RDD确定并行度的源码解析

以ShuffleMapStage 为例进行解析。1 假设RDD A – ShuffleDependency – RDD B 即 RDD B依赖 RDD A，并且依赖关系为宽依赖—— 依赖，针对的是两个RDD之间的关系，RDD可以有多个父依赖RDD，但针对每个父依赖RDD都会有对应的具体依赖。2 关键源码及其解析关键源码为构建ShuffleMapStage 的

2016-03-23 02:25:53 522

原创小技巧-CLASS文件源码查看方法整理

小技巧-class文件源码查看方法整理1 场景跟踪源码时，点击某类或某方法后进入.class文件。2 需求查看该.class文件的源码。3 方法1. 进入.class文件后，右上角会出现download… 和attach… 提示，分别对应为下载相关源码与关联相关源码。二者可选其一（网络下载OK的前提下）。2.

2016-03-22 11:50:14 1944 1

原创 centos yum方式安装git

查询可用安装包 [harli@cluster04 cluster_13]$ yum list git Loaded plugins: fastestmirror, refresh-packagekit, security Loading mirror speeds from cached hostfilebase: centos.ustc.edu.cnextras: centos.ustc.

2015-06-03 00:42:52 884

原创窄依赖的pipeline作用对象分析

当父子RDD间的依赖为窄依赖时，可以pipeline 但对应的pipeline作用在分区数据层，而不是作用在记录级别，在性能上并没有完全体现pipeline的最大优势。如：filter + map，对应在父RDD的各个分区中，会有一次iterator的filter，然后pipeline时，再次子RDD各个分区的iterator的map。如果iterator本身支持pipeline，则可以通过sc

2015-03-13 11:26:30 585

原创编译Spark应用代码报对象已定义错误

错误界面： ** 提供者：北京-hadoop-happy解决分析：从重复加载进行考虑，查看依赖的jar包是否重复有10和11两个Scala版本。

2015-03-06 01:23:36 436

原创 Spark单节点多应用启动失败

单节点多应用：指在单个节点上，运行了多个应用程序（driver）—— 包含client或cluster模式。 1. 问题：在同一个节点启动多个应用时，报java.net.BindException：地址已在使用，报错信息如下： 2. 原因：driver会启动一个jetty server，此时会绑定一个driver上的默认端口（4040），如果driver所在节点已经启动了一个应用的话，

2015-03-06 01:21:21 1132

原创 Spark应用运行时报错

报错信息与Scala有关，如类型不能转换，方法找不到等等，先检查下，编译对象依赖的Scala版本，有以下两种可能： a) 运行环境的scala版本与编译时使用的版本不一致 b) 引进的依赖包，如scalatest等，编译时的scala版本与运行时的版本不一致。错误信息如：java.lang.ClassCastExceptionException in thread “main” ja

2015-03-06 01:17:52 834

原创 Spark提交应用失败

第一种失败： TaskSchedulerImpl 调度失败报错信息: TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory 原因分析： 1. w

2015-03-06 01:16:22 828

原创 Spark集群关闭失败

错误提示信息：原因分析：可能是因为找不到Worker与Master节点对应的pid文件，导致这种错误。解决方法：查看pid文件是不是放在tmp目录下，由于linux系统会定时（或重启时）删除tmp目录，所以导致pid文件缺失。查看脚本spark-daemon.sh： PID默认存放路径为/tmp

2015-03-06 01:13:00 639

原创 IDEA的auto import 与 Scala的隐式转换

IDEA的auto import 与 Scala的隐式转换设置IDEA的auto import 之后，编写Spark应用程序时的一些自动导入情况及其说明。第一种情况普通类的自动导入如代码： var cnames = new ArrayBuffer[String]() var ips = new ArrayBuffer[String]()此时自动导入设置会提示：第二种情况针

2015-03-05 22:44:04 2314

原创 Ruby的常量在嵌套类与子类中的引用 —— 差异点

# 嵌套类class Drawing PI = 123123 def Drawing.give_me_a_circle Circle.new end def xpi PI end class Line end class Circle def what_am_i "This is a circle" end def pi PI end

2014-03-17 22:02:35 1854

原创采用oracle.jdbc.driver.OracleDriver连接数据库

问题：使用 oracle.jdbc.driver.OracleDriver连接数据库时，报错：java.sql.SQLException: ORA-01031: insufficient privileges 使用 sqlplus sys / as sysdba 连接成功解决方法1：采用 DriverManager的方法：public static Connec

2013-10-17 13:23:48 3393

原创汤普金斯先生的日记

汤普金斯先生的日记《最后期限》（The Dead Line）[美]汤姆.迪马可（Tom Demarco）/著UMLChina 翻译组/译 Harli阅读笔记 + 心得 1 （第二章P10）阅读摘要：雇佣人是经理所做的惟一重要的事。如何建设一个团队、如何保持团队的健康、如何带领团队起步、如何给他们凝聚在一起的机会。管理中最根本的四个要素：人员的

2011-11-23 00:36:41 3815

原创你的灯亮着吗？

你的灯亮着吗？——发现问题的真正所在《Are Your Lights On？》 [美]Donald C. Gause, Gerald M. Weinberg /著/译 Harli阅读笔记 + 心得 1 代序1. 智者：把自己当成别人；把别人当成自己；把别人当成别人；把自己当成自己。2. 动手去解决问题之前，好好想想问题的来源；Harli：一个

2011-11-23 00:35:35 1474

原创对温伯格书籍层次的分析

温伯格（Gerald M. Weinberg）致中国读者一文中关于书籍间关系的摘要和分析。Gerald M. Weinberg：清华大学出版社引进翻译的我的这系列作品，让我有机会将这些选本看作一个整体来思考，并且发现了其中的一些相通的主题。从我有记忆开始，我就对"人们如何思考"产生了浓厚的兴趣。 1. 入门第一本书是《程序开发心理》（The Psychology o

2011-11-23 00:34:51 9130

原创工具

1. Cygwin工具：安装Cygwin工具(www.Cygwin.com)，在Windows系统下得到一个类似Unix的shell以及一个非常类似于Linux提供的环境。 Cygwin工具并不能提供所有的Linux功能。

2011-11-23 00:34:05 439

原创 C++资源列表

1. Brain Kernighan 和 Dennis Ritchie ： “K&R”

2011-11-22 22:13:19 440

@echo off echo 正在清理系统垃圾文件，请稍等...... del /f /s /q %systemdrive%/*.tmp del /f /s /q %systemdrive%/*._mp del /f /s /q %systemdrive%/*.log del /f /s /q %systemdrive%/*.gid del /f /s /q %systemdrive%/*.chk del /f /s /q %

2011-03-20 21:59:00 488

转载 CruiseControl 的 108 种调度模式

http://www.blogjava.net/chelsea/archive/2008/01/05/173004.html /*************************/"拥抱变化" 是敏捷的态度之一, CruiseControl 正是来实证这种态度的作品. 多种类型的"变化"都会触发CruiseControl的一次构建过程.我们知道CruiseControl能根据

2010-03-19 23:41:00 517

转载自动进行团队构建和单元测试过程

自动进行团队构建和单元测试过程类别：Linux 编程技术发布时间：2008年12月01日出处：Mark Wilkinson 收藏此篇文章极限编程和敏捷方法建议开发过程要包含持续集成和单元测试。支持这些实践的一个实际方法是设置一个自动系统，每次在源代码发生变化时，都自动构建和测试源代码的最新版本。这篇文章将介绍为 Java™ 项目建立基于 Linux™ 的构建服务器时涉及的实际问

2010-03-19 23:31:00 819

转载 Perl学习指南

http://wiki.perlchina.org/Perl%E5%AD%A6%E4%B9%A0%E6%8C%87%E5%8D%97Perl学习指南取自 PerlChina.org - wiki跳转到: 导航, 搜索Perl 学习指南原名：Perl 学习指南作者：qiang 审校：JackyCheng 发表：2005 出处：中国 Per

2010-03-17 22:02:00 570

转载 Perl安装说明

http://www.yuzi.net/Show.asp?id=9585 Perl对MySQL的支持借助DBI/DBD客户接口而提供。见20.5 MySQL Perl API。Perl DBD/DBI客户代码要求Perl 5.004或以后版本。如果你有Perl的一个更旧的版本，接口将不能工作。 MySQL Perl支持也要求你安装了MySQL客户编程支持。如果你从RPM文件安装M

2010-03-17 22:00:00 820

转载 Perl模块多平台安装方法

Perl模块多平台安装方法 http://wiki.perlchina.org/Perl%E6%A8%A1%E5%9D%97%E5%A4%9A%E5%B9%B3%E5%8F%B0%E5%AE%89%E8%A3%85%E6%96%B9%E6%B3%95#.E4.BD.BF.E7.94.A8_CPAN_.E6.A8.A1.E5.9D.97.E8.87.AA.E5.8A.A8.E5.AE.89.

2010-03-17 21:57:00 644