自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (65)
  • 收藏
  • 关注

原创 随笔:配置属性的设置

配置属性:1. 确认对应配置属性是否正确2. 确认配置属性作用于哪个组件,如 :Spark 的 Master 还是 Worker 组件3. 确认对应配置对应组件的使用时机:启动时、运行时 —— 如:配置后是否需要重新启动才能生效,或者是否是支持动态变更属性4. 确认该组件所在节点上可以获取该配置的属性 —— 如 :分布式时,是否需要发布到各个节点5. 各种框架都有自己的属性配置

2017-03-16 14:58:00 422

原创 hive 中 非默认数据库的json字段

使用 hive 的函数 get_json_object, 方式:1.  指定From中的表所在是数据库名SELECT get_json_object(tableName.json, '$.jsonField') , json FROM databaseName.tableName;2. 指定表别名:SELECT get_json_object(aliasName.json, '

2016-08-19 15:50:52 888

原创 spark sql 中 hive变量的使用记录

一、 使用变量的方式: 和 hive 中使用方式一样,如 ${varName}案例如下:scala> spark.sql("set unit_len=8")res3: org.apache.spark.sql.DataFrame = [key: string, value: string]scala> spark.sql("set unit_flag=unit_day"

2016-08-19 14:18:34 8633

原创 Hive 或 Impala 的数据类型与 对应底层的 Parquet schema的数据类型不兼容

背景: 修改了hive表的某些字段的数据类型,如从String  -> Double , 此时,该表所对应的底层文件格式为Parquet,修改之后,更新Impala索引,然后查询修改数据类型的字段,会出现与Parquet schema 列数据类型不兼容的问题。如: Impala —— 正在提取遇到以下错误的结果:Bad status for request TFet

2016-07-04 14:38:12 13343 1

原创 Cloudera:Hue监控页面的时间显示问题

背景:    CM安装时选择时区正确    各机器时间已同步、正确问题描述:    其他各个监控页面的时间显示正常    Hue中job监控页面的时间显示错误  —— 时区不对解决方法:    CM 中, 群集  -> Hue 服务 --> 配置    选择Hue(服务范围) ->  修改时区属性配置 - time_zone , 默认为 Americ

2016-06-22 15:31:19 3127 1

原创 基于Spark SQL 读写Oracle 的简单案例分析常见问题

1      概述本文主要内容包含Spark SQL读写Oracle表数据的简单案例,并针对案例中比较常见的几个问题给出解决方法。最后从常见的java.lang.ClassNotFoundException(无法找到驱动类)的异常问题出发,分析相关的几种解决方法,以及各个解决方法之间的异同点。2      案例中比较常见问题及其解决方法2.1     启动首

2016-04-28 14:08:36 19746

原创 小知识点-大数据处理之初步理解

单机处理时扩展到集群处理: 单机数据处理   à  集群大数据处理对应的变化:1.     单机上的计算  à 集群中的计算2.     单机上的数据存储  à  集群中的数据存储3.     单机上的计算资源极其管理  à  集群中的计算资源极其管理将生态圈中的各个框架对应到计算、数据存储于资源管理三大部分:1.     集群计算:Spark计算框架、 Hadoop的MR

2016-03-29 01:59:03 882

原创 小知识点实践——RDD 在STAGE 中计算时的PIPELINE测试

小知识点实践——RDD 在Stage 中计算时的pipeline测试1      分析在Stage中,以pipeline方式进行计算,计算时对分区的每一条记录是依次从头到尾(在数据获取角度存在回溯的概念,但执行上是从前到后依次计算)使用各个操作算子进来实现的。下面以一条记录计算后对应一条记录为例进行说明(可以认为是map操作,对应逻辑可以扩展到filter、flatMap等

2016-03-23 18:20:35 616

原创 小知识点源码解析-STAGE由最后一个RDD确定并行度的源码解析

以ShuffleMapStage 为例进行解析。1      假设RDD A – ShuffleDependency – RDD B 即 RDD B依赖 RDD A,并且依赖关系为宽依赖—— 依赖,针对的是两个RDD之间的关系,RDD可以有多个父依赖RDD,但针对每个父依赖RDD都会有对应的具体依赖。2      关键源码及其解析关键源码为构建ShuffleMapStage 的

2016-03-23 02:25:53 522

原创 小技巧-CLASS文件源码查看方法整理

小技巧-class文件源码查看方法整理1       场景跟踪源码时,点击某类或某方法后进入.class文件。2       需求查看该.class文件的源码。3       方法1.        进入.class文件后,右上角会出现download… 和attach… 提示,分别对应为下载相关源码与关联相关源码。二者可选其一(网络下载OK的前提下)。2.    

2016-03-22 11:50:14 1944 1

原创 centos yum方式安装git

查询可用安装包 [harli@cluster04 cluster_13]$ yum list git Loaded plugins: fastestmirror, refresh-packagekit, security Loading mirror speeds from cached hostfilebase: centos.ustc.edu.cnextras: centos.ustc.

2015-06-03 00:42:52 884

原创 窄依赖的pipeline作用对象分析

当父子RDD间的依赖为窄依赖时,可以pipeline 但对应的pipeline作用在分区数据层,而不是作用在记录级别,在性能上并没有完全体现pipeline的最大优势。如:filter + map, 对应在父RDD的各个分区中,会有一次iterator的filter,然后pipeline时,再次子RDD各个分区的iterator的map。如果iterator本身支持pipeline,则可以通过sc

2015-03-13 11:26:30 585

原创 编译Spark应用代码报对象已定义错误

错误界面: ** 提供者:北京-hadoop-happy解决分析: 从重复加载进行考虑,查看依赖的jar包是否重复有10和11两个Scala版本。

2015-03-06 01:23:36 436

原创 Spark单节点多应用启动失败

单节点多应用:指在单个节点上,运行了多个应用程序(driver)—— 包含client或cluster模式。 1. 问题:在同一个节点启动多个应用 时,报java.net.BindException:地址已在使用,报错信息如下: 2. 原因:driver会启动一个jetty server,此时会绑定一个driver上的默认端口(4040),如果driver所在节点已经启动了一个应用的话,

2015-03-06 01:21:21 1132

原创 Spark应用运行时报错

报错信息与Scala有关,如类型不能转换,方法找不到等等,先检查下,编译对象依赖的Scala版本,有以下两种可能: a) 运行环境的scala版本与编译时使用的版本不一致 b) 引进的依赖包,如scalatest等,编译时的scala版本与运行时的版本不一致。 错误信息如:java.lang.ClassCastExceptionException in thread “main” ja

2015-03-06 01:17:52 834

原创 Spark提交应用失败

第一种失败: TaskSchedulerImpl 调度失败 报错信息: TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory 原因分析: 1. w

2015-03-06 01:16:22 828

原创 Spark集群关闭失败

错误提示信息: 原因分析: 可能是因为找不到Worker与Master节点对应的pid文件,导致这种错误。 解决方法: 查看pid文件是不是放在tmp目录下,由于linux系统会定时(或重启时)删除tmp目录,所以导致pid文件缺失。查看脚本spark-daemon.sh: PID默认存放路径为/tmp

2015-03-06 01:13:00 639

原创 IDEA的auto import 与 Scala的隐式转换

IDEA的auto import 与 Scala的隐式转换设置IDEA的auto import 之后,编写Spark应用程序时的一些自动导入情况及其说明。第一种情况 普通类的自动导入 如代码: var cnames = new ArrayBuffer[String]() var ips = new ArrayBuffer[String]()此时自动导入设置会提示: 第二种情况 针

2015-03-05 22:44:04 2314

原创 Ruby的常量在嵌套类与子类中的引用 —— 差异点

# 嵌套类class Drawing PI = 123123 def Drawing.give_me_a_circle Circle.new end def xpi PI end class Line end class Circle def what_am_i "This is a circle" end def pi PI end

2014-03-17 22:02:35 1854

原创 采用oracle.jdbc.driver.OracleDriver连接数据库

问题:使用 oracle.jdbc.driver.OracleDriver连接数据库时, 报错:java.sql.SQLException: ORA-01031: insufficient privileges 使用 sqlplus sys / as sysdba 连接成功解决方法1: 采用 DriverManager的方法 :public static Connec

2013-10-17 13:23:48 3393

原创 汤普金斯先生的日记

汤普金斯先生的日记《最后期限》(The Dead Line)[美]汤姆.迪马可(Tom Demarco)/著UMLChina 翻译组/译 Harli阅读笔记 + 心得 1   (第二章P10)阅读摘要:  雇佣人是经理所做的惟一重要的事。  如何建设一个团队、如何保持团队的健康、如何带领团队起步、如何给他们凝聚在一起的机会。  管理中最根本的四个要素:人员的

2011-11-23 00:36:41 3815

原创 你的灯亮着吗?

你的灯亮着吗?——发现问题的真正所在《Are Your Lights On?》 [美]Donald C. Gause, Gerald M. Weinberg /著/译 Harli阅读笔记 + 心得 1   代序1.    智者:把自己当成别人;把别人当成自己;把别人当成别人;把自己当成自己。2.    动手去解决问题之前,好好想想问题的来源;Harli:一个

2011-11-23 00:35:35 1474

原创 对温伯格书籍层次的分析

温伯格(Gerald M. Weinberg)致中国读者一文中关于书籍间关系的摘要和分析。Gerald M. Weinberg:清华大学出版社引进翻译的我的这系列作品,让我有机会将这些选本看作一个整体来思考,并且发现了其中的一些相通的主题。 从我有记忆开始,我就对"人们如何思考"产生了浓厚的兴趣。 1.      入门  第一本书是《程序开发心理》(The Psychology o

2011-11-23 00:34:51 9130

原创 工具

1. Cygwin工具 : 安装Cygwin工具(www.Cygwin.com),在Windows系统下得到一个类似Unix的shell以及一个非常类似于Linux提供的环境。     Cygwin工具并不能提供所有的Linux功能。

2011-11-23 00:34:05 439

原创 C++资源列表

1. Brain Kernighan 和 Dennis Ritchie : “K&R”

2011-11-22 22:13:19 440

原创 一键清理系统垃圾文件.bat

<br />@echo off<br />echo 正在清理系统垃圾文件,请稍等......<br />del /f /s /q %systemdrive%/*.tmp<br />del /f /s /q %systemdrive%/*._mp<br />del /f /s /q %systemdrive%/*.log<br />del /f /s /q %systemdrive%/*.gid<br />del /f /s /q %systemdrive%/*.chk<br />del /f /s /q %

2011-03-20 21:59:00 488

转载 CruiseControl 的 108 种调度模式

http://www.blogjava.net/chelsea/archive/2008/01/05/173004.html  /*************************/"拥抱变化" 是敏捷的态度之一, CruiseControl 正是来实证这种态度的作品. 多种类型的"变化"都会触发CruiseControl的一次构建过程.我们知道CruiseControl能根据

2010-03-19 23:41:00 517

转载 自动进行团队构建和单元测试过程

自动进行团队构建和单元测试过程类别:Linux 编程技术 发布时间:2008年12月01日 出处:Mark Wilkinson 收藏此篇文章 极限编程和敏捷方法建议开发过程要包含持续集成和单元测试。支持这些实践的一个实际方法是设置一个自动系统,每次在源代码发生变化时,都自动构建和测试源 代码的最新版本。这篇文章将介绍为 Java™ 项目建立基于 Linux™ 的构建服务器时涉及的实际问

2010-03-19 23:31:00 819

转载 Perl学习指南

http://wiki.perlchina.org/Perl%E5%AD%A6%E4%B9%A0%E6%8C%87%E5%8D%97Perl学习指南取自 PerlChina.org - wiki跳转到: 导航, 搜索Perl 学习指南 原 名:Perl 学习指南 作 者:qiang 审 校:JackyCheng 发 表:2005 出 处:中国 Per

2010-03-17 22:02:00 570

转载 Perl安装说明

 http://www.yuzi.net/Show.asp?id=9585 Perl对MySQL的支持借助DBI/DBD客户接口而提供。见20.5 MySQL Perl API。Perl DBD/DBI客户代码要求Perl 5.004或以后版本。如果你有Perl的一个更旧的版本,接口将不能工作。 MySQL Perl支持也要求你安装了MySQL客户编程支持。如果你从RPM文件安装M

2010-03-17 22:00:00 820

转载 Perl模块多平台安装方法

Perl模块多平台安装方法 http://wiki.perlchina.org/Perl%E6%A8%A1%E5%9D%97%E5%A4%9A%E5%B9%B3%E5%8F%B0%E5%AE%89%E8%A3%85%E6%96%B9%E6%B3%95#.E4.BD.BF.E7.94.A8_CPAN_.E6.A8.A1.E5.9D.97.E8.87.AA.E5.8A.A8.E5.AE.89.

2010-03-17 21:57:00 644

原创 理论与方法的触发器学习法

理论与方法的触发器学习步骤1.  将理论与方法分类,并设置优先级,从中选出当前学习对象2.  为每个学习对象设置触发器3.  由开始的触发器出发学习到成为习惯4.  记录学习标志阶段,并改进5.  循环过程 

2010-01-28 13:12:00 365

大数据的Reactive设计范式和Akka实践.pdf

大数据的Reactive设计范式和Akka实践.pdf

2019-12-24

XLearning - 机器学习调度系统.pdf

XLearning是一款支持多种机器学习、深度学习框架的调度系统。基于Hadoop Yarn完成了对TensorFlow、 MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。

2019-12-24

(201411)机器学习大家迈克尔·乔丹 谈大数据等重大技术探索的迷思.pdf

(201411)机器学习大家迈克尔·乔丹 谈大数据等重大技术探索的迷思.pdf 关注于:深度学习 神经科学 计算模型等

2019-12-24

Keras官方中文文档.pdf

Keras官方中文文档.pdf Keras: 基于 Python 的深度学习库 Keras的官网翻译文档

2019-12-24

写给人类的机器学习.pdf

写给人类的机器学习.pdf 介绍了基本的机器学习,包含监督非监督,以及深度学习、强化学习 等,并提供了机器学习相关资源的链接信息

2019-12-24

Hadoop开发者入门专刊

Hadoop开发者入门专刊

2013-09-23

王家林经典云计算hadoop第1至11讲的课程资料

王家林经典云计算hadoop第1至11讲的课程资料

2013-09-23

大数据处理资料集合

大数据处理资料集合

2013-09-23

大数据处理资料

大数据处理

2013-09-23

微信技术总监分享架构设计

微信技术总监分享架构设计

2013-09-23

java EJB资料

EJB系统开发实战录1.pdf EJB设计模式.pdf 等

2013-09-22

设计心理学

唐纳德 经典 软件设计-----设计心理学.pdf

2013-09-22

synergy.zip

synergy 共享键盘鼠标工具共享键盘鼠标工具

2013-04-09

gnu等编译文档

编译文档

2013-03-27

Windows编程启示录.rar

Windows编程启示录.rar Windows编程启示录.rar

2013-03-25

Linux资料.rar

Linux资料.rar Linux资料.rar 包含多个文件

2013-03-25

精通EJB3.0.pdf

精通EJB3.0.pdf

2013-03-25

java虚拟机第二版.pdf

java虚拟机第二版.pdf

2013-03-25

Java.Swing第二版.rar

Java.Swing第二版.rar

2013-03-25

J2EE(中文版)(CHM版).chm

J2EE(中文版)(CHM版).chm

2013-03-25

ORACLE.10G入门与实践.rar

ORACLE.10G入门与实践.rar

2013-03-25

Oracle10ghandbook.rar

Oracle10ghandbook.rar

2013-03-25

Security Identity Manager White Paper.pdf

Security Identity Manager White Paper.pdf 安全 身份 白皮书

2020-01-05

Big Ball of Mud-mud.pdf

Big Ball of Mud-mud.pdf high-level software architectural patterns

2020-01-01

Deis文档翻译.pdf

Deis文档翻译.pdf Deis 是一个 Django/Celery API 服务器、Python CLI 和一组 Chef cookbooks 合并起来提供一个类似 Heroku 的应用平台,用于公有云和私有云。

2019-12-26

Conduit官方文档中文版.pdf

Conduit官方文档中文版.pdf Conduit服务网络作为数据面部署于Kubernetes集群之上,其由轻量化代理组成,负责充当服务代码的侧挂容器,并由一组控制面进程协调和管理这些代理。

2019-12-26

Choerodon(猪齿鱼)v1.7 中文文档.pdf

Choerodon猪齿鱼开源多云技术平台,是基于开源技术Kubernetes,Istio,knative,Gitlab,Spring Cloud来实现本地和云端环境的集成,实现企业多云/混合云应用环境的一致性。

2019-12-26

[英文] Tekton Pipelines Document.pdf

[英文] Tekton Pipelines Document.pdf Tekton 是一个功能强大且灵活的 Kubernetes 原生框架,用于创建 CI/CD 系统

2019-12-26

[英文] Kubernetes clusters for the hobbyist..pdf

Kubernetes clusters for the hobbyist.pdf Kubernetes:容器编排器

2019-12-26

Istio 服务网格进阶实战.pdf

Istio 服务网格进阶实战.pdf Istio 是一个Service Mesh的开源框架,来自Google,大部分使用Go语言来开发,是Service Mesh的集大成者。

2019-12-26

Hyperledger(超级账本)文档.pdf

Hyperledger(超级账本)文档.pdf 本文介绍了一些区块链原理性的使用案例,并概括了其基本要求及高层架构。

2019-12-25

边缘计算 OpenEdge 文档.pdf

边缘计算 OpenEdge 文档.pdf 百度开源边缘计算框架 OpenEdge —— 已经开源https://github.com/baidu/openedge

2019-12-25

Baetyl v1.0 边缘计算开源框架文档.pdf

Baetyl v1.0 边缘计算开源框架文档.pdf 百度智能云的智能边缘计算框架,更名为BAETYL,并开源

2019-12-25

ZooKeeper深入浅出.pdf

ZooKeeper深入浅出.pdf ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。

2019-12-25

The Little Redis Book.pdf

redis key-value结构的内存数据库, 支持高并发、快速的数据读写, 常用于数据快速访问的缓存层

2019-12-25

Apache Kudu 1.4.0 中文文档.pdf

Apache Kudu 1.4.0 中文文档.pdf Kudu的官网文档,Kudu : 针对 Apache Hadoop 平台而开发的列式存储管理器。

2019-12-25

Building-Realtime-Data-Pipelines-with-Kafka-Connect-and-Spark-Streaming.pdf

Building-Realtime-Data-Pipelines-with-Kafka-Connect-and-Spark-Streaming.pdf Spark + Kafka,构建数据的实时处理流

2019-12-25

Understanding-Memory-Management-In-Spark-For-Fun-And-Profit.pdf

Understanding-Memory-Management-In-Spark-For-Fun-And-Profit.pdf spark内存的设计

2019-12-24

Spark大数据内核天机解密- to 丁立清.pdf

Spark大数据内核天机解密- to 丁立清.pdf

2019-12-24

Spark GraphX源码分析.pdf

Spark GraphX源码分析 Spark 大数据框架的 GraphX 子框架 大数据、图计算,源码分析书

2019-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除