fengyuruhui123-CSDN博客

原创 Scala学习笔记之 --- Array、ArrayBuffer以及遍历数组（1）

Array在Scala中，Array代表的含义与Java中类似，也是长度不可改变的数组。此外，由于Scala与Java都是运行在JVM中，双方可以互相调用，因此Scala数组的底层实际上是Java数组。例如字符串数组在底层就是Java的String[]，整数数组在底层就是Java的Int[]。// 数组初始化后，长度就固定下来了，而且元素全部根据其类型初始化val a = new Array[In

2017-12-08 13:17:40 2025

转载 Spark Streaming 之 Checkpoint

转载于“牛肉圆粉不加葱” 链接：http://www.jianshu.com/p/00b591c5f623一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application

2017-11-26 12:15:53 380

原创『 Spark 』10. spark 机器学习

1. Spark! More than A Framework!还记得我们的第一篇 Spark 博文里的这张图吗？其实我觉得 spark 有两个层次的概念：一个通用的分布式计算框架，spark core基于 spark core 设计，无缝实现的库，dataframe，sql，mllib，graphx，bagel, streaming, sparkR 以及一些第三方包我之所以一开始很看好 sp

2017-11-08 16:11:52 586

原创『 Spark 』9. spark 应用程序性能优化｜12 个优化方法

1.优化? Why? How? When? What?“spark 应用程序也需要优化？”，很多人可能会有这个疑问，“不是已经有代码生成器，执行优化器，pipeline 什么的了的吗？”。是的，spark 的确是有一些列强大的内置工具，让你的代码在执行时更快。但是，如果一切都依赖于工具，框架来做的话，我想那只能说明两个问题：你对这个框架仅仅是知其然，而非知其所以然；看来你也只是照葫芦画瓢而已，没

2017-10-24 11:43:47 466

原创 SSH 免密码登录

每次登录远程服务器都要输密码！！！事前准备本地机器：local远程机器：remote实操步骤本地机器生成公钥，私钥: ssh-keygen -t rsafengyuruhui$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/Users/chens

2017-10-23 15:15:39 370

原创『 Spark 』1. spark 简介

如何向别人介绍 sparkApache Spark™ is a fast and general engine for large-scale data processing.Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala

2017-10-23 14:52:14 399

原创『 Spark 』2. spark 基本概念解析

Application用户在 spark 上构建的程序，包含了 driver 程序以及在集群上运行的程序代码，物理机器上涉及了 driver，master，worker 三个节点.Driver Program创建 sc ，定义 udf 函数，定义一个 spark 应用程序所需要的三大步骤的逻辑：加载数据集，处理数据，结果展示。Cluster Manager集群的资源管理器，在集群上获取资源的外部服务

2017-10-23 14:42:20 424

原创『 Spark 』3. spark 编程模式

1. spark 基本编程模式spark 里有两个很重要的概念：SparkContext [一般简称为 sc] 和 RDD，在上一篇文章中『 Spark 』2. spark 基本概念解析有讲到。可以说，sc 和 RDD 贯穿了 spark app 的大部分生命周期，从 app 的初始化，到数据的清洗，计算，到最后获取，展示结果。为了更加深入的了解 RDD 和基于 RDD 的编程模型，我们先把

2017-10-23 11:48:05 355

原创图像识别利器 - 卷积神经网络

一、前言这篇卷积神经网络是前面介绍的多层神经网络的进一步深入，它将深度学习的思想引入到了神经网络当中，通过卷积运算来由浅入深的提取图像的不同层次的特征，而利用神经网络的训练过程让整个网络自动调节卷积核的参数，从而无监督的产生了最适合的分类特征。这个概括可能有点抽象，我尽量在下面描述细致一些，但如果要更深入了解整个过程的原理，需要去了解DeepLearning。这篇文章会涉及到卷积的原理与图像特征提取

2017-10-11 11:01:41 470

原创『 Spark 』4. spark 之 RDD

1. 什么是RDD先看下源码里是怎么描述RDD的。Internally, each RDD is characterized by five main properties:A list of partitionsA function for computing each split A list of dependencies on other RDDsOptionally, a Part

2017-10-10 15:14:20 279

原创『 Spark 』5. 不能错过的 spark 学习资源

1. 书籍，在线文档Learning SparkAdvanced.Analytics.with.SparkMastering Apache SparkOfficial GuideSpark Guide by Cloudera2. 网站official siteuser mailing listspark channel on youtubespark summitspark t

2017-10-10 14:37:39 600

原创『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

1. spark 运行原理这一节是本文的核心，我们可以先抛出一个问题，如果看完这一节，或者这一章之后，你能理解你的整个 spark 应用的执行流程，那就可以关掉这个网页了［对了，关掉网页之前记得分享一下哦，哈哈］Problem: How does user program get translated into units of physical execution ?我们用一个例子来说明，结合例子

2017-10-10 14:32:02 355

翻译使用pandas优化Spark内存消耗（节省90%）

一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。当然，像Spark这类的工具能够胜任处理100G至几个T的大数据集，但要想充分发挥这些工具的优势，通常需要比较贵的硬件设备。而且，这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据，我们的愿望是尽量

2017-10-09 18:14:10 4855

原创『 Spark 』8. 实战案例｜ Spark 在金融领域的应用｜日内走势预测

1. 同花顺收费版之走势预测2014年后半年开始，国内 A 股市场可谓是热火朝天啊，路上的人谈的都是股票。小弟虽然就职金融互联网公司，但之前从来没有买过股票，但每天听着别人又赚了几套房几辆车，那叫一个心痒痒啊，那感觉，就跟一个出浴美女和你共处一室，但你却要死忍住不去掀开浴巾一样。终于，小弟还是”犯了全天下男人都会犯的错误”，还是在 2015.03.19 那天入市了，还记得自己的第一次是献给了一支叫

2017-09-22 13:53:41 1508 1

原创 Spark

Spark Docs(R/Python/Java/Scala)

2017-09-22 10:58:32 214

原创『 Spark 』7. 使用 Spark DataFrame 进行大数据分析

1. 什么是 spark dataframe先来看看官方原汁原味的文档是怎么介绍的：A DataFrame is a distributed collection of data organized into named columns. It is conceptually equivalent to a table in a relational database or a data frame

2017-09-21 18:18:33 1441

原创 Hbase 一些语句

一些语句

2017-09-21 18:07:05 299

原创关于Hbase设计的一些意见

什么时候需要HBase1. 半结构化或非结构化数据对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。当业务发展需要增加存储比如一个用户的email，phone，address信息时RDBMS需要停机维护，而HBase支持动态增加.2. 记录非常稀疏RDBMS的行有多少列是固定的，为null的列浪费了存储空间。而如上文提到的，HBase为null的Column不会被存储

2017-09-21 17:26:51 258

翻译关于CarbonData+Spark SQL的一些应用实践和调优

大数据时代，中大型企业数据的爆发式增长，几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张，导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的融合数仓，从海量数据中快速获取有效信息，从而洞察机遇、规避风险。在这样的现状下，CarbonData 诞生了，作为首个由中国贡献给Apache社区的顶级开源项目，CarbonData 提供了一种新的融合数据存储方案，以一份

2017-09-20 15:47:41 4329

原创 SparkSQL之优化器Catalyst系统

大数据优化器与传统优化器最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有一席之地。相反，大数据相关技术优势在于其天生的扩展性、可用性、容错性等，但其SQL优化器

2017-09-20 12:32:52 882

原创 AWR中的时间模式

———————Response time = Service time + Wait time— 服务时间(Servicetime)就是进程“真正”在cpu上运行的时间，可以简单理解为AWR中的cpu time/db cpu，服务时间包括前台进程(Server process)和后台进程(Backgroud process)消耗的时间。等待时间就是等待某种资源的时间耗费，比如等待锁资源的耗费，可以

2017-09-18 15:11:06 928

原创 Oracle Database PSU/CPU

1. 什么是PSU/CPU？ CPU: Critical Patch Update Oracle对于其产品每个季度发行一次的安全补丁包，通常是为了修复产品中的安全隐患。PSU: Patch Set Updates Oracle对于其产品每个季度发行一次的补丁包，包含了bug的修复。Oracle选取被用户下载数量多的，并且被验证过具有较低风险的补丁放入到每个季度的PSU中。在每个PSU中不但包含

2017-06-15 16:30:26 557

原创 ORACLE DATAGUARD传输原理

oracle dataguard（简称DG）有两种传输模式：async（异步）和sync（同步），在介绍这两种传输模式前，说一下dg的重做传输进程架构。在主库使用LNS进程从sga中的重做缓冲区中获得相应redo数据，然后通过网络服务传送到备库，那么在备库通过RFS进程接收redo数据存在standby log file中，然后在应用（sql apply或是redo apply）数据何为同步传

2017-06-15 14:29:47 823

转载 Building Spark

This will become a table of contents (this text will be scraped). {:toc}Building Spark using Maven requires Maven 3.3.3 or newer and Java 7+. The Spark build can supply a suitable Maven binary; see

2017-05-23 17:43:18 368

原创 spark.sql.hive.convertMetastoreParquet参数优化

Hive metastore Parquet表转换（Hive metastore Parquet table conversion）当向Hive metastore中读写Parquet表时，Spark SQL将使用Spark SQL自带的Parquet SerDe（SerDe：Serialize/Deserilize的简称,目的是用于序列化和反序列化），而不是用Hive的SerDe，Spark

2017-05-16 20:07:23 7626

原创 Spark SQL性能优化

Spark SQL性能优化

2017-05-16 19:04:44 298

原创 Spark SQL

Spark SQL 之 DataFrameSpark SQL 之 Data SourcesSpark SQL 之 Performance Tuning & Distributed SQL EngineSpark SQL 之 Migration GuideSpark SQL 官方文档-中文翻译

2017-05-16 16:51:22 302

原创 Scala implicit

Scala implicit

2017-05-16 14:59:23 229

原创 Spark 之Broadcast

broadcast功能broadcast解析

2017-05-11 13:47:05 382

原创 Spark 学习日志

《一》

2017-05-05 14:55:23 236

转载 Oracle enq: TX - row lock contention等待事件

参考文章 : 解决一则enq: TX - row lock contention的性能故障

2017-04-06 15:55:13 374

转载负载均衡器部署方式和工作原理

概述负载均衡（Load Balance）由于目前现有网络的各个核心部分随着业务量的提高，访问量和数据流量的快速增长，其处理能力和计算强度也相应地增大，使得单一的服务器设备根本无法承担。在此情况下，如果扔掉现有设备去做大量的硬件升级，这样将造成现有资源的浪费，而且如果再面临下一次业务量的提升时，这又将导致再一次硬件升级的高额成本投入，甚至性能再卓越的设备也不能满足当前业务量增长的需求。负载均衡实现方式

2017-03-31 17:12:23 6771

原创 Oracle组件ODI,Active Data Guard,GoldenGate使用区别

实时数据同步复制或备份则使用GoldenGate备份整Oracle数据库则使用Active Data Guard(该组件在8i以支持，不支持备库只读，即是不支持读写分离)数据大规模ETL批处理使用ODI

2017-03-31 14:05:28 1047

原创 IBM小型机型号p595

IBM p595的价格是按照具体配置计算的。32颗CPU，128G内存的配置与64颗CPU，256G内存的配置价格相差3~4倍。低端配置都在800万~1000万左右，其用户非常少，一般在电信业，税务业和保险业的总公司才能找到。一般由IBM大中华区经理以上级别的人审批，有时候可能需要到亚太区审批才能采购。

2017-03-28 10:45:10 4005

原创数据库分库分表(sharding)系列

数据库分库分表(sharding)系列(一) 拆分实施策略和示例演示数据库分库分表(sharding)系列(二) 全局主键生成策略数据库分库分表(sharding)系列(三) 关于使用框架还是自主开发以及sharding实现层面的考量数据库分库分表(sharding)系列(四) 多数据源的事务处理数据库分库分表(sharding)系列(五) 一种支持自由规划无须数据迁移和修改路由代码的Shardi

2017-03-23 18:42:20 461

原创数据库垂直分库(vertical sharding)的粒度

垂直切分的粒度指的是在做垂直切分时允许几级的关联表放在一个shard里．这个问题对应用程序和sharding实现有着很大的影响．关联打断地越多，则受影响的join操作越多，应用程序为此做出的妥协就越大，但单表的路由会越简单，与业务的关联性会越小，就越容易使用统一机制处理．在此方向上的极端方案是：打断所有连接，每张表都配有路由规则，可以使用统一机制或框架自动处理．比如amoeba这样的框架，它的路由能

2017-03-23 18:37:22 1134

原创数据库sharding(分库分表)

基本思想Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上，从而缓解单一数据库的性能问题。不太严格的讲，对于海量数据的数据库，如果是因为表多而数据多，这时候适合使用垂直切分，即把关系紧密（比如同一模块）的表切分出来放在一个server上。如果表并不多，但每张表的数据非常多，这时候适合水平切分，即把表的数据按某种规则（比如按ID散列）切分到多个数据库(serve

2017-03-23 17:16:21 347

原创 Oracle 优化器(Optimizer)

优化器概念优化器具有分析SQL执行计划和路径的作用；一条SQL可能有多种执行计划,但在某一时点一定只有一种执行计划是最优的,花费时间是最少的。优化器的优化方式RBO方式基于规则的优化方式(Rule-Based Optimization,简称为RBO)。优化器在分析SQL语句时,所遵循的是Oracle内部预定的一些规则。例如一个where子句中的一列有索引时走索引。CBO方式基于代价的优化方式(Cos

2017-03-20 10:26:22 349

原创 ORACLE 优化器和Hints

Oracle Hints是一种机制，用来告诉优化器按照我们的告诉它的方式生成执行计划，从而认为干预系统优化器的选择。我们可以用Oracle Hints来实现：使用的优化器的类型基于代价的优化器的优化目标，是all_rows还是first_rows。表的访问路径，是全表扫描，还是索引扫描，还是直接利用rowid。表之间的连接类型表之间的连接顺序语句的并行程度注意: 可以通过

2017-03-17 16:30:05 593

翻译 Oracle 索引详解

2017-03-17 11:30:33 634

空空如也

空空如也