Erjin_Ren-CSDN博客

平安银行算法实践2017-SparkSummit

分享在金融领域，算法有哪些切入点来帮助业务提升。并分享在应用实践中碰到的一些问题和解决思路。

2018-01-04

Spark中的压缩编解码的最佳实践

如何在数据压缩率和编解码效率之间找到平衡，该分享介绍Intel大数据团队在为Spark实现 ISA-L(iGZIP), LZ4-IPP, ZLIB-IPP 和 ZSTD等针对IA硬件平台优化的算法支持，并使用基准测试集(TPC-DS/HiBench)对这些压缩编解码在Spark上的性能表现进行的详细分析和对比

2018-01-04

基于Spark和Cloudera数据科学家工作平台的分布式机器学习实践

介绍基于Spark以及Cloudera Data Science Workbench的自动化数据科学工作的过程，并介绍通过BigDL深度学习算法包进行文本数据的分词和NLP算法处理来通过CDSW来简化各部门的协同来加速“从算法到结果”的周期

2018-01-04

Spark-Data-Layout

讲解 data layout 是如何影响 Spark 程序的性能，以及如何根据使用的 workload 来选择合适的 data layout

2018-01-04

流式大数据处理

Spark Structured Streaming的一些基本概念和工作原理

2017-08-24

Spark Adaptive Execution

Intel Spark 团队推出的Spark SQL自适应的执行引擎，为Spark SQL的计划阶段获得一个最佳的执行计划。

2017-08-24

Apache Kylin 作为领先的大数据OLAP分析平台步入了2.0时代，正逐渐从Hadoop上的传统OLAP演变为一个实时数据仓库，新的版本支持灵活的雪花模型和更加全面的SQL语法，引入了更加先进的Spark Cubing构建引擎，更好地支持实时流式数据接入等等。其中新引入的Spark Cubing构建引擎大幅度提升了Cube预计算过程的效率。本次演讲将结合实际案例，重点介绍这一技术的设计思考和最佳实践

2017-05-16

利用Impala＋Kudu构建准实时分析应用

Kudu是Cloudera开源的新型列式存储系统，Apache Hadoop生态圈的顶级项目之一，解决了传统Lamda架构处理Hadoop上快速变化数据的存储和处理技术过于复杂的问题，同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark、Flume和Kafka等组件集成，大大降低了对快速变化的数据进行准实时分析的架构设计和实现的门槛。本演讲主要对Kudu的动机、背景，以及架构进行简单介绍，并通过实际的应用场景介绍Impala＋Kudu的组合实现通过SQL技术对快速变化的数据实现准实时分析的能力

2017-05-16

Spark SQL 表达式计算

表达式计算在Spark SQL中随处可见，本演讲将简介表达式、UDF、UDAF、UDTF的概念，主要的API，以及如何扩展Spark SQL函数库。本演讲还将提及Catalyst在计划阶段和Project Tungsten在执行层做的优化，以及未来性能提升可能的方向:向量化

2017-05-16

Accelerate Your Hive Query

Apache Hive是Hadoop生态圈中比较流行的大数据数据库引擎。在本次演讲中，涵盖一些新的Hive性能提升的优化，包括了最新Spark引擎升级到2.0，Parquet数据类型的向量化支持，以及nested column pruning等新特性。并介绍配置选项从而达到优化的性能。及benchmark数据来展现这些特性能够给Hive带来的性能提升。

2017-05-16

利用Spark开发高并发，高可靠的分布式大数据采集调度系统

Splunk是一个分布式的机器数据平台，提供一体化的数据收集，存储，搜索，查询，展示的平台。Splunk的传统的Forwarder架构很难扩展和管理，而且是单点故障，成为整个系统的瓶颈。本次演讲，讨论了如何利用Spark，实现一个高可用，高扩展的分布式任务调度系统，并用于海量数据的采集，以取代传统Splunk平台中的Forwarder的架构

2017-03-30

0318Spark-Meetup-Keynotes

本文为3.18 上海Spark Meetup keynotes

2017-03-30

Livy - 基于Apache Spark之上的REST服务

Livy是构建于Apache Spark之上的REST服务，它提供了安全、高可用、灵活的REST API使用户可以以交互式、批处理以及编程式API的方式操作Spark。本演讲将为大家介绍Livy的基本功能、高阶特性以及与其他类似框架的比较

2017-03-30

BigDL:基于Spark 的深度学习库

BigDL 是英特尔开源的基于Apache Spark 的分布式深度学习框架，其借助于现有Spark集群来运行深度学习计算并简化存储在Hadoop中的大数据加载。在Xeon平台上提供运行效率大大优于开源框架Cafee,Torch 和TensorFlow ，可媲美主流GPU。本演讲将带给大家一个全面的BigDL 架构，性能，运行模式的介绍

2017-03-30

NUMA内存架构下的Spark性能优化

这是第12次上海 Spark Meetup的分享资料.本文回顾NUMA的技术要点以及它如何影响内存密集型Spark应用程序的性能。然后将介绍识别NUMA性能问题的工具和方法，以及作者团队为Spark任务调度添加NUMA感知方面的工作。

2017-03-30

Erjin_Ren的博客

空空如也

平安银行算法实践2017-SparkSummit

Spark中的压缩编解码的最佳实践

基于Spark和Cloudera数据科学家工作平台的分布式机器学习实践

Spark-Data-Layout

All in Spark 实践

流式大数据处理

饿了么大数据平台分享

Spark Adaptive Execution

Apache Kylin 2.0 之Spark构建引擎

利用Impala＋Kudu构建准实时分析应用

Spark SQL 表达式计算

Accelerate Your Hive Query

利用Spark开发高并发，高可靠的分布式大数据采集调度系统

0318Spark-Meetup-Keynotes

Livy - 基于Apache Spark之上的REST服务

BigDL:基于Spark 的深度学习库

NUMA内存架构下的Spark性能优化

空空如也