自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

A3301的专栏

不积跬步,无以至千里。不积小流,无以成江河。

  • 博客(35)
  • 收藏
  • 关注

转载 使用Spark MLlib训练和提供自然语言处理模型

Idibon位于旧金山的一家专注于自然语言处理(NLP)的创业公司。从海量非结构化数据中识别关键信息或是定制化实时交互是一些可以说明客户如何利用我们Idibon的技术的例子。Spark ML和MLlib中的机器学习库使得我们可以创建一个自适应的机器智能环境,可以分析任何语言的文本,而且是远超过Twitter每秒产生的单词数量规模的文本量。我们的团队建立了一个平台,它在分布式环境下训练并提供

2016-11-19 12:16:31 1787

转载 用Spark 和DBSCAN对地理定位数据进行聚类

机器学习,特别是聚类算法,可以用来确定哪些地理区域经常被一个用户访问和签到而哪些区域不是。这样的地理分析使多种服务成为可能,比如基于地理位置的推荐系统,先进的安全系统,或更通常来说,提供更个性化的用户体验。在这篇文章中,我会确定对每个人来说特定的地理活动区域,讨论如何从大量的定位事件中(比如在餐厅或咖啡馆的签到)获取用户的活动区域来构建基于位置的服务。举例来说,这种系统可以识别一个用户经常

2016-11-19 12:14:26 8632

转载 四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共同好友计算。这标志着QQ千亿级别的关系链计算进入了小时级别时代,并具备复杂图模型的快速计算能力。问题描述共同好友数可以用于刻画用户与用户间的关系紧

2016-11-19 12:13:40 974

转载 Tachyon:Spark生态系统中的分布式内存文件系统

Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度

2016-11-19 12:12:41 444

转载 第四范式先知:建模比Spark快416倍,支持万亿级别变量数

7月20日,第四范式公司发布了基于深度学习、强化学习和迁移学习的人工智能平台——“第四范式·先知(Prophet)”。第四范式CEO戴文渊表示,在3000多万条大数据的测试环境下,先知平台建模速度比Spark快416倍,同时采用DSN(深度稀疏网络)使得先知能够支持万亿级别变量数,所以具有更强的表达能力,能够更好地支持多维数据。深度学习是当前最为热门的人工智能算法,然而深度学习在实

2016-11-19 12:11:34 2335

转载 使用基于Apache Spark的随机森林方法预测贷款风险

原文: Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests作者:Carol McDonald,MapR解决方案架构师翻译:KK4SBB责编:周建丁([email protected])在本文中,我将向大家介绍如何使用Apache Spark的spark.ml库中

2016-11-19 12:10:28 1510

转载 数据倾斜

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都是一个笑话。数据倾斜是最能体现一个spark大数据工程师水平的性能调优问题。数据倾斜如果

2016-11-19 12:00:32 1014

转载 网易视频云:spark streaming小批量数据流处理系统

当前流行的数据流计算平台是twitter的storm,yahoo的s4等, 这些流计算平台采用record-at-a-time模型: 记录流式达到计算节点, 计算节点依据当前记录进行一定计算,更新节点内部状态,最后输出新记录给下游计算节点。 record-at-a-time模型存在如下问题: • 故障处理不足。 有复制和数据回放两种容错方式, 但是这两种方式各有不足。 复制方法消耗两倍资源,

2016-11-19 12:00:11 585

转载 向Spark开炮:1.6版本问题总结与趟坑

笔者使用Spark已超过一年,现在公司大部分的批处理任务和机器学习任务都运行在Spark平台之上,MapReduce已经成为历史。目前生产环境刚从Spark 1.4.1升级到最新版Spark 1.6.1,使用Yarn来调度和管理资源。本文将从升级到Spark 1.6过程当中遇到的若干问题和大家分享,我也会指出目前Spark存在的问题,希望引起重视。内存问题Spillable集合内存

2016-11-19 11:59:47 1395

转载 Apache Spark 2.0: 机器学习模型持久化

在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易:数据科学家开发ML模型并移交给工程师团队在生产环境中发布;数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器学习服务工作流;数据科学家创建多个训练ML模型的作业

2016-11-19 11:59:27 4692

转载 神经网络快速入手

一个人工神经网络(Artificial Neural Network, ANN)其实就是一个计算模型,其灵感来自于人类大脑中生物神经网络处理信息的方式。人工神经网络在机器学习和科研行业引起来不小的热潮,其中已经不乏很多突破性的成果,例如 语音识别 、 计算机视觉 、 文字处理 、 计算机决策 等等。在这篇文章中,我们将尝试开发一个流行的人工神经网络— 多层感知器 。单一神经元在神经

2016-11-19 11:59:06 2559

转载 如何简单形象又有趣地讲解神经网络是什么?

https://www.zhihu.com/question/22553761

2016-11-19 11:58:50 771

转载 用 Akka 解决 Spark + ElasticSearch 实时计算平台的瓶颈

应用场景假如有这样一个场景:系统每秒钟都会收到大量的事件,每个事件又包含很多参数,用户不仅需要准实时地还需要定期地判断每一种事件、事件的每一种参数值的组合是否超过了系统设定的 阈值 。面对这一场景,用户应该采用什么样的方案呢?最近,来自于 Premium Minds 的软件架构师 André Camilo 在博客上发表了一篇文章,介绍了他们是 如何使用Akka解决这一棘手问题的 。

2016-11-19 11:58:38 783

转载 Spark优化那些事(2)-graphx实现介数估算踩坑总结

背景最近一段时间在使用spark graphx实现介数估算。介数(betweenness)可分为点介数和边介数,在图中衡量一个点或边的重要程度,后面的讨论均是针对点介数,边介数实现方式类似。这个指标虽然好,但是计算开销非常之大,如果没有优化,纯粹按照定义计算,复杂度为O(n3)O(n3)(n是节点数),定义如下:其中σstσst是s,t之间最短路径的数量,σst(v)σst(v)是

2016-11-19 11:58:26 2959

转载 Spark性能优化——和Shuffle搏斗

如需转载请联系听云College团队成员小尹 邮箱:yinhy#tingyun.comSpark的性能分析和调优很有意思,今天的主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,Web Service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实时性一般

2016-11-19 11:58:10 463

转载 Spark 在金融领域的应用——日内走势预测

作者:李涛涛 通联数据1. 同花顺收费版之走势预测2014年后半年开始,国内 A 股市场可谓是热火朝天啊,路上的人谈的都是股票。小弟虽然就职金融互联网公司,但之前从来没有买过股票,但每天听着别人又赚了几套房几辆车,那叫一个心痒痒啊,那感觉,就跟一个出浴美女和你共处一室,但你却要死忍住不去掀开浴巾一样。终于,小弟还是”犯了全天下男人都会犯的错误”,还是在 2015.03.19 那天入

2016-11-19 11:57:56 3245

转载 美团Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速

2016-11-19 11:57:39 460

转载 LinkedIn开源Photon机器学习:支持Spark

机器学习是LinkedIn公司关联营销的关键组成部分。他们使用机器学习为feed、广告、推荐系统(比如 People You May Know )、邮件优化、搜索引擎等训练排序算法。更深一点的例子可以看LinkedIn的feed流实现[ 部分一 , 部分二 ],涉及到如何把机器学习应用到feed流排序中。这些算法在提升用户体验时起重要的作用,因此,他们需要提供给工程师们一个简单易使用的

2016-11-19 11:57:07 422

转载 IBM专家亲自解读 Spark2.0 操作指南

Spark 背景介绍1、什么是Spark在Apache的网站上,有非常简单的一句话,”Spark is a fast and general engine ”,就是Spark是一个统一的计算引擎,而且突出了fast。那么具体是做什么的呢?是做large-scale的processing,即大数据的处理。“Spark is a fast and general eng

2016-11-19 11:56:49 551

转载 Spark机器学习库(MLlib)指南

我们推荐您使用spark.ml,因为基于DataFrames的API更加的通用而且灵活。不过我们也会继续支持spark.mllib包。用户可以放心使用,spark.mllib还会持续地增加新的功能。不过开发者需要注意,如果新的算法能够适用于机器学习管道的概念,就应该将其放到spark.ml包中,如:特征提取器和转换器。下面的列表列出了两个包的主要功能。spark.mllib: 数据

2016-11-19 11:55:21 753

转载 Java byte数组与十六进制字符串互转

Java中byte用二进制表示占用8位,而我们知道16进制的每个字符需要用4位二进制位来表示。所以我们就可以把每个byte转换成两个相应的16进制字符,即把byte的高4位和低4位分别转换成相应的16进制字符H和L,并组合起来得到byte转换到16进制字符串的结果new String(H) + new String(L)。 同理,相反的转换也是将两个16进制字符转换成一个b

2016-02-25 01:59:52 411

原创 html小知识11

1、

2014-08-31 20:40:28 453

原创 html小知识12

注册

2014-08-31 20:40:03 410

原创 html小知识点

提交

2014-08-31 20:23:12 457

转载 css和javascript在IE和Firefox中二十三个不同点

我们讨论的主题CSS网页布局,最令大家头疼的问题就是浏览器兼容性,虽然52CSS.com介绍过很多这方向的知识,但依然让很多开发人员晕头转向,今天的这篇文章,将列出css和javascript在IE和Firefox中二十三个不同点,希望对大家的学习有所帮助。一、document.formName.item("itemName") 问题   问题说明:IE下,可以使用 document.

2014-08-31 19:48:01 431

原创 模糊查询

.。。。。。。。。。。

2014-08-31 17:37:59 484

原创 房屋的三级联动以及房屋的处理

。。。。。。

2014-08-31 17:14:11 438

原创 My97和导出excel

。。。。。。

2014-08-31 16:41:48 426

原创 wbox和FusionCharts

。。。。。。。。。。。。。

2014-08-31 16:38:27 502

原创 分页

。。。。。。

2014-08-31 16:30:30 375

原创 按用户名查询

。。。。。。。

2014-08-31 16:28:51 611

原创 图片的上传

。。。。。。

2014-08-31 16:19:17 358

原创 struts2的配置

。。。。。。

2014-08-31 16:15:40 437

原创 登录控制

。。。

2014-08-24 22:54:26 487

原创 随记

不要迷恋技术,不要沉迷于技术。

2014-08-24 13:02:15 396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除