miller_lover-CSDN博客

转载全面落地，2014大数据应用案例TOP100

在当前的互联网领域，大数据的应用已十分广泛，尤其以企业为主，企业成为大数据应用的主体。大数据真能改变企业的运作方式吗？答案毋庸置疑是肯定的。随着企业开始利用大数据，我们每天都会看到大数据新的奇妙的应用，帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面，涵盖医疗、交通、金融、教育、体育、零售等各行各业。以下是《互联网周刊》发布的《2014大数据应用案例TOP100》。

2015-02-09 09:54:22 54293

转载 [译]精准医疗大家谈

医疗大数据专栏成立了！酝酿已久，今天，“医疗大数据专栏”正式成立。随着基因芯片及DNA测序技术的发展，生物医疗大数据迅猛发展，既是大数据技术发展的原动力，也是大数据技术的受益者。大数据文摘2013年7月成立，我们专注数据，每日坚持分享优质内容，从未间断，我们努力为读者和志愿者打造一个分享和交流平台。作为大数据文摘的志愿者群，我们中有不少人从事医疗大数据相关工作，关心医疗大数据的发展，愿

2015-02-09 09:50:39 1420

转载 Quora译文：通俗解释“为什么数据库难以拓展”

要扩展数据库有四大挑战：搜索、并发性、一致性和速度。假设你有一张清单，上面有10个人名。如果你想要查找某个人，只需要看一眼清单就行。数据库但如果清单上有100万个人名呢？这时，你就需要一些策略了。电话簿把人名按照字母顺序排列，这样你就可以略过不需要的部分了。这就是针对搜索问题的一种解决方案。如果有100万人在同时使用这本电话簿呢？这就是并发性的问题。

2015-02-09 09:47:55 1062

转载 Machine Learning Scientist Sr at Robert Half

Its a great question and merits some elaboration. So the short answer is hadoop and spark are not even apples to apples. Let me illustrate through my own personal experience 1. Say a company is

2015-02-06 10:26:40 725

转载 Spark生态系统解析及基于Redis的开源分布式服务Codis

摘要：在第九期“七牛开发者最佳实践日”上，陈超就Spark整个生态圈进行了讲解，而刘奇则分享豌豆荚在Redis上的摸索和实践。1月24日，一场基于Spark和Redis组成的分布式系统实践分享由Spark资深布道者陈超和豌豆荚资深系统架构师刘奇联手打造。陈超：Spark Ecosystem & Internals 陈超（@CrazyJvm），Spark布道者

2015-02-03 12:18:14 1254

转载深入解析NoSQL数据库的分布式算法

摘要：尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革，但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。在这篇文章里，我将针对NoSQL数据库的分布式特点进行一些系统化的描述。系统的可扩展性是推动NoSQL运动发展的的主要理由，包含了分布式系统协调，故障转移，资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐，什么都能塞进去。尽管NoSQL运动并没有给

2015-02-02 12:13:48 713

转载 Michael G. Noll：整合Kafka到Spark Streaming——代码示例和挑战

摘要：本文，Verisign实验室大规模数据分析基础设施的技术主管Michael通过示例对Kafka整合到Spark Streaming进行了详细讲解，更分享了该领域的现状和一些注意点。【编者按】作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细

2015-02-02 12:11:29 1069

转载美团推荐算法实践：机器学习重排序模型成亮点

摘要：本文介绍了美团网推荐系统的构建和优化过程中的一些做法，包括数据层、触发层、融合过滤层和排序层五个层次，采用了HBase、Hive、storm、Spark和机器学习等技术。两个优化亮点是将候选集进行融合与引入重排序模型。编者按：在用户意图明确时，我们通常用搜索引擎来解决互联网时代的信息过载问题，但当用户的意图不明确或者很难用清晰的语义表达，搜索引擎就无能为力。此时，借助推荐系统通过

2015-02-02 12:09:55 1580

转载大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

摘要：MapReduce在实时查询和迭代计算上仍有较大的不足，目前，Spark由于其可伸缩、基于内存计算等特点，且可以直接读写Hadoop上任何格式的数据，逐渐成为大数据处理的新宠，腾讯分享了Spark的原理和应用案例。【编者按】MapReduce由于其设计上的约束只适合处理离线计算，在实时查询和迭代计算上仍有较大的不足，而随着业务的发展，业界对实时查询和迭代分析有更多的需求，单纯依靠

2015-02-02 12:06:51 1072

转载挖财首席架构师王福强：架构设计中的6大关键点

摘要：架构设计的重要性不言而喻，挖财首席架构师王福强日前在一个技术沙龙中分享了挖财架构设计中的6大关键点：系统层级分离；消息传递；异步化处理；信息存储，宁多勿缺；系统安全；存储冗余。编者按：要开发出用户满意的软件并不是件容易的事，软件架构师必须全面把握各种各样的需求、权衡需求之间有可能的矛盾之处，分门别类地将不同需求一一满足。在UPYUN Open Talk 第二期“移动时代互联网金融

2015-02-02 12:01:23 2623

转载 CNN提速23.5倍！Facebook开源DL模块带给我们什么？

摘要：日前，Facebook人工智能研究院（FAIR）宣布开源了一组深度学习软件库，是针对Torch机器学习框架的插件，基于NVIDIA的GPU，大大提升了神经网络的性能，可以用于计算机视觉和自然语言处理（NLP）等场景。Geoffrey Hinton的努力，使得深度学习（Deep Learning，DL）成为实现机器智能的核心技术。然而，深度学习的一些坑，如大型神经网络的

2015-02-02 11:58:36 860

转载自然语言处理哪家强？

摘要：语音交互事关未来，这点从大公司收购、投资、合作不断，就可见一斑。如苹果收购Siri、Novauris、Google收购多项语音识别技术专利、Facebook收购Wit.ai等、Amazon收购Yap……目前，基本上所有的巨头都有涉足。语音交互事关未来，国内外已经不少公司在抢蛋糕了，大公司收购、投资、合作不断，就可见一斑。目前，基本上所有的巨头都有涉足。苹果收购

2015-02-02 11:55:41 1566

转载 Spark奠基者博士论文中文版出来了

由 CSDN CODE翻译社区组织的长篇论文翻译An Architecture for Fast and General Data Processing on Large Clusters 经过长达3个月的历程终于全部翻译完成。该论文是Spark主要开发者Matei Zaharia的博士论文，全文共6章，超过4万字，是一部Spark方面的基本文献。从10月底开始，通过社区招募，

2015-02-02 11:53:24 917

大数据时代不是突然出现的，实际上过去的几十年间，数学分析就已经涉猎金融行业了，诺贝尔经济学奖获得者哈里.马克维茨、威廉.夏普、罗伯特.恩格尔就是利用计量经济学知识和金融市场数据来建立数学模型，预测金融市场产品收益同风险波动的关系。大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果。确切的说是移动互联网、物联网产生了海量的数据，大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题

2014-12-27 17:32:04 1860

转载 Ansible vs Chef

Postedby ScriptRock Jul 17, 2014 8:00:00 AMThis is a tale of a newcomer vsa relative oldie in the Configuration Management (CM) arena. Both are tools tohelp the sysadmin or devops professional to b

2014-12-19 10:32:22 1231

转载在云上搭建大规模实时数据流处理系统

如今数据规模变得越来越大，传统的软硬件工具已很难满足数据处理的需求。本文将结合汽车状态实时监控系统，讲述如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统，及其中遇到的挑战。在大数据时代，数据规模变得越来越大。由于数据的增长速度和非结构化的特性，常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集、管理和处理。本文主要介绍如何在阿里云上使用Kafka和Sto

2014-12-17 08:52:35 1123

转载卡耐基梅隆大学教授邢波：Petuum，大数据分布式机器学习平台

要：BDTC 2014中国大数据技术大会首日全体大会上，卡耐基梅隆大学教授、ICML 2014程序主席邢波带来了名为“A New Platform for Cloud-based Distributed Machine Learning on Big Data”的主题演讲。【CSDN现场报道】2014年12月12-14日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中科

2014-12-16 10:31:50 948

转载程学旗发布大数据白皮书与发展趋势报告

程学旗摘要：中科院计算所研究员，CCF大数据专家委员会秘书长程学旗发布大数据白皮书与发展趋势报告。介绍了大数据的背景与动态、典型应用、技术进展等内容。程学旗对2015年大数据发展预测用了8个字：融合、跨界、基础、突破。【CSDN现场报道】2014年12月12-14日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中科院计算所与CSDN共同协办，以推进大数据科研、应用与产业

2014-12-16 10:00:42 1206

转载 Facebook数据仓库揭秘：RCFile高效存储结构

摘要：本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE（IEEE International Confere本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在MapReduce环

2014-12-11 09:04:10 619

转载 Facebook的数据仓库是如何扩展到300PB的

摘要：Facebook在数据仓库上遇到的存储可扩展性的挑战是独一无二的。我们基于Hive的数据仓库中存储了超过300PB的数据，并且以每日新增600TB的速度增长。去年这个数据仓库所存储的数据量增长了3倍。Facebook在数据仓库上遇到的存储可扩展性的挑战是独一无二的。我们基于Hive的数据仓库中存储了超过300PB的数据，并且以每日新增600TB的速度增长。去年这个数据仓库所存储的

2014-12-11 09:02:43 905

转载人工智能和机器学习领域有哪些有趣的开源项目？

本文简要介绍了10款 Quora上网友推荐的人工智能和机器学习领域方面的开源项目。本文简要介绍了10款 Quora上网友推荐的人工智能和机器学习领域方面的开源项目。 GraphLabGraphLab是一种新的面向机器学习的并行框架。GraphLab提供了一个完整的平台，让机构可以使用可扩展的机器学习系统建立大数据以分析产品，该公司客户包括Zillow、A

2014-12-10 10:37:14 810

转载数据中心operating system正当其时

摘要：目前分布式应用越来越普遍，而这股热潮似乎已涌入到数据中心管理领域。近日Apache Mesos联合创始人Benjamin Hindman撰文分析当前分布式应用的现状、开发者/运营者面临的困境及解决之道！【编者按】目前分布式应用越来越普遍，而这股热潮似乎也正在涌入到传统的数据中心管理领域。然而却不利于开发者/运营者，这是因为这些应用不再仅限于在一台服务器上工作，更多地会是在数据中

2014-12-09 09:41:48 704

转载【重磅】凯文.凯利8个小时演讲实录

点击标题下「大数据文摘」可快捷关注超级重磅,值得收藏!笔记：顾晓明/研习社华东四群/i8小时地点：上海星河湾大酒店出品：颠覆式创新研习社《失控》作者，美国《连线》(Wired)杂志的创始人，被马化腾和众多中国互联网精英推崇的“硅谷精神教父”、“技术先知”的凯文·凯利。他最令人钦佩的成就，是准确预言了“互联网未来

2014-12-09 09:36:16 1812

转载大数据时代，我们需要有超越 Hadoop和MapReduce的杀手级技术

过去 25 年来，位居主流地位的关联式资料库（Relational Databases），在云端计算与大数据的发展中突显了其不足之处，所以在最近几年受到了「NoSQL」发展的挑衅与威胁。像 Facebook、Google、Twitter 等大型网络企业，为了解决大量的资料存取问题，纷纷舍弃了关联式资料库技术，改以其它的相关技术，如「NoSQL」或是「Not Only SQL」等技

2014-12-04 11:32:18 725

转载 Aeron: Do We Really Need Another Messaging System?

Do we really need another messaging system? We might if it promises to move millions of messages a second, at small microsecond latencies between machines, with consistent response times, to large n

2014-12-03 10:44:42 1177

转载周鸿祎：以大数据技术对抗大数据平台安全威胁

统问题之外，网络攻击手段更加丰富。其中，终端恶意软件、恶意代码是黑客或敌对势力攻击大数据平台、窃取数据的主要手段之一。目前网络攻击越来越多地是从终端发起的。终端渗透攻击也已成为国家间网络战的主要方式。例如著名的攻击伊朗核设施的“震网病毒”，就是利用了 Windows 操作系统的漏洞入侵了特定终端，渗透到伊朗核电站内部局域网对伊朗核设施进行破坏。另外，针对大数据平台的高级持续性威胁(Advanced

2014-12-03 10:12:52 1047

转载核桃运算创办人薛文蔚推出即时资料分析引擎

颠覆资料运算模式　　「我们现在还在用1945年所设计出的电脑运算模式!」(也就是范纽曼架构)薛文蔚解释，以前记忆体很小，把资料当成外来物，程式和塬始码是一等居民，支配资料。每次要运算时，都要把资料从硬碟内搬移至记忆体运算，再搬回硬碟，花费很多时间在「搬移」。　　目前大多数使用者端的资料库和程式都以这种逻辑设计出来，薛文蔚说，这样的工作台模式适合资料运算吗?　　所以，核桃运算

2014-12-03 10:02:17 806

转载 How to Get Started in Data Science

A lot of people ask me: how do I become a data scientist? I think the short answer is: as with any technical role, it isn’t necessarily easy or quick, but if you’re smart, committed and willing to inv

2014-12-02 00:44:15 1070

原创 VBA code of batch copy hyperlink address

Sub AddHyperlink()Application.ScreenUpdating = FalseWith ActiveSheetlastrow = .Cells(.Rows.Count, "A").End(xlUp).RowFor i = 1 To lastrow Cells(i, 2) = Cells(i, 1).Hyperlinks(1).

2014-11-30 10:56:03 579

转载十道海量数据处理面试题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的I

2014-11-28 09:40:11 382

转载有“容”乃大：Docker容器，十万网店轻松托管

摘要：Shopify是一家为数十万家网店提供解决方案的公司，网站主要的框架是Ruby on Rails，为了更易扩展和管理业务，开始使用Docker和CoreOS技术。Shopify软件工程师Graeme Johnson介绍了如何在生产环境中使用容器技术。【编者按】 Shopify是一家提供电商网店解决方案的公司，目前服务的网店数有10万家以上（Tesla 也是它的用户）。网站主要的框

2014-11-28 09:32:16 768

转载 Hadoop面试45个题目及答案

1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式2. 单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。3. 伪分布模式中的注意点？伪

2014-11-28 09:31:45 733

转载人人都是 DBA（II）SQL Server 元数据

SQL Server 中维护了一组表用于存储 SQL Server 中所有的对象、数据类型、约束条件、配置选项、可用资源等信息，这些信息称为元数据信息（Metadata），而这些表称为系统基础表（System Base Tables）。在这些基础表中，存在于 master 数据库中的一部分基础表包含系统级范围的信息。存在于特定数据库（也包含 master db）中的基础表包含属于该特定数据库的对象

2014-11-28 09:26:50 481

转载开放创新的华为存储更加坚定业务驱动步伐

在2014 HCC大会上，华为向外界描绘了“全联接”的美好愿景。在这个目标之下，华为希望帮助政府、企业和个人建立无缝隙的全联接网络：政府能利用IT技术做好服务，企业基于基础设施可激发创新能力，获取新的商机;而个人能获得更好的数字化生活。在全联接时代，存储技术将会朝着怎样的方向发展?在这种背景下，再看华为第二届存储技术峰会，就显得颇具含义。2014年10月底，第二届华为存储技术峰会在

2014-11-26 20:46:52 853

转载阿里超大数据中心“异地双活”实践

灾备系统和应急管理体系建设是数据中心永不变更的热点话题。从“两地三中心”、“同城双活”到“异地双活”，业内的讨论层出不穷。即使在容灾备份领域较早入手的金融行业，在灾备切换时也是谨慎再谨慎的，在历年“真实切换”演练时“手软”的例子更是不胜枚举。究其根源，除了应急预案不完善、灾难恢复演练不到位之外，单纯硬件和软件很难完全解决业务连续性问题才是关键。事实上，将业务系统切换到灾备中心容易，但故障消除后，将

2014-11-25 09:37:19 3900

转载什么是IndexedDB：Web离线数据库入门简介及基础教程

IndexedDB是什么简单来说IndexedDB是HTML5引入的一种可以在Web浏览器使用的数据库，用来持久化大量数据。它可以让你的Web应用程序有非常强大的查询能力，并且可以离线工作。IndexedDB的数据操作直接使用JS脚本，不依赖SQL语句（最初的Web SQL数据库己被废弃），操作返回均采用异步。下文来自： IndexedDB 规范客户端需要存储大量局部对象，

2014-11-25 09:36:14 972

转载揭秘阿里CDN核心技术（http://wenku.baidu.com/view/ffc63474b4daa58da1114a45.html?re=view）

中国专业CDN行业近年来呈现了迅猛增长的态势。根据国内咨询机构艾瑞的统计，从2006年至2012年，中国第三方CDN市场营收规模增长率均保持在30%以上。艾瑞预测，未来几年CDN市场将继续保持40%以上的高增长。今天将会给大家揭秘阿里CDN核心技术！图片来自阿里云-核心系统部朱照远。构建高效、安全的CDN，阿里CDN核心技术揭秘阿里云-核心系统部朱照远（叔

2014-11-24 15:00:10 5738

转载偏爱MySQL，Nifty使用4个Web Server支撑5400万个用户网站

摘要：自基于HTML5的WYSIWYG网页制作平台推出后，用户在Nifty上建立的网站已超过5400万个，平均每天需支撑7亿的HTTP请求，然而如果聚焦某个具体的网站，其PV甚至不超过100，那么Nifty又使用了什么策略解决这些长尾问题？【编者按】Nifty运营网站已经有很长一段时间，而在基于HTML5的WYSIWYG网页制作平台推出后，用户在该公司建立的网站已超过5400万个，同时

2014-11-24 14:57:14 642

转载安全科普：什么是暴力破解攻击？如何检测和防御？

众所周知，iCloud艳照门其实并不高明，黑客通过暴力破解攻击不断尝试登录用户的账号名和密码，最终获取好莱坞明星的iCloud账号。什么是暴力破解攻击？怎样检测暴力破解攻击以及怎样防护呢？什么是暴力破解攻击？暴力破解攻击是指攻击者通过系统地组合所有可能性（例如登录时用到的账户名、密码），尝试所有的可能性破解用户的账户名、密码等敏感信息。攻击者会经常使用自动化脚本组合出正确的用户名和

2014-11-24 14:33:49 9392

转载科普Spark，Spark是什么，如何使用Spark

本文章可以解答以下问题：1.Spark基于什么算法的分布式计算（很简单）2.Spark与MapReduce不同在什么地方3.Spark为什么比Hadoop灵活4.Spark局限是什么5.什么情况下适合使用Spark什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spar

2014-11-24 14:25:04 726

阿里CDN技术揭秘2014

阿里CDN技术，包括Swift、Tengine等。

2014-11-26

OpenStack2014UserSurveyFromOpenStackCN.pdf

2014 OpenStack 春季用户调查 • 你是如何使用 OpenStack 的？ • 涵盖多种不同类型云 (dev/QA/prod)

2014-11-08

big data presentation of talkingdata

2014-11-04

f4: Facebook’s Warm BLOB Storage System

Facebook’s corpus of photos, videos, and other Binary Large OBjects (BLOBs) that need to be reliably stored and quickly accessible is massive and continues to grow. As the footprint of BLOBs increases, storing them in our traditional storage system, Haystack, is becoming in- creasingly inefficient. To increase our storage efficiency, measured in the effective-replication-factor of BLOBs, we examine the underlying access patterns of BLOBs and identify temperature zones that include hot BLOBs that are accessed frequently and warm BLOBs that are accessed far less often. Our overall BLOB storage sys- tem is designed to isolate warm BLOBs and enable us to use a specialized warm BLOB storage system, f4. f4 is a new system that lowers the effective-replication-factor of warm BLOBs while remaining fault tolerant and able to support the lower throughput demands. f4 currently stores over 65PBs of logical BLOBs and reduces their effective-replication-factor from 3.6 to either 2.8 or 2.1. f4 provides low latency; is resilient to disk, host, rack, and datacenter failures; and provides sufficient throughput for warm BLOBs.

2014-10-29

美国大数据工程师面试宝典.pdf

One Chinese guy talk about job experience in silicon valley, especially in data science,such as Hadoop. Many interview and programming skills mentioned also.

2014-10-17

Big Data For Dummies.pdf

Big data is new to many people, so it requires some investigation and understanding of both the technical and business requirements. Many different people need knowledge about big data. Some of you want to delve into the technical details, while others want to understand the economic implications of making use of big data technologies. Other executives need to know enough to be able to understand how big data can affect business decisions.Implementing a big data environment requires both an architectural and a business approach — and lots of planning.

2014-10-07

Cloud Computing Bible

Cloud Computing Bible is made up of 21 chapters in five parts. To read this book and get the most out of it, you should know about basic computer operations and theory. You should be able to turn a computer on and know what operating system is running, how processing and input/output is used, and be

2014-10-05

Big data for dummies

Big data is new to many people, so it requires some investigation and understanding of both the technical and business requirements. Many different people need knowledge about big data. Some of you want to delve into the technical details, while others want to understand the economic implications of making use of big data echnologies. Other executives need to know enough to be able to understand how big data can affect business decisions.Implementing a big data environment requires both an architectural and a business approach — and lots of planning.

2014-10-05

The Linux Knowledge Base and Tutorial

This is a BETA release of the "print friendly" version of the Linux Knowledge Base and Tutorial.

2014-10-05

The Linux Command Line

This book is a broad overview of “living” on the Linux command line. Unlike some books that concentrate on just a single program, such as the shell program, bash, this book will try to convey how to get along with the command line interface in a larger sense. How does it all work? What can it do? What's the best way to use it? This is not a book about Linux system administration. While any serious discussion of the command line will invariably lead to system administration topics, this book only touches on a few administration issues. It will, however, prepare the reader for additional study by providing a solid foundation in the use of the command line, an essential tool for any serious system administration task. This book is very Linux-centric. Many other books try to broaden their appeal by in-cluding other platforms such as generic Unix and OS X. In doing so, they “water down” their content to feature only general topics. This book, on the other hand, only covers contemporary Linux distributions. Ninety-five percent of the content is useful for users of other Unix-like systems, but this book is highly targeted at the modern Linux command line user.

2014-10-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人