自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序之道的博客

专注Java、大数据知识干货及相关领域动态分享,请多多关注哦

  • 博客(251)
  • 收藏
  • 关注

原创 数据及大数据的本质到底是什么?

最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。数据与大数据技术进步,主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步,使得数据概念被大数据概念取代。数据量增加速度之快,大致可以这样描述:最近两年生成的数据量,相当于此前一切时代人类所生产的数据量的总和。大数据指的是所涉及的数据量规模...

2019-02-22 17:43:23 10889 1

原创 数据中心常见的问题有哪些?你知道吗?

虽然数据中心运营商的冷却管理比十年前要好得多,但许多设施仍然面临着容量不能充分被利用及浪费能源等问题。专家表示,气流管理的最终目标是更好地控制IT进气口的冷却温度设定值,同时使得传送至数据大厅的空气量最小化。数据中心那些常见的问题数据中心那些常见的问题,以下是数据中心中最常见的一些问题,如下:1、太多的开孔地板:在热通道和空白区域放置开孔地板是毫无理由的。这样会浪费冷却能力。还有可...

2019-02-21 16:28:57 7972 1

原创 大数据工具千千万,到底谁才是最强王者?

外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力。虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易。哪一种工具适合你的技能组合?哪一种工具适合你的项目?为了替你节省一点时间,并帮助你首次选对工具,我们列出了我们青睐的几款数据工具,涉及数据提取、存储、清理、挖掘、可视化、分析和整合等领域。数据存储和管理如果你准备处理大数据,就要考...

2019-01-05 17:38:30 4917 22

原创 Flink实战教程:如何计算实时热门商品

实战案例介绍本案例将实现一个“实时热门商品”的需求,我们可以将“实时热门商品”翻译成程序员更好理解的需求:每隔5分钟输出最近一小时内点击量最多的前 N 个商品。将这个需求进行分解我们大概要做这么几件事情:抽取出业务时间戳,告诉 Flink 框架基于业务时间做窗口过滤出点击行为数据按一小时的窗口大小,每5分钟统计一次,做滑动窗口聚合(Sliding Window)按每个...

2019-06-05 19:54:17 1127 1

原创 一文带你了解Java Agent

Java Agent这个技术,对于大多数同学来说都比较陌生,但是多多少少又接触过,实际上,我们平时用的很多工具,都是基于Java Agent实现的,例如常见的热部署JRebel,各种线上诊断工具(btrace, greys),还有阿里最近开源的arthas。其实Java Agent一点都不神秘,也是一个Jar包,只是启动方式和普通Jar包有所不同,对于普通的Jar包,通过指定类的main函数进行...

2019-06-05 14:14:05 636

转载 docker之开发课程EdgeService

课程的edgeService依赖于课程服务的dubbo服务,对外提供的restAPI,跟用户的EdgeService有点类似,只是一个调用的是thrift,一个调用的是dubbo,比较特殊的是课程的EdgeService需要用户登录后才可以访问,如果没有登录的话,需要跳转到登录系统才可以访问。新建模块course-edge-servce* pom增加依賴<?xml version=...

2019-06-04 16:23:35 490

原创 JProfiler性能分析工具详解

1.简介JProfiler 是一个商业授权的 Java剖析工具,用于分析Java EE和Java SE应用程序.2.JVMTIJDK 本身定义了目标明确并功能完善的JNI( Java Native Interface ) 与虚拟机直接进行交互,这些 API 能很方便的进行扩展,从而满足开发者各式的需求.JVMTI( JVM Tool Interface) ,是JAVA虚...

2019-06-03 17:12:44 2739

原创 Spring Aop之Jdk代理实现原理详解

Jdk代理,也称为动态代理,其代理目标对象的方式是生成一个与目标对象实现同一个接口的类,该类的构造函数中会传入一个 InvocationHandler 类型的对象。因为 InvocationHandler 对象是用户自定义的织入了切面逻辑的类,因而在需要使用目标对象的地方,只需要将生成的代理类的对象传入即可。又因为生成的代理类与目标类都实现了同一接口,因而...

2019-06-03 14:47:59 271

原创 华为系统早已开始研发,为何现在才准备推出?

华为在近年来的发展一直朝着更好的方向前进,作为一个中国自主研发比较出色的一个企业,华为掌握了全球最多的5G专利技术,还自己研发了处理器芯片,就手机行业上来说,现在华为的位置已经可以坐到全球出货量前二的位置。种种的事迹都表明了现在的华为实力越来越强大。2018年4月份,美国下达的一纸“禁售令”给中兴通讯带来一场毁灭性打击,一时间中兴的各项主营业务均陷入半瘫痪状态,而中兴的遭遇也为所有国...

2019-05-23 14:59:16 809

转载 前端面试要注意哪几个点?

不管是刚毕业踏入社会的还是在职场久经奋战的,都经历过被面这一环节。当然也有很多同学开始在面人,为自己的团队选择优秀的血液。而我也是属于这一类,这些年都有在帮公司或朋友的团队物色人才和面试同学。今年在手淘也一样,在给同学面试过程中,让我开始在思考,而且思考了很久,所以这几天静下来写了这篇文章,希望这篇文章对于刚毕业的大学生或者还在继续参加工作面试的同学有所帮助。什么是前端什么是前端?在这里不做...

2019-05-09 16:30:07 407

原创 WEB前端学习如何分清主次和优先级?

学习前端从未停止过,本文只是对知识的重要程度和精力分配说下自己的观点。具体来说,前端方面的知识从重要程度来排,私以为应该先后学这些:1,api学习,系统地学,可以看看这个方面的书,不要只零散地看网上文章,这个书钱要舍得花。前端领域,这个方面我推荐看看《javascript高级程序设计》和《html5和css3权威指南》。2,学习一些编程上的技巧,比如面向对象,组件,api设计,推荐几本书《js...

2019-05-08 17:45:55 489

原创 怎样实现H5+CSS3手指滑动切换图片

包含3个文件:html、slider-H5.js、jquery.js。在html中可配置滑动参数。具体代码如下:HTML代码:<!DOCTYPE HTML><html> <head> <meta charset="utf-8" /> <meta http-equiv="X-UA-Compa...

2019-04-30 17:48:30 1378

原创 运用这招,让 Spark 提速 45 倍!

Apache Spark已逐渐俨然成为下一代大数据处理工具的典范。通过借鉴开源算法,并将处理任务分布到计算节点集群上,无论在它们在单一平台上所能执行的数据分析类型方面,还是在执行这些任务的速度方面,Spark和Hadoop这一代框架都轻松胜过传统框架。Spark利用内存来处理数据,因而速度比基于磁盘的Hadoop大幅加快(快100倍)。但是如果得到一点帮助,Spark可以运行得还要快。如果结合...

2019-04-29 16:56:40 1544 1

原创 到底多大的数据才叫大数据?大数据的商机有哪些?

大数据是什么?多大的数据叫大数据?很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。企业端(B端)数据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定要求,PC端、移动端或传统渠道都可以,重点要达到这样数量级的有效数据,形成数据服务即可。很有趣,大家可...

2019-04-29 15:29:52 1240

原创 分享一些关于Hadoop的面试题及答案

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,下面看看一般情况下,关于Hadoop的面试是会问哪些问题,以及该怎么回答。1. 简单描述如何安装配置一个apache开源版hadoop,只描述即可,无需列出完整步骤,能列出步骤更好。1) 安装JDK并配置环境变量(...

2019-04-28 21:21:22 474

转载 作为数据分析师怎样选择适合你的分析工具?

不管是数据分析,统计分析,数据挖掘、商业智能都需要在学习的时候掌握各种分析手段和技能,特别是要掌握分析软件工具!我曾经说过,学习方法,一般是先学软件开始,再去应用,再学会理论和原理。没有软件工具的方法就不要去学了,因为学了也不能做,除非你自己会编程序。那么在数据分析领域,都有哪些软件分析工具呢?如何选择呢?其实很多领域或者说分析方法都有相应的软件工具,只要你想找就应该能够找到!这...

2019-04-27 19:48:38 389

转载 全面解析腾讯数据库TDSQL架构

腾讯计费平台部托管着公司90%以上的虚拟账户,如QB、Q点、包月服务、游戏的二级账户等,为了保证能顺畅支撑公司各大业务的实时在线交易,并且在各种灾难场景下数据是一致并且可用的,对系统的可用性、一致性切换要求非常高,因此计费团队历来都非常重视高一致性存储系统的建设。到目前为止,计费高一致性存储层的解决方案大致经过了3个阶段,本文将分享最新的基于MySQL的分布式解决方案。随着业务的发展,...

2019-04-16 14:47:53 6529

原创 一个成熟的程序员必会技能:赚钱

我经常在这个公众号里收到一些读者留言,大多数是一些年轻读者,迷茫,焦虑,工资明明还不错,但攒不下钱,买不了房。高学历,985,硕士,努力了很多年也赶不上那些轻松的富二代……看着可怜又可气。我觉得这种心态的读者,毛病都出在比较上,而比又没比对地方。你嫌超市的菜不好吃,别的人还吃不上蔬菜呢。北京最近两年的天气已经有了很大的改善,但是,但凡连续两天雾霾天,朋友圈立刻沦陷,而真正雾霾严重的地方,可能都用...

2019-04-15 13:59:00 432

原创 Web全栈工程师应该会什么

一个Web开发过程有三层架构:表示层:表示层也被称为网站的前端部分。它处理网站的用户界面相关问题。业务逻辑层:业务逻辑层也被称为网站的后端层,负责数据验证和动态处理。数据库层:最后是数据访问层,利用API为网站提供数据。以上三层共同称为全栈web开发。以前,每当需要开发一个网站时,前端开发人员和后端开发人员分别被聘用。现在,随着移动应用程序和网站的全栈开发,时代已经发生了变化。首先,你需要学...

2019-04-15 13:58:30 6156 1

原创 vue使用插槽分发内容slot的用法

这篇文章主要介绍了vue使用插槽分发内容slot的用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧将父组件的内容放到子组件指定的位置叫做内容分发//在父组件里使用子组件<son-tmp> <div>我是文字,我需要放到son-tmp组件里面制定的位置</div></...

2019-04-15 13:57:46 244

原创 BAT资深web前端工程师总结:未来5年前端发展四大趋势前瞻

经过近5年的快速发展,目前前端开发技术栈已经进入成熟期。在React和Vue等框架出现后,前端在代码开发方面的复杂度已经基本得到解决,再加上Node解决前后端分离,前端技术栈本身其实已经非常成熟。因此业内人士普遍认为,未来几年前端本身的开发技术应该不会有大的方向变化,但是将会呈现出四大发展趋势:第一个趋势是入口应用会小程序化。类似腾讯、阿里、滴滴、美团这样作为入口的应用,会自己做自己的一套小程...

2019-04-15 13:57:10 245

原创 大数据分析师常见的面试题解答

1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP...

2019-04-15 10:23:55 11671

转载 全面解析腾讯大数据计算引擎——Shuffle

腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求,TDW也在向实时化方向发展,为用户提供更加高效、稳定、丰富的服...

2019-04-12 15:55:01 841

原创 大数据扫盲:详解Hadoop与Spark之间的关系

我们刚刚搞懂服务器,数据库,C++,java等基础语言是个什么东西的时候,大数据时代来了,科技界又玩起Hadoop,HDFS,MapReduce,Common,Spark,Mahout,HBase,NoSQL,Cassandra,GFS, MapReduce, BigTable,Hive,Pig……如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?大数据...

2019-04-11 17:10:00 1639

转载 揭秘大众点评的大数据实时计算

实时计算在点评的使用场景类别一:Dashboard、实时DAU、新激活用户数、实时交易额等♦Dashboard类:北斗(报表平台)、微信(公众号)和云图(流量分析)等♦实时DAU:包括主APP(Android/iPhone/iPad)、团APP、周边快查、PC、M站♦新激活用户数:主APP♦实时交易额:闪惠/团购交易额以报表平台为例,下图是一张APP UV的...

2019-04-11 14:39:09 1496 1

原创 大数据工程师常用的优化方法

优化人员工作时免不了要接触到大数据量的问题,下面就将平时收集的一些关于大数据量的优化方法整理记录一下,也是和大家一起共享。1. 应尽量避免在 where 子句中对字段进行null值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where numis null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:se...

2019-04-10 17:04:04 785

原创 微博广告推荐中有关Hadoop的那些事

一、背景微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,引入了hadoop分布式计算平台,对用户数据和内容数据进行分析和挖掘,作为广告推荐的基础。二、问题及解决方案在hadoop平台上进行开发时,主要遇到了以下一些问题:2.1 数据量庞大问题:无论在进...

2019-04-10 15:07:35 336

原创 全面解析基于Hadoop模型的数据分析平台框架

本文主要讲解以下两个方面:♦Hadoop MapReduce与Hive技术研究♦数据分析平台框架设计与环境配置HadoopMapReduce与Hive技术研究一、Hadoop框架工作机制Hadoop框架定义:Hadoop分布式文件系统(HDFS)和Mapreduce实现。并行程序设计方法中最重要的一种结构就是主从结构,而Hadoop则属于该架构。HDFS架...

2019-04-10 10:43:33 1403

原创 揭秘阿里互联网金融的关系数据库

时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。这种趋势已经让很多相信数据之力量的企业做出改变。为了应对大数据的冲击,淘宝将以前的Oracle、小型机、高端存储模式转变到现今的MySQL、OceanBase、Hbase、MongoDB等数据库,并使用普通PC服务器。OceanBase进入金融级应用随着互联...

2019-04-09 17:52:09 329

原创 淘宝算法总监解读——淘宝搜索算法现状

淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:一、算法模型当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。对于好的算法模型,首先需要考虑我们...

2019-04-09 13:56:43 4629

原创 大数据技术未来发展前景及趋势分析

流大数据分析Storm: Apache Storm是一种开源的分布式实时计算系统。Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理。Spark: Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于HadoopMapReduce更快。Spark适合机器学习以及交互式数据查询工作,包含Scala、Python和Java API,这更有利于开发人员使用...

2019-04-08 17:21:25 5733

原创 全面解析电商数据挖掘之关联算法

所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候,可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上,比如搜索引擎算法中文档之间的关联性,我们采用的词是relevance;而后者往往用在实际的事物之上,比如电子商务网站上的商品之间...

2019-04-08 16:46:59 2306

原创 解密Facebook的实时Hadoop系统

Facebook 在 SIGMOD 上发表了一篇名为“Apache Hadoop Goes Realtime at Facebook”的会议论文 ,介绍了 Facebook 为了打造一个实时的 HBase 系统使用到的独门秘技。由于该论文提到的应用场景与我负责的系统要解决的问题域有相似之处,因而抽时间仔细阅读了这篇论文。下面便是结合论文的内容,谈一谈我的一些看法和感想。这篇文章主要的内容...

2019-04-08 15:06:05 495

原创 流式大数据处理的三种框架对比分析

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(workernode)执行。一个拓扑中包括spo...

2019-04-03 17:56:20 5268

原创 全面解析大数据解决方案的架构层

大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案例的功能性和非功能性需求。这些逻辑层列出了大数据解决方案的关键组件,包括从各种数据源获取数据的位置,以及向需要洞察的流程、设备和人员提供业务洞察所需的分析。大数据解决方案的逻辑层逻辑层提供了一种组织您的组件的方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑层;这并不意...

2019-04-03 16:10:35 1413

原创 大数据分析:机器学习算法实现的演化

传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。它们可以对大数据进行我称之为粗浅的分析。基于Hadoop之上进行的传统机器学习工具的规模化的尝试,包括Revolution Analytics的成果(RH...

2019-04-03 13:51:56 993

原创 新手sqlserver数据库dba需要注意的小细节

►1.在创建db的时候自增长建议设置成按MB(M)增长,步长根据业务量来设置,一般情况建议设置100-200M(见图片),还有就是尽量别改初始大小,这个默认就好。如果按照数据文件(mdf)按照默认的1m增长,同时db的业务写入比较频繁,那数据库就会频繁的向磁盘请求空间,会造成不必要的io消耗,也会因为申请空间造成资源等待等问题。如果把日志文件(ldf)按照默认的百分比10%增长,同样当db...

2019-04-02 21:19:55 500

原创 如何挑选合适的大数据或Hadoop平台?

IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。本文讨论了不同的选择,并推荐了每种选择的适用场合。Hadoop平台的多种选择下图展示了Hadoop平台的多种选择。你可以只安装Apache发布版本,或从不同提供商所提供的几个发行版本中选择一个,...

2019-04-02 17:08:43 665

原创 详解大数据清洗工具

在进行数据分析和可视化之前,经常需要先“清洗”数据。这意味着什么?可能有些词条列表里是“New York City”,而其他人写成“New York, NY”。然而,你在看到某些模式前得将各种各样的输入词汇标准化。又或者,出现一些数值输入错误,错别字什么的。有很多工具都可以实现你想要的功能,但大多都是付费的。对于专业人士来说,这些成本是值得的,但对于时不时才使用的业余人士来说,未免有些浪费。下...

2019-04-02 16:03:10 9393

转载 用最形象的比喻带你看懂大数据的技术生态圈

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽...

2019-04-01 21:41:53 490 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除