自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(219)
  • 资源 (3)
  • 收藏
  • 关注

转载 滴滴基于 Flink 的实时数仓建设实践

随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述滴滴所做的工作,分享在建设过程中的经验。1.实时数仓建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。其次从智能商业的角度来讲,数据的结果代表了用户的反馈,

2020-12-23 21:47:40 346

转载 企业做的数据仓库建设方案总结

一、建设背景目前由于数据分散在不同的存储环境或数据库中,对于新业务需求的开发需要人工先从不同的数据库中同步、集中、合并等处理,造成资源和人力的浪费。同时,目前的系统架构,无法为未来数据驱动业务创新的理念提供友好的支撑。需要建设新一代数据管理平台来解决数据利用率效率跟不上,以及不能支撑业务发展的问题。以此建设背景,建设新一代数据管理平台需要能够支持数据汇集、数据分析、数据应用、数据计算、数据管理、数据资源管理。二、建设目标1、提高业务产品的研发效率解决不同的业务部门之间的项目、组件、数据很难复

2020-12-23 21:46:54 1237

转载 DAU是啥,数据指标是啥?必知必会的数据分析常识

在刚迈入数据的大门时,我经常对一些数据指标或者数据本身的概念很模糊,尤其是当跟运营、数据分析师扯需求的时候,会被这些密密麻麻的指标给弄糊涂。为了更好的在行业里面摸打滚爬,花了很多时间阅读一些指标相关的文章、书籍,总算解决了这个问题。作为互联网从业人员,目前看来对数据指标、指标的运用还是需要再深入学习下。终于挤出一些时间重新梳理了关于数据指标相关的一些知识,先梳理下数据指标基础知识。1 常见指标先来看一看常见的一些数据指标们1. DAU:Daily Active User 日...

2020-12-23 21:45:09 15387

转载 滴滴数据仓库指标体系建设实践

1.什么是指标体系▍1.1 指标体系定义指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标 用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足

2020-12-14 16:49:38 332

转载 58同城用户行为数仓建设及实践

转载:https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ==&mid=2650726003&idx=2&sn=47fc58e55321b85c36058a57a52bb8b8&chksm=887dc305bf0a4a131ed74b4af0e6d9417bfcaaf364191a2b56084f7ffe4299b15e30534621f4&scene=126&sessionid=1607916712&key=

2020-12-14 16:47:04 299

转载 从数仓到数据中台,谈技术选型最优解

感谢分享:https://www.toutiao.com/i6820209292554011149/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1&timestamp=1588074123&app=news_article&utm_source=weixin&utm_medium=t...

2020-04-28 19:47:32 922

转载 5个方面谈谈,数据中台应该具备哪些功能?

数据中台是什么?应该具备哪些功能?本文作者通过梳理分析,从六个方面对数据中台进行了拆解,与大家分享。自从阿里巴巴引入中台以后,中台在国内行业持续高热不退,高潮迭起。从猎聘网、boss直聘上直接搜索中台产品经理、中台架构师等,可以看到各个大小公司都在招聘相关人员,组建团队。市面上BAT等大型互联网公司也有关于中台的文章,但是其中更多都在讲述中台解决的问题,其中数据中台究竟应该包括...

2019-11-12 18:38:40 1523

转载 中台到底在共享什么?

一、 中台的诞生中台战略是企业数字化转型过程中的一个热门话题。说到中台转型,企业大多对标阿里巴巴。2015年阿里巴巴提出了“大中台,小前台”的中台战略,提出之初阿里有近 4 亿用户,为超过 1000万各类企业提供服务,业务种类繁多,业务之间相互网状依赖。同时,阿里部门也越来越多,分工越来越细,沟通过多,相互依赖,创新成本非常高,对业务响应也越来越慢。阿里需要找到能够对外界变化快速反应,整...

2019-10-22 16:23:18 849

转载 向左还是向右?中台建设才不止这点纠结事

今年参加了云栖大会,作为中台的践行者,笔者非常关注中台架构实施的行业状况,学习了其他公司中台的思想和经验。云栖大会上,笔者和做中台实践的同学,以及在阿里做中台的朋友进行了深入的交流和探讨,对做中台过程中遇到的比较纠结的问题进行了思考和总结。在探讨中台哪些让人纠结不定烦心事之前,我们依然要谈谈我们为什么要做中台(注:本文中台局限于企业 IT 架构的中台,非广义上的中台),做中台到底给我带...

2019-10-22 16:12:45 293

转载 大数据下的企业数据仓库建设

随着我们从IT时代步入DT时代,数据从积累量也与日俱增,同时伴随着互联网的发展,越来越多的应用场景产生,传统的数据处理、存储方式已经不能满足日益增长的需求。而互联网行业相比传统行业对新生事物的接受度更高、应用场景更复杂,因此基于大数据构建的数据仓库最先在互联网行业得到了尝试。尽管数据仓库建模方法论是一致的,但由于所面临的行业、场景的不同,在互联网领域,基于大数据的数据仓库建设无法按照原有的项目流程...

2019-10-16 10:39:12 564

转载 到底什么是数据中台?

导读:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据...

2019-10-15 12:38:19 358

转载 新一代数据仓库

新型的数据仓库需要具备如下能力: 从容应对数据量暴增,快速支持多源数据接入 面对大数据时代下的数据激增,新型数据仓库需要打破传统数仓的随数据量增长、硬件成本也随之增长的魔咒,提供海量数据存储/计算/分析需要的可扩展平台。 新型数据仓库需要打破数据孤岛壁垒,快速整合所有业务条线数据,进行集中式管理,统一数据口径,提升数据整合度,支持业务高效的跨领域的综合分析。 以银行为例,在开放银...

2019-09-11 18:34:33 494

转载 民生银行数据中台体系的构建与实践

在大数据、人工智能、区块链等新兴技术的驱动下,各家银行纷纷利用新技术制定数字转型改革战略,寻找差异化经营的可行模式。民生银行积极推进改革转型,2018年在“民营企业的银行、科技金融的银行、综合服务的银行”战略指导下,民生银行从科技视角制定了“技术+数据”双轮驱动的改革方案,全力打造以客户为中心的数字化智能银行,为广大客户提供科技+金融的综合生态服务。如何真正将“数据驱动”...

2019-08-12 11:15:20 1818

转载 基于Hadoop和Spark体系的大数据分析平台构建

谢谢分享!转载:http://www.sohu.com/a/249271561_481409随着大数据、人工智能等技术的快速发展,企业对大数据平台的需求越来越强烈,通过大数据分析技术为企业提供经营价值。虽然数据分析工作隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对企业决策、企业业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在...

2019-02-26 16:42:54 4679

转载 sparkSQL的整体实现框架

感谢分享:https://blog.51cto.com/9269309/1845525这篇博客的目的是让那些初次接触sparkSQL框架的童鞋们,希望他们对sparkSQL整体框架有一个大致的了解,降低他们进入spark世界的门槛,避免他们在刚刚接触sparkSQL时,不知所措,不知道该学习什么,该怎么看。这也是自己工作的一个总结,以便以后可以回头查看。后续会对sparkSQL进行一系列详细的...

2019-02-26 11:01:47 231

转载 备份mysql数据库脚本

#!/bin/bash #保存备份个数 number=3 #备份保存路径 backup_dir=/data/database_data #日期 dd=`date +%Y%m%d` #备份工具 tool=mysqldump #用户名 username=root#密码 password=123456#地址host=localhost#将要备份的数据库 data...

2019-02-14 18:04:52 345

原创 hive 添加udf函数pom文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://

2019-01-30 17:11:28 2003

转载 数据质量监控工具-Apache Griffin

转载:https://blog.csdn.net/vipshop_fin_dev/article/details/86362706文章目录一、概述二、Apache Griffin2.1 特性2.1.1 数据质量指标说明2.2 优势2.3 工作流程2.4 系统架构2.5 数据验证逻辑2.6 Demo2.7 后台提交监控任务一、概述随着业务发展和数据量的增加,大数据应用开发...

2019-01-18 17:14:24 8949

原创 监控presto程序进程

#!/bin/bashps -ef|grep  -v grep|grep presto >/dev/null 2>&1if [ $? -eq 0 ]then  echo "yes-->$(date "+%Y-%m-%d-%H-%M")"  >> check_presto_yes.logelse  echo "no-->$(date "

2018-12-17 16:53:42 973

原创 个人发展阶段

年底了, 想想今年做了些什么明年的目标又是什么。有感而发,觉得个人技术生涯分为三个阶段第一个阶段: 喜欢、学习、坚持第二个阶段: 积累、沉淀第三个阶段: 保持一颗向上奋进的心、目标、规划。2018年1月8日记。希望自己多多努力,给家人更好的生活。

2018-01-08 15:39:00 593

原创 hive多个字节分割符

hive0.14版本之前默认只支持单个字符。0.14版本以后提供序列化类支持多个字节。hive官网描述: https://cwiki.apache.org/confluence/display/Hive/MultiDelimitSerDe例子如下:CREATE TABLE test ( id string, hivearray array, hivemap map) ROW

2017-12-20 14:52:02 1433

转载 一文读懂Apache Kylin

感谢分享。http://www.jianshu.com/p/abd5e90ab051?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation“麒麟出没,必有祥瑞。”                              —— 中国古谚语K

2017-12-08 17:24:22 6625 1

转载 案例分析|链家网大数据平台枢纽——工具链

非常感谢分享,学习了。http://www.chinacloud.cn/show.aspx?id=25413&cid=16文 | 吕毅,链家网平台架构师  链家网于2015年成立大数据部门,开始构建基于Hadoop的技术体系,初期大数据部门以运营数据报表需求、公司核心指标需求为主。随着2015年链家网发力线上业务,toB与toC业务齐头并进,数据需求量激增的情况也随之在2016

2017-12-07 14:56:52 2966

转载 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

感谢分享。http://itindex.net/detail/56925-%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93-%E6%8B%89%E9%93%BE-%E5%8E%9F%E7%90%86漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)标签: bigdata | 发表时间:2017-05-12 00:00 | 作者:分享到:

2017-10-17 17:07:41 1666

转载 information_schema中Innodb相关表用于分析sql查询锁的使用情况介绍

感谢分享。转载: http://blog.csdn.net/and1kaney/article/details/51213979MySQL中information_schema 简略的介绍了MySQL中元数据信息库的各个表的作用,从这篇wiki中可以大致了解各个表的作用。这里主要介绍下Innodb事务锁相关的三个表:INNODB_TRX表、INNODB_LOCKS表、INNODB_

2017-08-24 15:19:37 604

转载 MySQL中information_schema

感谢分享,转载: http://blog.csdn.net/and1kaney/article/details/51213974information_schema数据库是MySQL自带的,它提供了访问数据库元数据的方式。什么是元数据呢?元数据是关于数据的数据,如数据库名或表名,列的数据类型,或访问权限等。有些时候用于表述该信息的其他术语包括“数据词典”和“系统目录”。在mysql

2017-08-24 15:14:53 405

原创 shell循环etl跑历史数据

#!/bin/shif [ ! -z $1 ]then file_name="$1"else echo "输入执行文件路径!" exitfiif [ ! -z $2 ]then start_date=`date --date="${2}" +%Y-%m-%d`else start_date=`date -d'-1 day' +%Y-%m-%

2017-06-23 17:37:18 1110

转载 大数据环境下该如何优雅地设计数据分层

转载:http://blog.csdn.net/zhaodedong/article/details/73385647感谢分享!0x00 前言最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:……发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公

2017-06-21 15:45:58 491

原创 hive账单表算连续逾期以及累计逾期

参考工作中的中的用法算连续逾期以及累积逾期SELECT src.buss_no, concat_ws(',',collect_set(src.periods)) AS overude_periods, #逾期中所有期数 MAX(src.cnt) AS max_overdue_cnt, #累积逾期 MAX(src.contiue_

2017-06-19 10:14:51 1892 1

转载 shell中初始化数组并遍历数组

假设有数组名为ARR,则初始化的一种方法是: ARR=(2 4 6 8)或者ARR=("dim_hx_app_basic""dim_hx_app_product") 其中,括号里的各项使用空格来分隔。 遍历数组的方法为: for NUM in ${ARR[*]}doecho $NUMdone 其中,每一次循环过程中,数组里

2017-01-09 13:58:42 2691

转载 一篇文看懂Hadoop:风雨十年,未来何去何从

转载:http://mt.sohu.com/20160511/n448925568.shtml 我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。本文分为技术篇、产业篇、应用篇、展望篇四部分  技术篇    2006年项目成立的一开始,

2016-12-12 19:07:38 2247

转载 mysql5.7版本免安装配置教程

谢谢分享 http://www.cnblogs.com/binjava/archive/2016/09/08/5851793.htmlmysql分为安装版本msi,免安装要压缩版本ZIP,下载网址:http://dev.mysql.com/downloads免安装版配置主要包括以下几步:1.第一步解压文件,随便放到一个文件夹下面,如:D:\mysql-5.7.15-wi

2016-10-18 09:50:21 645

转载 Kettle变量使用

转载:http://blog.csdn.net/neweastsun/article/details/40188143  谢谢! kettle参数、变量详细讲解 kettle 3.2 以前的版本里只有 variable 和 argument,kettle 3.2 中,又引入了 parameter 概念;variable 即environment variables(环境变量或全局变...

2016-09-28 15:52:22 3636 1

原创 python3.5安装模块

安装加密解密模块: pip3 install pycrypto

2016-09-12 11:35:48 1186

转载 网站数据统计分析之一:日志收集原理及其实现

转载:http://my.oschina.net/leejun2005/blog/292709  谢谢!网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计 和 腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理,并一步

2016-09-02 11:10:58 1748

转载 MySQL命名、设计及使用规范

来自:标点符的《MySQL命名、设计及使用规范》作者:标点符(钱魏 Way)链接:http://www.biaodianfu.com/mysql-best-practices.html(点击尾部阅读原文前往)最近在看MySQL相关的内容,整理如下规范,作为一名刚刚学习MySQL的菜鸟,整理的内容非常的基础,中间可能涉及到有错误的地方,欢迎批评指正,看到有错误

2016-08-10 17:42:09 2639

转载 浅谈数据分析和数据建模

转载: http://mt.sohu.com/20160505/n447925878.shtml大数据应用有几个方面,一个是效率提升,帮助企业提升数据处理效率,降低数据存储成本。另外一个是对业务作出指导,例如精准营销,反欺诈,风险管理以及业务提升。过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据,数据分析应用的领域集中在企业内部经营和

2016-08-05 18:09:21 11214

转载 用户行为分析

用户行为轨迹认知------->网站访问-------->IP、PV、人均页面访问量、访问来源熟悉------->网站浏览、网站搜索--------->平均停留时长、跳出率、页面偏好、搜索访问次数占比试用------->用户注册-------->注册用户数、注册转化率使用------->用户登录、用户订购--------->登录用户数、人均登录、访问登录比、

2016-07-25 16:24:04 3723 1

原创 mysql自动分区存储过程

DELIMITER $$USE `dw`$$DROP PROCEDURE IF EXISTS `sp_tool_maintain_partition`$$CREATE DEFINER=`data`@`%` PROCEDURE `sp_tool_maintain_partition`(in_tabName VARCHAR(68),in_startDate DATE,in_endDate

2016-05-27 16:28:57 2300

原创 mysql表添加分区

mysql表添加分区CREATE TABLE `t_dealer_goods_sales_bk` ( `ORDER_ID` VARCHAR(32) DEFAULT NULL COMMENT '订单id', `ORDER_DATE` DATE DEFAULT NULL COMMENT '订单创建日期', `COMPLETION_DATE` DATE DEFAULT NULL COMMEN

2016-05-27 16:23:01 4453

net.sf.fjep.fatjar_0.0.31.zip

net.sf.fjep.fatjar_0.0.31的jar包

2015-11-11

全文检索-原理介绍

全文检索-原理讲解 顺序扫描法,索引搜索法,倒排索引,创建索引,搜索索引原理讲解.

2011-11-18

PDI(kettele)教程

PDI(kettle)教程,以及PDI(kettle)详细使用。

2010-09-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除