bigdataCoding-CSDN博客

原创金融业数据质量评价体系

一、应用背景与目标首先是外部监管对数据质量要求日益严格，其次内部有效的数据分析与经验决策需要高质量的数据，最终无论对外部还是内部均需要优质的数据质量，才能满足内外部用数的需求，因此要做到“为有源头清水来”。第一，监管对监管数据要求的变化体现在：数据的粒度不再限于指标类数据，需要账户级、交易级的明细数据，对字段级数据有日益明确的数据质量标准，一旦发现问题，要求快速响应及时整改。第二，内部精细化管理依托于高质量的数据。高级管理人员到一线分析人员均要求有更灵活、丰富的数据来源，不仅限于传统意义的...

2022-03-14 20:47:39 1241

原创 DataOps在中小银行的实践

数据中台，DataOps，敏捷数据

2022-02-11 09:08:59 542

原创数据治理八字决-“沟通、组织、聚焦、文化”

随着数据价值的日益突显，从国家战略到企业规划，越来越多的企业开始进行数字战略转型，有的通过数据平台过渡到数据中台，有的直接建设数据中台。　　所谓“无规矩不成方圆”，因历史原因企业在发展过程中已经形成了系统林立的情况，汇集到数据平台的数据都各具特色，缺乏标准、规范、治理的数据已经失去了使用的价值。为了规范数据处理过程，凸显数据业务价值，需对数据平台的数据进行综合管理，构建标准化、流程化、自动化、一体化的数据治理体系，确保数据架构规划合理、数据加工条理清晰、数据处理可管控、数据知识可传承。因此笔者总结数据治

2021-04-07 23:06:00 533 2

原创金融数据仓库系列-打造数据中台

什么是数据中台？数据中台是指通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径。数据中台的特点：数据技术统一：统一的数据存储规范、统一的数据处理工具、统一数据存储及对海量数据进行采集、计算、存储、加工，同时统一标准和口径数据服务化：将数据模型按照应用要求做了服务封装，就构成了数据服务，这个跟业务中台中的服务概念是完全相同的及服务数据前置让业务人源充分理解业务数据更加...

2019-05-15 14:23:11 2950 3

原创金融数据仓库系列-实时数仓

Oracle GoldenGate实时同步Oracle实时传输到Hadoop集群（HDFS，Hive，Kafka等）的基本原理如图：根据如上原理，配置大概分为如下步骤：源端目标端配置ogg管理器（mgr）；源端配置extract进程进行Oracle日志抓取；源端配置pump进程传输抓取内容到目标端；目标端配置replicate进程复制日志到Hadoop集群或者复制到用户自定义的解析器将...

2019-05-13 20:28:40 2817

原创金融数据仓库系列-数据拉链

在数据仓库的表设计通常会根据业务情况和源系统对数据的存储情况对仓库的表进行设计以便更好的利用存储资源和完成保留数据记录，通知表的设计分如下几种方法：1. 全量表：每天的所有的最新状态的数据，缺点：浪费存储空间2. 增量表：每天的新增数据，增量数据是上次导出之后的新数据。3. 拉链表：维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一...

2019-05-11 15:16:45 489

原创金融数据仓库系列-统一指标数据标准化

在工作经常会碰到与业务或者运营人员沟通需求的时候，自己理解和需求得出的数据不一致。这一部分是由于对产品对业务理解的不够透彻另一方面也存在数据源口径不一致的问题，因此在做数据治理或者数据仓库标准化的实时对指标换句话说数据口径的统一显得明显重要。建立统一指标体系，注重全面性和均衡性，覆盖我行的业务、管理、风险、成长等各个发展战略目标，既要注重财务指标，也要注重内部管理指标，完成全行基础指标...

2019-05-11 15:01:52 3231

原创金融数据仓库系列-什么是数据仓库

一个公司里面不同项目可能用到不同的数据源，有的存在MySQL、Oracle里面，有的又存在Hive里面，甚至还有些利用爬虫爬取的第三方数据源，还有部分的影像文件系统如音频和图像等。这些数据都分散在各个源系统中，如何把各个系统整合到一起，避免数据的孤岛和数据没有打通的问题，然后进行数据分析和挖掘。此时数据仓库(Data Warehouse，DW)就派上用场了。它可以对多种业务数据进行筛选和整...

2019-05-11 10:37:20 951

原创大话风控系列-1.风控整体架构

风控的本质是对客户风险的识别，对客户风险的识别需要多维度的数据进行评定在应用中比如先求流行的互联网金融本质是对客户的行为或者信用进行评估；每家公司对数据掌握的程度不一样且对风险的容忍程度也不一样因此在申请额度的时候每个公司的金额也不一样，比如同一个客户在支付宝借呗或者微信微粒贷借的金额也会不一样因为掌握的数据不同；A卡（Application score card）申请评分卡在申请评分卡中...

2019-01-21 18:09:37 1089

原创用户画像利用BitMap存储

目前项目上存储利用BitMap进行存储，比如用户id 为1001，对应的标签id A1001,setbit 1001 A1001,1 在生产中经常会出现一个用户对应多个标签因此用BitMap存储的话就很方便 package com.demo.cn.Redis;import java.util.BitSet;public class BitSetUtils { ...

2018-09-25 19:25:41 3313 2

原创 HBase数据与Hive映射

背景：需要将HBase中表某列的值抽取到hive中，在hive中进行ETL的处理在hive shell中执行如下命令CREATE EXTERNAL TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPER...

2018-09-19 17:59:24 628

原创 Spark系列--Mlib(1)

ML Pipelines（ML管道）Pipelines的主要概念MLlib 将机器学习算法的API标准化，以便将多种算法更容易地组合成单个 Pipeline （管道）或者工作流。本节介绍Pipelines API 的关键概念,其中 Pipeline（管道）的概念主要是受到 scikit-learn 项目的启发.DataFrame（数据模型）：ML API 将从Spark SQL查出来的...

2018-09-03 10:42:18 864

原创 Spark 闭包与序列化（json4s.jackson）

Spark的官方文档再三强调那些将要作用到RDD上的操作，不管它们是一个函数还是一段代码片段，它们都是“闭包”，Spark会把这个闭包分发到各个worker节点上去执行，这里涉及到了一个容易被忽视的问题：闭包的“序列化”。显然，闭包是有状态的，这主要是指它牵涉到的那些自由变量以及自由变量依赖到的其他变量，所以，在将一个简单的函数或者一段代码片段（就是闭包）传递给类似RDD.map这样的操作前，...

2018-08-02 10:15:00 1555

原创 Datax 与 Azkaban 实现数据抽取与调度

1.什么是DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件的模式，目前已开源，代码托管在githubDataX的安装省略配置详情可见 https://github.com/alibab...

2018-07-26 10:41:19 8236 1

原创 Kafka 幂等，事物，消息可靠性

本文结合在使用Kafka中的使用，和遇到的问题1.Kafka中如何保障发送消息的可靠性？首先我们在创建一个Producer是，可以设置的一些参数如下：1（默认）：这意味着producer在ISR中的leader已成功收到的数据并得到确认后发送下一条message。如果leader宕机了，则会丢失数据。0：这意味着producer无需等待来自broker的确认而继续发送下一批消息。这种情况下数据传输...

2018-06-07 16:46:53 4132

原创 Spark NLP实现本文挖掘

本机运用的技术栈为NLP（Word2Vec）关于NLP的相关理论请提前梳理清楚Spark mlib，rdd,dataframe,graph（顶点，边，连通图等基本概念）Spark 2.2.0,JDK 1.8.0 ,Scala 2.1.X如下思路图：1.如下创建一个DataFrame import spark.implicits._ val documentDF = spar...

2018-06-06 17:24:02 1963 1

原创 Hbase的读写寻址过程

1.Hbase的写入流程客户端查找对应region 客户端根据要操作rowkey，查找rowkey对应的region。查找region的过程为通过zk获取到hbase:meta表所在region。通过查找hbase:meta可以找到要更新的表每个region的startkey、endkey以及所处机器。由于hbase的rowkey有序分布在region上，所以通过每个region的startkey...

2018-05-10 17:22:37 2402

原创 Redis 分布式生产全局有序ID

核心主要是利用Redis的senx和getset等命令进行操作，这些命令都是属于原子性的操作； public synchronized boolean lockWithTimeout(String lockName, long acquireTimeout, long timeout) { try { // 获取连接 // 随机生成...

2018-05-09 14:35:33 1515

原创 SparkStreaming 管理offset 存储到Hbase中

package com.demo.cn.streamingimport kafka.utils.ZkUtilsimport org.apache.hadoop.hbase.filter.PrefixFilterimport org.apache.hadoop.hbase.util.Bytesimport org.apache.hadoop.hbase.{HBaseConfiguratio...

2018-04-18 16:00:49 709

原创 Spark机器学习之--逻辑回归

Spark 利用逻辑回归做申请评分卡，上干货 val spark=SparkSession.builder().appName("LRTest").master("local[*]").getOrCreate() val sc=spark.sparkContext //隐式转换 val colArrayName= Array("affairs", "gender", ...

2018-03-08 20:35:54 982

原创 Spark机器学习之-实时聚类算法调用

Spark MLIB中的Kmenas聚类算法，数据通过SparkStreaming 实时拉取kafka中的数据，并调用已经训练好的聚类模型；根据读取的数据实时的进行分类package com.demo.cn.streamingimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.commo...

2018-03-07 15:39:05 1633 1

原创 Hbase 踩坑

2018-02-11 15:50:27,843 INFO [RpcServer.FifoWFPBQ.priority.handler=19,queue=1,port=16020] regionserver.RSRpcServices: Compacting archiveLogData,D,1517906411842.c5edfc6575a591b2b5eb06b9e069bd48.2018-...

2018-02-11 16:00:22 3322

原创集成算法Bagging和Boosting的区别

bagging与boosting的概念及区别首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）.1、Bagging (bootstrap aggregating)Bagging即套袋法，其算法过程如下：A）从原始样本集中抽取训练集.每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有

2018-01-09 20:42:28 1295

原创 Spark和HanLP结合实现分词

实现地理位置名词的分词 val spark = SparkSession .builder() .appName("Word2Vec").master("local[*]") .getOrCreate() val df=spark.createDataFrame(Seq(("1","湖北武汉市汉口北大道88号"), ("2","成都青羊区清

2017-12-29 17:09:06 1775

原创 StromTrident和Hbase 实现热门搜索

统计APP中，全量用户的搜索统计，并且列出TopN 主要流程如下: 1.APP端搜索的搜索数据通过推送到Kafka中 2.Strom 与 Kafka 有 native的接口OpaqueTridentKafkaSpout 3.Storm中应用到SlidingDurationWindow即窗口统计 4. 数据写入到Hbase当中TridentHBaseMappercode: stat

2017-12-06 10:37:19 365

原创 Spark GBDT

随机森林(random forest)和GBDT都是属于集成学习（ensemble learning)的范畴。集成学习下有两个重要的策略Bagging和Boosting。 Bagging算法是这样做的：每个分类器都随机从原样本中做有放回的采样，然后分别在这些采样后的样本上训练分类器，然后再把这些分类器组合起来。简单的多数投票一般就可以。其代表算法是随机森林。Boosting的意思是这样，他通过

2017-11-09 16:51:40 1641

原创 Hbase Region迁移过程详解

在生产上遇到有比较大的Region都是运行在同一个RegionSever上，有些RegionSever上的Requests比较少，明显的出现读请求不均衡；这个时候我们可以手动的移动Region到负载比较低的RegionSever上面eg: 在hbase shell 执行如下：move ‘5f1e66c635f8a0ed278f609fa16d5a6e’,’slave2,16020,15077994

2017-10-13 11:57:37 4197

原创 Hbase 架构整理

Hbase Region的理解 1、Region数量的影响通常较少的region数量可使群集运行的更加平稳，官方指出每个RegionServer大约100个regions的时候效果最好，理由如下：1）Hbase的一个特性MSLAB，它有助于防止堆内存的碎片化，减轻垃圾回收Full GC的问题，默认是开启的。但是每个MemStore需要2MB（一个列簇对应一个写缓存memstore）。所以如果每个r

2017-10-12 10:25:45 436

原创 Spark SQL解析过程

Spark SQL解析过程 http://hbasefly.com/2017/03/01/sparksql-catalyst/

2017-09-19 11:07:28 1343

原创 Spark对Hbase 的封装 connector

传统方式spark写Hbase的方式为这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase；本文用SparkOnHbase基于GIT上Clouder开源出来的方法，依赖如下：<dependency>

2017-09-05 14:22:09 2816

原创关于Kafka Reblance的问题

http://www.jasongj.com/2015/08/09/KafkaColumn4/

2017-08-23 13:54:44 1398

原创关于特征选择的几种算法

http://www.cnblogs.com/hhh5460/p/5186226.html

2017-08-15 17:11:30 776

原创 JVM &JMM && 类加载

1.JMMJava内存模型(Java Memory Model，JMM)JMM主要是为了规定了线程和内存之间的一些关系。根据JMM的设计，系统存在一个主内存(Main Memory)，Java中所有变量都储存在主存中，对于所有线程都是共享的。每条线程都有自己的工作内存(Working Memory)，工作内存中保存的是主存中某些变量的拷贝，线程对所有变量的操作都是在工作内存中进行，线程

2017-08-05 17:24:47 346

原创 Spark 内存管理

Storage的存储管理；Execution的内存管理；如何应对内存压力

2017-07-26 21:45:10 383

原创逻辑回归实现

from numpy import * import matplotlib.pyplot as plt import time# calculate the sigmoid function def sigmoid(inX): return 1.0 / (1 + exp(-inX)) # train a logistic regression model using s

2017-07-21 19:47:38 306

原创 Phoenix和Hbase整合

1.什么是Phonenix? Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表，插入数据和对HBase数据进行查询。 Phoenix完全使用Java编写，作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协

2017-06-15 13:45:16 2867

原创 Tomcat实现session共享

目前，为了使web能适应大规模的访问，需要实现应用的集群部署。集群最有效的方案就是负载均衡，而实现负载均衡用户每一个请求都有可能被分配到不固定的服务器上，这样我们首先要解决session的统一来保证无论用户的请求被转发到哪个服务器上都能保证用户的正常使用，即需要实现session的共享机制。在集群系统下实现session统一的有如下几种方案： 1、请求精确定位：sessionsticky，例如

2017-04-10 12:34:42 704

原创 Hbase优化总结

1.关闭自动的split 大 Region 意味着较大的 StoreFile，compaction 时对内存也是一个挑战。如果你的应用场景中，某个时间点的访问量较低，那么在此时做 compact 和 split，既能顺利完成 split 和 compaction，又能保证绝大多数时间平稳的读写性能。compaction 是无法避免的，split 可以从自动调整为手动。只要通过将这个参数值调大到某

2017-04-05 20:09:18 543

原创 Hbase Api 基于1.0.3版本

private static Configuration conf = null;private static Connection conn = null;/** * 获取全局唯一的Configuration实例 * * @return */private static synchronized Configuration getConf() { if (conf == null

2017-03-19 19:55:39 846

原创 Spark取到Kafka，出现ZK和Kafka offset不一致

在项目中用到Spark Streaming读取Kafka，应用的是Kafka的low level的API因此手动的把Offset存储到ZK（每次执行成功后，才更新zk中的offset信息）当中，但是如果出现Kafka出现网络问题或者ZK没有写入到情况就会出现ZK的offset和Kafka的offset不一致。此时就要对比Kafka和ZK中的Offset逻辑：如果ZK中的offset小于 Earl

2017-03-12 17:04:58 1842

spark-redis connector

空空如也