- 博客(7)
- 资源 (25)
- 收藏
- 关注
原创 数据湖数据治理
《基于数据湖架构下的数据治理体系》数据湖数据治理数据湖的数据治理包括元数据的管控、数据资产目录、主数据管控、数据服务、数据全生命周期管理、数据质量提升及隐私与安全管理。(1)元数据的管控 传统的数据仓库将数据存储在关系表中,而数据湖则使用平面结构。每个数据元素被分配唯一标识符,并用一组元数据标签进行标记。这就是说,数据湖没有数据仓库那么结构化。 设计元数据标准及采集方案、元数据应用、管理流程等,形成企业级数据资源目录与全链式数据流通追踪,实现对企业数据资源的清晰堂握...
2021-11-16 15:17:17 2960
原创 ppt制作
读书笔记《你就干不过做ppt的》1.结构清晰简洁2.每一页只用来表达一个观点3.尽量缩短ppt页数在12页内4.目的、问题、原因(让决策者产生危机意识) 解决方案:说明在众多解决方案中,为什么只有该方案是最合 适的。 目标:说明该方案会在什么时候产生多大的效果 计划:说明时间表、组织架构、预算等具体的计划5.汇报资料:计划---结果 说明资料:问题点---解决方案6.对方视角、自身视角、数字视角(强有力的数据)7.取得决策者信任(引导)、获得决策者肯...
2021-11-16 10:50:10 228
原创 python matplotlib 画图出现中文乱码 方块字
python3.6使用import matplotlibprint(matplotlib.matplotlib_fname())找到对应的matplotlibrc文件在文件中找到 #font.family : sans-serif,在下面添加如下内容font.family: Microsoft YaHei代码中添加以下代码# 指定默认字体...
2019-03-28 16:22:29 1092
原创 hbase创建solr索引的超时问题
本次记录一下hbase创建solr二级索引出现的一些问题,传统比较保险的一种做法就是通过java API读取hbase中数据,同时创建到solr中。集群是五台服务器,对于几亿条的数据的数据全表扫描还是很困难的。试过通过列中的时间进行过滤,都会有超时情况出现。rowkey的设计通过几个唯一的字段拼接而成的,分隔符为“|”。首位防止出现热点问题进行hash值处理,取账号字段hash值的最后两位。...
2019-03-15 10:27:28 519
原创 hadoop集群慢盘故障
问题描述:集群节点pbigdata1出现慢盘故障(系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。)平台为华为大数据平台 本以为是系统网络原因导致的故障,顾将系统告警插除。后续再次出现告警,导致集群中组件出现故障。先是ZOOKEEPER出现故障,后出现集群平衡状态异常。若发生此告警,...
2019-03-08 10:18:33 1223
原创 Fat Jar
1. eclipse在线更新方法:help >install new software>填写name 和url name: Fat Jarurl: http://kurucz-grafika.de/fatjar,这个是FatJarUpdateSite.2. eclipse插件安装方法:下载,地址在http://downloads.sourceforge.net/f...
2018-02-24 16:09:41 178
大数据预测
2016-05-26
ssh+bootstrap
2015-12-17
深入分析Java+Web技术内幕
2014-09-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人