自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(79)
  • 资源 (9)
  • 收藏
  • 关注

原创 中小公司数据治理最佳实践-各个阶段准则及可采取措施

数据中台使命: 功能 数据源&数据接入 数据处理 数据服务 数据全面 业务状态数据(用户状态) 业务过程数据(用户状态变更记录) 公司运营(比如审核),后台过程数据(比如推荐算法中间结果) 数据准确 数据接入:明确数据业务背景,数据业务意义 数据变更:更及通知 数据源可靠性,上游异常及时报警 处理过程..

2020-07-28 21:03:46 247

原创 理想开发流程

想到哪,写到哪;数据开发作为独立流程的开发流程一、需求提出阶段解释:产品经理提出的新业务需求参与人:产品经理、数据分析师负责人:产品经理要求:1.产品经理(数据分析师)一起给出评估产品功能效果的数据指标,及预期的指标数值范围2.数据产品保证约定口径是可行的,并且确认现有上游数据的可用性3.说明数据重要等级,使用人群产出:预期收益;在wiki上的功能需求文档,必须包含业务验证阶段的埋点/数据需求;二、技术评审解释:产品需求进行技术评审阶段/技术发起项目进入技

2020-07-28 20:46:05 308

原创 中小公司数据治理最佳实践-数据接入

数据接入准则:意义:规范的数据接入能大大减少后续的维护及使用代价规定:意义明确:(有实时更新的wiki说明)(数据中台-元数据负责) 日志级别:明确说明在整个公司业务流程中的位置 记录级别:每条日志的打印时机和对应业务操作对应关系 字段级别:每个字段的具体意义,比如:枚举和业务的对应关系; 格式规范:(流程规范性负责) 最佳实践要求: 扩展性 易读性 后续解析代价 压缩 范例:可以考虑无格式,tag分割,json,protobuf (越来越严格,

2020-07-28 20:44:43 608

原创 中小公司数据治理最佳实践-总则

公司背景:五脏俱全小公司 数据团队在公司定位:公司内所有生产数据(商业/用户/内容)(ERP系统不在其内)管理,并使其发挥最大价值 时间进化过程:从0-现在-理想流程&框架过程 以下为其现在技术架构图: 技术架构图后续内容会从各个流程的实现&部署&实施过程的问题及解决方面进行讲解,欢迎大家讨论...

2020-07-28 20:40:46 161

翻译 pod setup太慢终极解决办法

当我们去执行pod setup的时候,会发现那是一个相当的慢。估计一天的时间都浪费再这上面。这是因为使用的国外的镜像,只要使用国内的镜像就很好的解决了。只要使用 cd ~/.cocoapods/repos然后 执行 pod repo remove master来删除master文件再执行 git clone https://mirrors.tuna.tsinghua.edu.cn/git/C...

2019-08-08 11:09:52 246

原创 Leveldb lmdb性能对比

测试机环境: 96G内存 433G*5SSD 内核:2.6.32_1-15-0-0 磁盘调度算法:noop结论: 1. lmdb的数据膨胀率大约为leveldb的1.5-1.8倍之间,需与comdb对比 2. lmdb在单盘5M写入状态下仍能满足要求(leveldb不能): Percentile Latency(max la...

2018-07-16 17:25:04 5040 1

原创 子数组求和

子数组元素求和题目一:连续子数组求和/** * 题目:连续子数组求和 * 给定一个整数数组,请找出所有的连续子数组,计算所有的子数组的和,输出子数组和相加的结果。 * * 例如: * 数组 [1, 3, 7]有7个子数组: * [] [1] [3] [7] [1,3] [3,7] [1,3,7] * 子数组相加后...

2018-07-06 21:15:37 1415

原创 线上问题集锦

hdfs上的文件要做md5sum(如果是自己输出可以做的话),保证下载文件的正确性自己数据引擎要有验证文件正确性机制,防止任意内容导致的引擎程序读错误(core)...

2018-06-19 15:29:08 186

原创 在ubuntu机器安装keras cuda

在ubuntu机器安装keras cuda查看网卡命令lspci 看到有3D controller: NVIDIA Corporation Device00:00.0 Host bridge: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)00:01.0 ISA bridge: Intel Corporatio...

2018-05-11 17:03:32 498

翻译 Reliable, Scalable, and Maintainable Applications 高可靠、易扩展、易运维应用

寻找翻译本书后续章节合作者  微信:18600166191----------------------------------PART I Foundations of Data Systems第一部分:数据系统基础The first four chapters go through the fundamental ideasthat apply to all data systems, whet...

2018-03-02 19:02:07 2093

翻译 Designing Data-Intensive Applications

寻找翻译本书后续章节合作者  微信:18600166191-----------------------------------Designing Data-Intensive Applications The Big Ideas Behind Reliable, Scalable, and MaintainableSystems数据密集应用系统设计高可用,易扩展,好运维系统背后的思想Beijin...

2018-03-02 18:59:23 2493 1

原创 滑动窗口限速 周期抖动现象

异步压测 vs 同步压测场景介绍 利用baidu rpc_press工具的进行单client 与单server的压测。利用同步测试模式 最大能力压测,qps 23000,cpu利用率85%, cpu是瓶颈利用异步压测方式,设定单线程滑动窗口2000,进行压测 初始时平均时延1ms,没有长尾。cpu利用率45%左右,随着时间进行,平均时延逐渐增长,开始有长

2018-01-30 21:00:45 809

原创 Python woe 0.0.7 源码解析

Python woe 0.0.7 源码解析

2017-09-30 15:58:14 4078

原创 TensorFlow Servering源码解析(2017-8-17)

步骤一:建议先通读TensorFlow Servering官网,对整体概念有大体的认识步骤二:去TF github下载源码。注意,同时下载tensoflow源码,servering会依赖其中的一部分步骤三:开始源码解析目录介绍:api 对外服务接口部分batching 不知道在干啥config Server的配置参数core 模型管理核心部分。包括模型发现,加载,本机资源管理

2017-08-17 17:22:35 2999 1

原创 集群高可用性

基础介绍: hadoop2.0 HA方式 QJM[http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html] NFS [http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop

2017-05-29 15:06:46 334

原创 paxos zab raft个人理解

paxos zab raft

2017-05-16 20:33:43 3168

转载 Paxos Made Simple【中文翻译注解】

paxos理解

2017-05-16 19:54:06 3660

原创 电子商务平台

ecshop:开源 商业应用需缴费。 ShopEX :后端没有源码,前端有源码,需缴费 。有钱最方便前两者占据90%市场份额magento:开源免费,学习维护成本高。 WooCommerce:wordpress 插件,开源免费 最易上手

2016-05-14 20:39:55 629

原创 linux reactor predictor

linux对于aio的支持落后,导致linux下reactor模式效率高于predictor,所以linux很多网络库( libevent )用reactor模式实现。 而windows系统对aio的支持更好。

2016-04-20 11:27:00 527

转载 reactor/proactor模型简介

Reactor和preactor都是IO多路复用模式,一般地,I/O多路复用机制都依赖于一个事件多路分离器(Event Demultiplexer)。分离器对象可将来自事件源的I/O事件分离出来,并分发到对应的read/write事件处理器(Event Handler)。开发人员预先注册需要处理的事件及其事件处理器(或回调函数)。Reactor模式采用同步IO,而Proactor采用异步I

2016-04-20 11:10:37 315

转载 Reactor与Proactor的概念

1、标准定义 两种I/O多路复用模式:Reactor和Proactor一般地,I/O多路复用机制都依赖于一个事件多路分离器(Event Demultiplexer)。分离器对象可将来自事件源的I/O事件分离出来,并分发到对应的read/write事件处理器(Event Handler)。开发人员预先注册需要处理的事件及其事件处理器(或回调函数);事件分离器负责将请求事件传递给事件处理器。两个与事件

2016-04-20 10:48:34 298

原创 ssd/内存 基本知识

NAND闪存与NOR闪存 异同 http://www.360doc.com/content/08/0910/20/494_1629259.shtmlNorFlash和NandFlash性能区别 http://blog.csdn.net/jxhui23/article/details/8113217闪存基础(硬件组织形式,为啥会有block为单位的读写) http://www.ssdfans.c

2016-04-09 12:25:04 541

原创 aerospike 代码阅读

hb.hsuccession(长期对话) list在集群中的机器列表 adjacency list心跳过程中传过来本次在线机器列表(用来更新succesion list),定期检查发现expire放入delete 列表中。 discovered list ,收到心跳,但是没有链接,新发现的机器列表。 snub(昏暗的,要死的) list机器列表,从delete 列表中删除后放入此列表. 接收

2016-04-06 15:44:40 689

原创 计算机知识金字塔

上图为计算机知识金子塔,开始从底层娃娃抓起

2016-04-04 13:51:51 671

原创 memcache 1.4.24源码分析

内存管理 最底层为slab。/* powers-of-N allocation structures */typedef struct { unsigned int size; /* sizes of items */ unsigned int perslab; /* how many items per slab */ void *slots;

2016-03-26 10:41:13 556

原创 在线系统设计考虑点

以下是一个复杂在线系统设计需要考虑点访问追踪(debug)系统。(单模块系统可以用日志,多模块系统需要更加queryid组合)

2016-02-17 14:01:20 396

原创 知识树

技能树

2016-02-15 20:46:23 659

原创 分布式存储系统,问题层级

面对问题1. 机房问题2. 路由器问题3. 机架问题4. 路由器问题5. 单机问题(内存,网线,ssd,raid卡)6. 操作系统问题(内核参数,驱动)7. 运行环境问题(依赖库,包,环境变量)8. 程序问题

2016-02-15 16:27:16 483

原创 《黑客与画家》读后感————一堆个人谬论

以下定义及观点都是个人随口胡诌。 电子商务是人类社会自然选择的正确方向。人类所有活动的动机都是为了增加人生的满足感。(当前满足感以及未来满足感的不对等性,以及未来的不确定性,此处不能简单求和)。 今天早晨在火车上7:30起床看书,为了收获30%的短期读书充实感,及70%对未来生活概率性改善的长久欣慰感。写本文时听着侃侃的《嘀嗒》,为了增加短期舒适感。午饭第一次去火车餐车用餐,满足好奇心。1.

2015-11-15 21:46:43 746 1

原创 redis,mongodb,hbase,mola,aerospike,couchbase,对比

项目 mongodb hbase redis 数据格式 json 二进制 多种类型 固化方式 自己的文件格式 一般架设在hdfs上,可以认为是一个分布式内存索引系统 有两种固话方式,操作日志/数据 负载均衡 可以自动均衡 自动均衡,迁移 手动指定分片在哪个机器上 主备方式 副本集方式,自动切换 分布式内存索引,无主备 指定主备

2015-11-05 22:39:28 2293

原创 c/c++编程习惯

1. 不要在头文件中define(除了文件保护头之外)。加入别人include你的头文件之后,会将define拿走,也许会产生冲突。

2015-09-23 15:52:54 464

原创 我眼中的互联网经济

互联网经济

2015-07-25 12:01:27 633 1

原创 3Sum Closest (leetcode 16)

3 Sum Closest

2015-07-22 10:57:17 428

原创 3Sum (leetcode 15)

3Sum

2015-07-21 22:59:39 314

原创 Excel Sheet Column Number (leetcode 171)

Excel Sheet Column Number

2015-07-15 23:00:22 415

原创 House Robber II (leetcode 213)

House Robber II

2015-07-12 21:57:05 374

原创 House Robber (leetcode 198)

House Robber

2015-07-12 19:46:45 384

原创 Isomorphic Strings(leetcode 205)

Isomorphic Strings

2015-07-12 19:10:08 471

原创 Reverse Bits (leetcode 190)

Reverse Bits

2015-07-12 18:46:15 356

原创 Remove Linked List Elements (leetcode 203)

Remove Linked List Elements

2015-07-12 18:02:56 412

前60页-大数据多维分析文章合集 .pdf

前60页-大数据多维分析文章合集 .pdf

2021-07-01

Leveldb lmdb性能对比

Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比Leveldb lmdb性能对比

2018-07-16

计算广告相关文档

目标读者: 有一定计算机基础知识读者,比如熟知操作系统层面内存,磁盘/ssd/网络通信基础知识,知晓分布式系统基本原理,包括两阶段提交,CAP理论,paxos协议等常识。本书不会介绍以上概念,只会说用到此概念解决了什么问题。如若不明,需要读者自行百度之。 写作目的: 1. 此文可以作为各具有类似功能的开源系统的功能点,优缺点对比手册,帮助您在将来的技术方案选择中根据具体要求快速做出决定。 2. 读者根据此文档可以迅速了解到系统设计者在设计中的核心思想,影响设计者作出这样设计选择的关键因素是什么。设计师是如何取舍的。

2018-07-07

Serial ATA Revision 3.0

Serial ATA Revision 3.0 Serial ATA Revision 3.0 Serial ATA Revision 3.0 Serial ATA Revision 3.0 Serial ATA Revision 3.0

2017-10-20

PCI Express System Architecture

Addison-wesley,.pci.express.system.architecture. Addison-wesley,.pci.express.system.architecture.

2017-10-20

ISA3.0协议

ISA 协议官方文档 ISA System Architecture(Third Edition)

2017-10-20

ssd原理分享

pn节 ssd sata NVMe PCI PCIe相关知识 pn节 ssd sata NVMe PCI PCIe相关知识

2017-10-17

wuhuaiyu 2017答辩ppt

2017-04-29

各种单机存储引擎测试对比

comdb leveldb redis lmdb性能对比

2016-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除