自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 资源 (4)
  • 收藏
  • 关注

原创 录信全栈数据库的核心实现原理之将索引创建在hdfs之上

信数据库设计目标是必须能够支撑巨大规模的数据。要想实现这一目标要求其底层存储必须基于分布式文件系统,而绝对不能基于本地文件。Hadoop作为大数据时代的一个标志产物,能否基于HDFS之上创建索引,数据是存储在本地硬盘还是存储在分布式文件系统,对于一个数据库系统有着划时代的意义,是一个区分传统数据库与大数据数据库的一个关键的标致。录信将索引创建在hdfs之上。1.使用本地文件系统的各种弊端。在传统数据库领域,如mysql、oracle、postgresql他们的一个共同特点就是将数据存储在本地,

2020-12-09 11:05:11 383

原创 YDB资源整理汇总

YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试大索引技术大数据的未来YDB技术原理YDB技术原理那些年我们在spark SQL上踩过的坑YDB跟Solr Cloud、ElasticSearch区别YDB安装部署YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环境详解YDB基于原版Ha

2017-03-12 18:26:46 791

原创 YDB,一种Spark快速数据分析替代方案

排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序上进行巨大的投入,

2017-03-12 15:23:22 3700

原创 spark、hadoop、storm、solr、es在车辆分析上的分析与比较

自2012年以来,公安部交通管理局在全国范围内推广了机动车缉查布控系统(简称卡口系统),通过整合共享各地车辆智能监测记录等信息资源,建立了横向联网、纵向贯通的全国机动车缉查布控系统,实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重要作用。随着联网单位和

2017-03-12 14:06:00 6855

原创 超越spark性能数百倍的性能测试

排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序上进行巨大的投入,

2017-03-12 08:26:34 1199

原创 基于spark排序的一种更廉价的实现方案-附基于spark的性能测试

排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。       有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序

2017-03-07 10:38:07 1827

原创 hadoop中的排序新思路-附基于spark之上的性能测试

排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。       有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序

2017-03-07 10:29:17 951

原创 大数据基础环境搭建的从spark到hadoop,从底层硬件到上层软件的一些必备注意事项

一、硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板。合理的硬件搭配,对系统的稳定性也很关键。1.CPU不是核数越高越好,性价比才是关键。      经常遇到很多的企业级客户,他们机器配置非常高,CPU有128 VCore,256G内存,但是只挂载了1块8T的SATA硬盘,千兆网卡。      这样的机器配置比较适合计算密集型的业务,但是如果是IO密集型的业务的话,就会发

2017-03-06 18:03:57 2532

原创 美国可以实现几乎对全球无死角的监控,这是可能的吗?

美国可以实现几乎对全球无死角的监控,这是可能的吗?在技术上是如何做到的?  在中国有类似的技术么?        这几天看了谍影重重5,感触很大。海瑟·李使用的追踪系统真的很强大,只要有一点蛛丝马迹暴力在外面,就会被这个痕迹追踪系统查询到。但是真的存在这样的系统么?        这个痕迹追踪系统,总结起来有两大主要功能,查询是谁做的与查询谁在哪?          事

2017-03-05 17:06:40 4542 2

原创 《谍影重重5》黑科技之即席踪迹查询

美国可以实现几乎对全球无死角的监控,这是可能的吗?在技术上是如何做到的?  在中国有类似的技术么?         事实上,出于国家安全的最高利益考虑,通过收集特定人群的通话记录,位置信息,交易记录,网络行为记录,出行记录,聊天记录等等,并运用大数据、人工智能等技术对数据加以利用,是公共安全行业信息化发展的主要方向。        为保障我国经济的持续快速发展,社会的安全稳定是基础条件。我

2017-03-05 13:38:23 842

原创 《谍影重重5》中的黑科技

为保障我国经济的持续快速发展,社会的安全稳定是基础条件。我国正在投入大量资源,应用包括大数据技术在内的多种高新技术,在公共安全,社会维稳,反恐反爆,案件侦破等多个领域。        事实上,出于国家安全的最高利益考虑,通过收集特定人群的通话记录,位置信息,交易记录,网络行为记录,出行记录,聊天记录等等,并运用大数据、人工智能等技术对数据加以利用,是公共安全行业信息化发展的主要方向。我们已

2017-03-05 12:28:59 931

原创 《谍影重重5》中的黑科技

为保障我国经济的持续快速发展,社会的安全稳定是基础条件。我国正在投入大量资源,应用包括大数据技术在内的多种高新技术,在公共安全,社会维稳,反恐反爆,案件侦破等多个领域。事实上,出于国家安全的最高利益考虑,通过收集特定人群的通话记录,位置信息,交易记录,网络行为记录,出行记录,聊天记录等等,并运用大数据、人工智能等技术对数据加以利用,是公共安全行业信息化发展的主要方向。我们已经看到国内的一些部门和地

2017-03-05 12:19:45 1149

原创 大数据江湖之即席查询与分析(下篇)--手把手教你搭建即席查询与分析Demo

上篇小弟分享了几个“即席查询与分析”的典型案例,引起了不少共鸣,好多小伙伴迫不及待地追问我们:说好的“手把手教你搭建即席查询与分析Demo”啥时候能出?说到就得做到,差啥不能差人品,本篇只分享技术干货,目的只有一个,就是让每一个伙伴都能根据本篇向导搭建出一个“即席查询与分析Demo”。        为了让各位伙伴能够尽快上手体验,所选案例就以上一篇中的“机动车缉查布控即席查询与分析”为例,上

2017-03-05 12:07:06 5492

原创 大数据江湖之即席查询与分析(中篇)--即席查询与分析的典型场景

上篇提到了大数据做数据分析的三种最为典型计算模式:批处理(Batch),即席查询与分析(Ad-hoc),流计算(Stream);对于批处理和流计算,虽然小弟也略知一二,早在Hive还没出来之前,也是从一字一句的写MapReduce代码走过来的,还有后来作为JStorm的Committer,老东家阿里把JStorm贡献给了Apache基金会,也算是在这两个领域有所涉足,不过小弟是领教过一些大神的,这

2017-03-05 12:05:46 2890 1

原创 大数据江湖之即席查询与分析(上篇)--即席查询与分析的前世今生

如今,大数据领域新技术层出不穷,可谓百家争鸣,甚是红火。不乏有些玩家动辄搞出个大数据平台,可谓包罗万象,号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技,有能拿得出手的看家本领已然实属不易。小弟有幸从2010年投身于大数据,并先后就职于阿里和腾讯,见过世面之后,自知才疏学浅,仅专注于大数据即席查询与分析技术。在此将多年所学所做汇聚成文,留下“大数据江湖之即席查询与分析”三部曲,为大数据即席

2017-03-05 12:04:43 1973

原创 YDB函数

第八章YDB函数一、如何区分Spark 的SQL解析层与YDB的SQL解析层      对于YDB系统来说,我们将索引与Spark集成在了一起,但是YDB层的SQL解析与SPARK 层的SQL解析是分别处理,大家可以注意下架构图里面的那两个箭头,注意下Spark层与ydb层SQL解析的位置。1.从架构角度2.从SQL角度看 二、YDB的S

2017-02-25 21:02:39 1225

原创 基于原版Hadoop的YDB部署

YDB依赖环境准备一、硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板。合理的硬件搭配,对系统的稳定性也很关键。1.CPU不是核数越高越好,性价比才是关键。      经常遇到很多的企业级客户,他们机器配置非常高,CPU有128 VCore,256G内存,但是只挂载了1块8T的SATA硬盘,千兆网卡。      这样的机器配置比较适合计算密集型的业务,但是如果是I

2017-02-25 21:00:46 1183

原创 延云YDB版本v1.0.7-beta版本上线

本次新增与改动如下:1,支持多个merger servrer为了应对集群规模越来越大造成的单节点的merger server压力过大,可以通过 ydb.request.split: 4参数,随机选择一定数量的worker担任merger server.2,ydb on spark支持多集群    ydb on spark可以支持同一个表,跨多个ydb集群查询,用以应对单个ydb

2016-01-14 20:57:05 2377

原创 Hermes与开源的Solr、ElasticSearch的不同

Hermes与开源的Solr、ElasticSearch的不同         谈到Hermes的索引技术,相信很多同学都会想到Solr、ElasticSearch。Solr、ElasticSearch在真可谓是大名鼎鼎,是两个顶级项目,最近有些同学经常问我,“开源世界有Solr、ElasticSearch为什么还要使用Hermes?”         在回答这个问题之前,大家可以

2014-12-18 15:40:48 3118 2

原创 大索引技术,大数据的未来

不管你信也好,不信也好,大数据时代真的来临了,随着Hadoop技术的普及,其生态圈发展的越来越壮大,Hive、Hbase、Spark、storm等的一系列新名词不断的涌现在我们的眼里。似乎nosql一夜间,攻陷了全部的大数据阵地。那么传统的关系型数据库的一些思路,真的没有用武之地了么?真的就一去不复返了么?当大数据技术大旗在每个山头摇摆的时候,我们躲在角落里还能做些什么?“索引”,没错,数据库

2014-12-17 11:43:13 2341

原创 Mdrill项目在lucene的改进上的10点心得

word版本地址:https://github.com/alibaba/mdrill/blob/master/doc/Mdrill%E9%A1%B9%E7%9B%AE%E5%9C%A8lucene%E7%9A%84%E6%94%B9%E8%BF%9B%E4%B8%8A%E7%9A%8410%E7%82%B9%E5%BF%83%E5%BE%97.docx?raw=true  

2014-06-12 17:23:42 4495

原创 基于mdrill的大数据分析

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。    mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。

2014-02-18 12:44:11 9250

原创 adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦

adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。2:mdrill旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。3:mdrill是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,jstorm等开源系统作为实现,基于SQL的查询语法。 mdrill是一个能够对大量数据进行分布式处理的软件框架。mdrill是快速的高性能的,他的底层因使用了索引、列式存储、以及

2013-07-24 13:45:38 5182

原创 .带索引的mapReduce

带索引的mapReduce        之前我们跑mapreduce,对某些维度进行统计,都是暴利方式的遍历,有些时候,我们仅仅想扫描原始数据的一部分,或者仅仅是其中的一列,这些数据可能仅仅是原始数据的十分之一,百分之一,那么暴利扫描太不可取了。        回想下我们之前使用数据库的场景,数据库在扫描的时候通常是利用一些索引, 而并非全表扫描,故mapReduce 程序也

2012-11-07 12:44:05 1536 1

原创 带索引的HIVE

hive的查询跟普通的hadoop mapreduce没有什么大的区别,都是对原始数据的暴力扫描,如果能够像数据库那样,使用索引,那么数据扫描的速度将会大幅度提升上次在mapreduce上使用了索引,具体参见下面这个链接http://user.qzone.qq.com/165162897/blog/1351432946这次在这个基础上拓展到hive里(实际上也是一个特殊的inputfo

2012-11-07 12:42:13 5009 1

原创 不需要smtp服务器的邮件发送

工作中总用到需要发送邮件的情形,但是每次都需要一个smtp服务器来转发,他们仅仅是转发而已为了一个简单的邮件还要弄个邮件服务器太麻烦了,Postfix不会装,sendmail也不熟悉。而且如果公司的邮件服务器不稳定(别说你没碰到),总是能遇到邮件发送延迟,甚至丢失的情况干嘛不自己伪造个协议,跳过通过smtp服务器这一层呢?而且可以模拟任何人给任何人发送邮件(虽然可以,但是鄙视发垃圾邮件

2012-03-10 15:57:06 10374 2

原创 星型结构数据一致性的问题(数据同步有可能冲突)

在改版的过程中遇到一个难题,运营要求用户在管理状态和浏览状态使用相同的URL地址,不能像原先使用不同的域名,这个问题对我们可真是一个难题,由于网站访问量比较大,浏览状态下不可能不用缓存,但却要在登陆状态下不使用缓存,所以只能从cookie来判断(同事用nginx做的分组),但要求时时的数据不能从分点直接查北京的库,不然相应慢不说还很消耗专线带宽,看老大的意识是把辅库从北京挪到各各分点,来减少专线带

2008-02-02 23:01:00 2187

原创 【转】怎样把XML+XSLT解释成最终的HTML

今天逛论坛无意中发现了这个贴子,说不上那天能用到这个,保留收藏了。原文楼主可能并不是想问这个问题,单我觉得有用,所以先收藏网友的一个回复,还没有调试。原帖地址http://topic.csdn.net/u/20080117/22/18060aaf-e809-4d77-b1e3-737874cc83b3.html?seed=846373532 string   myXmlString

2008-01-27 19:00:00 1552

原创 javascript跨域请求数据常见的几个变通的方法

跨域问题是由浏览器安全性限制而引起的,可以采取变通的方法解决。方法一,采用动态创建 而这个aspx可以返回一段JS数据,来回调调用页面中的一个JS方法  比如说  showmessage("返回成功"); 这样可以达到隐性提交的目的。(在跨域下可以实现JAX同样的效果)。但这种方法由于URL长度的限制,不能提交太大的数据,和不能进行POST请求,而且你还要又B域的输出控制权。方法二,直接把表单提交

2008-01-27 13:16:00 3044

原创 Berkeley DB for C(2)

Berkeley DB for C(2)DB中存储结构体       如果结构体中不包含指针,则你可以跟存储普通类型的数据一样,安全的使用。       存储不带指针的结构体示例:#include #include typedef struct my_struct {int id;char familiar_name[MAXLINE]; /* MAXLINE是一个常

2007-12-21 18:29:00 1914

原创 .net datagrid.datasource绑定不知道算不是算BUG

最近在做周扒皮的时候,在数据初始话的时候通过datagrid.datasource绑定了一次数据,当侦听到视频文件的时候,又通过datagrid.datasource重新绑定偶尔就会出现列 不属于表 Table的错误 开始的时候还以为是多线程之间的锁让我弄错了,害得我花了一个星期的时间换了各种锁,加了各种try cache,结果都不行 郁闷啊 。在网上看到一位网友的解决办法,加上后问题解决,不过很

2007-12-12 21:47:00 1603

原创 Berkeley DB for C 使用手册

Berkeley DB for C 简单介绍Brekeley DB打开databases在开打数据库前必须通过db_create()方法来初始化一个db句柄, 然后你可以通过他的open方法来打开一个数据库 示例:#include   //必要的包含文件...DB *dbp; /* 数据库结构句柄 */u_int32_t flags; /* 数据库打开标志

2007-12-11 16:40:00 10153

原创 关于c#实现影音嗅探的问题

这几天参考网上的RawSocket初步些了个,但发现丢包现象严重,效果很不理想很多时候都嗅探不出来后来借助httpwatch的API接口页很理想,大家有什么关于.net上的实现思虑么? vb.net或c#都行  下面这个基类是我仿照网上些的using System;using System.Collections.Generic;using System.Text;using System.Run

2007-11-21 23:08:00 4360 2

原创 转载--memcached缓存服务器的安装

一、memcached 的编译安装 准备: Memcached下载地址:http://www.danga.com/memcached/ libevent下载地址: http://monkey.org/~provos/libevent/ 安装步骤: 1. 下载libevent & memcached 源码包      libevent-1.3.tar.gz      memcached-1.2

2007-11-05 15:14:00 2193

转载 学会say no 六大主因让职场人士甘做加班奴

加班虽然已经很普遍了,但并非一定要成为你职业生涯的一部分。别把工作一拖再拖,也不要把来不及完成的工作寄希望于在加班时间内完成。要求自己在有限的时间内高效率地完成工作,不用再打疲劳战了。假如你也是个“加班狂”,不妨想一想,我加班的目的是什么,每天加班1小时,有没有让你的职业生涯向前迈进一小步呢?如果把这些时间用在充电、锻炼或是其他的兼职上,我们会不会赢取更多收获?更多机遇?       在谈职业规划

2007-10-14 22:45:00 4077 2

原创 Cache替换方案

Cache替换方案1.         近期最少使用(LRU)算法  LRU(Least Recentlv Used)算法是将一组中近期最少使用的块替换出去。为此,每块也设置一个计数器,但每命中一次,命中块的计数器清0,而组内其他块的计数器加1。当需要替换时,比较一组内所有块的计数器的值,将计数值最大的块替换掉。这种算法保护了刚拷贝到cache中的新数据块,符合Cache的工作

2007-08-08 23:15:00 3155

原创 Berkeley DB Java Edition 使用手册

Berkeley DB Java Edition使用说明    头一次看英文文档,翻译的不是十分准确,而且还有错误,还请大家多多谅解。一、             简介       Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。l         能够高效率的处理1到1百万条记录,制约JE数据库的往往是硬件系

2007-08-03 10:05:00 18219 5

原创 Berkeley DB Java Edition 基本示例

 package test;import com.sleepycat.je.*;import com.sleepycat.bind.EntryBinding;import com.sleepycat.bind.tuple.TupleBinding;import com.sleepycat.bind.serial.StoredClassCatalog;import com

2007-07-30 21:57:00 4668 3

LXDB-handbook-20211117.docx

lxdb的使用帮助手册,供大家参阅

2021-12-03

mathout in action (pdf)

mathout in action 花了200多在国外买的,作者写了一半,有对 hadoop平台做数据分析 数据挖掘的同时可以下载

2010-07-12

Hadoop_MapReduce教程.doc

hadoop map reduce mapreduce

2010-07-12

C语言函数大全,查询手册

C语言函数大全.chm chm格式 方便大家查询和使用

2009-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除