自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

分布式/云计算实践

积淀 分享 沟通

  • 博客(63)
  • 资源 (22)
  • 收藏
  • 关注

原创 信息检索——向量空间模型(Vector Space Model)

TF:tf 即 term frequency, 表示一个 term t 出现在 document d 中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理w1= log10(tf+1)这样做就是要弱化次数对于相关度的影响DF/IDF:df 即 do

2014-03-25 15:22:28 4199

原创 omitNorms for field in solr schema

1. 首先看一下官方的介绍:http://wiki.apache.org/solr/SchemaXmlomitNorms=true|falseThis is arguably an advanced option.Set to true to omit the norms associated with this field (this disables length normal

2014-03-25 14:14:54 2515

原创 常见 SEC 文件

1. Securities Exchange Commision (美国证券交易委员会网站)http://www.sec.gov/2. Search Company Filings(进入搜索页)http://www.sec.gov/edgar/searchedgar/companysearch.html3. Entry Company Name: facebook(搜索上市公司

2014-01-11 21:03:08 3049

原创 SogoTrade 美股开户指南

1. 选择券商可选的券商主要有几家:SogoTrade,史考特,E-Trade,第一理财,IB 等,这几家中我只介绍 SogoTrade 开户流程。之所以选择 SogoTrade 有几个原因:        1.1 SogoTrade 对普通用户完全够用;        1.2 提供中文客户支持,邮件和电话支持都有,但邮件通常比较慢,基本上要隔天才会回复;        1.3 交

2013-12-31 14:26:07 4191

原创 Flume OG Bug 引发大量重复数据

环境:agent:            default-flow tail("/storage/log/pcclient/action/action1x/action1x.log")       agentDFOSink("collector-host", 35853)collector:       default-flow collectorSource(35853)     col

2012-03-31 14:54:06 2334

原创 Flume OG 编译

1. git clone https://github.com/cloudera/flume.git2. git checkout 0.9.4-branch           0.9.4 是目前的稳定版本3. 修改flume/pom.xml    /usr/local/bin/thrift           注:thrift 必須是0.6.0版本,否则编译通不过4. 执行 mvn

2012-03-26 19:32:45 1000

原创 Flume OG & Flume NG

前话Flume OG 也就是 Flume original generation 由 Cloudera公司开发,最新版本是0.9.4。而Flume NG 就是 Flume next generation, 大概在2011年6月份由 Cloudera贡献给开源社区,目前属于Apache的一个incubator project。为什么要命名为Flume NG ?Flume NG的J

2012-03-24 17:21:47 2041

转载 Web服务请求异步化介绍(概念篇)

Author:放翁(文初)Date: 2010/6/28Email:[email protected]围脖: http://t.sina.com.cn/fangweng 前话         在前面的文章中,先给出了Web服务请求异步处理的压力测试报告,从数据角度描述了支持Web请求异步化的容器在不同并发用户下的处理能力及性能消耗。本文从概念的角度对于应用系统异步化,W

2012-03-23 10:30:51 572

翻译 Apache Flume – Architecture of Flume NG

This blog was originally posted on the Apache Blog:https://blogs.apache.org/flume/entry/flume_ng_architectureApache Flume is a distributed, reliable, and available system for efficiently collectin

2012-03-22 18:37:33 1581

转载 中国古代音律常识

中国古代音律常识 【钟】 古代乐器,属八音之一金类。青铜制,悬挂在架上,用槌击而鸣。西周中期开始有用十几个大小不等的钟组成的编钟。也有单一的,称为“特钟”。有的口缘平,有悬纽,又叫“鎛”,盛行于东周时代,是从钟发展来的形式。《石钟山记》:“微风鼓浪,水石相搏,声如洪钟。”又:“余方心动欲还,而大声发于水上,噌吰如磬磬钟鼓不绝。”《庄暴见孟子》:“百姓闻王钟鼓之声,管龠之音。”苏轼《日喻》:“他

2012-03-15 12:58:39 3592

转载 爵士、古典、摇滚、流行音乐

是音乐风格区分。摇滚和爵士,都属于流行音乐类。大的分类应是:古典、流行、民族、等。古典简单分类为:如交响乐等。民族:各国的民族音乐。流行音乐大致分类:摇滚、雷鬼、R\B、流行音乐、说唱、电子乐、布鲁斯、爵士等。摇滚音乐大致又分类:流行摇滚、金属摇滚、硬摇滚、死亡金属摇滚、另类摇滚、艺术摇滚、布鲁斯摇滚、旁客、fangke、等等。爵士音乐大致分类:流行爵士、融合爵士、摇滚爵士、传统爵士、电子乐爵士、

2012-03-11 22:37:30 2111

原创 乐理基础-和弦学习笔记

大调小调?我们这样来区分大调小调, 前三个音是大三度音程的为大调音阶,前三个音是小三度音程的为小调音阶。也可以这么认为:以1 (Do) 为主音的调式叫做大调,以6(La)为主音的调式叫做小调。关系大小调?  所谓关系大小调,或称“平行大小调”,是指调号相同的一对大小调,它们互相为对方的关系大调或关系小调  例如C大调和a小调互为关系大小调:C自然大调和a

2012-03-11 19:33:22 1913

转载 和弦知识详解(关于和弦组成、编配、即兴)

和弦的构成!献给初学者和进阶的吉他手们!吉他上的和弦有九千多个,我们怎么记亿这么多的和弦呢?先来看看C系列的和弦。和弦名称     组成音          记法 C大三和弦     1 3 5          C C小三和弦     1 b3 5         Cm C增和弦      1 3 #5         Caug C减和弦      1 b3 b5

2012-03-11 19:02:31 6895

转载 Django自动生成Admin后台管理页面

Django自动生成Admin后台管理页面 参考资料:https://docs.djangoproject.com/en/1.3/intro/tutorial02/#activate-the-admin-site其它说明:1. 有时候想根据己有数据库生成Model,Django也是可以做到的:python manage.py inspectdb >models.py

2012-01-17 17:36:36 1532

转载 Kerberos 原理

博客分类: LinuxKerberos是一个重要的认证协议,它为互不相识的通信双方做安全的认证工作。Kerberos这个名字的原义是希腊神话中守卫冥王大门的长有三头的看门狗。这是MIT(Massachusetts Institute of Technology)为了帮助人们理解Kerberos的原理而写的一篇对话集。里面有两个虚构的人物:Athena和Eurip

2011-12-09 20:07:55 1099

转载 Building an Hadoop 0.20.x version for HBase 0.90.2

As of today, Hadoop 0.20.2 is the latest stable release of Apache Hadoop that is marked as ready for production (neither 0.21 nor 0.22 are). Unfortunately, Hadoop 0.20.2 release is not compatible wi

2011-12-07 14:56:54 1023

原创 Hadoop如何使用Lzo压缩

http://wiki.apache.org/hadoop/UsingLzoCompressionhttp://hadoop.apache.org/common/docs/current/native_libraries.html编译native:ant -Dcompile.native=true

2011-12-07 14:46:20 468

原创 hadoop-0.20.205.0 编译并导入到eclipse

尝试编译hadoop-0.20.205这个版本,编译过程出现了如下小错误:/home/user/github/hadoop-common/build.xml:1611: /home/user/github/hadoop-common/build/hadoop-0.20.205.1/native not found.以上提示是在说native目录没有找到,hadoop引入了本地库的概念,通过本地

2011-12-06 20:09:01 1348

转载 lanmp v2.0一键安装包发布(包括lamp,lnmp,lnamp)

感谢wdlinux的投递lanmp一键安装包是wdlinux官网2010年开始推出的apache,nginx,php,mysql,zend,eAccelerator,vsftp应用环境的快速简易安装包,执行一个脚本,整个环境安就完成就可使用,方便易用,安全稳定。此次2.0版本的更新发布1 增加了nginx+apache组合环境的应用,也即是nginx前端处理静态,图片等,apc

2011-11-21 17:20:42 635

转载 Lucene学习总结之二:Lucene的总体架构

Lucene总的来说是:一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图,说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。

2011-11-10 15:56:01 441

转载 Lucene学习总结之一:全文检索的基本原理

一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具有固定格式或有限长度

2011-11-10 15:55:25 467

转载 puppet

什么是puppet  puppet是一种Linux、Unix平台的集中配置管理系统,使用自有的puppet描述语言,可管理配置文件、用户、cron任务、软件包、系统服务等。puppet把这些系统实体称之为资源,puppet的设计目标是简化对这些资源的管理以及妥善处理资源间的依

2011-10-15 13:32:55 1331

转载 Xmemcached的FAQ和性能调整建议

一些常见的关于xmemcached的问题,收集整理,集中解答在此。事实上这里的大部分问题都可以在用户指南里找到。一、XMemcached是什么?经常碰到的一个问题是很多朋友对memcached不了解,误以为xmemcached本身是一个缓存系统。Memcached是一

2011-09-25 12:47:04 1019

转载 我的Java学习推荐书目

一直有这么个想法,列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍,给初学者或者想深入的朋友一些建议,帮助成长。推荐的的都是我自己读过,也会推荐一些朋友读过并且口碑不错的书籍。一、基础类1、《Thinking in java》,入门第一位是建立正确的概念。

2011-09-25 12:33:31 700

转载 对云计算中几种基础设施(Dynamo,Bigtable,Map/Reduce等)的朴素看法

前言    云计算的概念近期可谓如火如荼,备受关注。我先前听到“云”这个名词时,很是觉得太过玄乎——也不知道它用在哪里,更不了解它如何实现,总有雾里看花的感觉!    好在近期工作需要的缘故,学习和开发过类似于“云计算”基础设施的内部系统,之后再回过头来看看业界两大寡

2011-09-24 14:19:29 613

转载 解读NoSQL代表Dynamo

NoSQL在过去的一年里,逐渐已经成为了家喻户晓的东西,我(54chen)自从去年开始人人网的NoSQL系统Nuclear的研发以来,一直 看着NoSQL越来越热,越来越引来大家的围观。受infoQ霍师傅之托,特作此文,一来作过去一年的总结,二来希望以平白的话语对NoSQL系统在

2011-09-22 10:12:51 600

转载 海纳百川——人人网海量存储系统Nuclear开发手记

此文为《程序员》杂志约稿,发表在2010年9月刊。怀念过去美好的时光和所有的UGC兄弟真挚友谊,谨以此文为个人职业发展阶段作一个美好的终结。以下是全文原稿。2009年8月左右,由于业务扩展的需要,我们的团队开始了一个新项目的研发,其中需要完成一个存储系统,把评论数据聚合到

2011-09-22 10:11:54 857

转载 存储云结构比较——Dynamo VS Bigtable

存储云结构比较——Dynamo VS Bigtable 比较典型的存储云基础系统有Amazon公司的Dynamo系统与Google公司的Bigtable系统,这两种系统不但已经开始是商用(参见S3服务和 Google App Engine服务),而且都公开了比较详细的

2011-09-20 19:02:43 1040

转载 Cassandra 卓越点 写操作 单点故障 读操作缓慢

http://hi.baidu.com/yandavid/blog/item/f5f72d9bcc93c1a4c8eaf41a.html Cassandra的写性能表现卓越这一点众所周知,Cassandra最好运行在多台机器上.据知,Twitter使用了一个45台机器组成

2011-09-20 16:48:28 1335

转载 memcache一致性 hash 算法(consistent hashing)

consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在 cache 系统中应用越来越广泛;1 基本场景比如你有 N 个 cache 服务器(后面简称 cache ),那

2011-09-14 17:10:36 670

原创 优酷网架构学习笔记

记得以前给大家介绍过视频网站龙头老大YouTube的技术架构,相信大家看了都会有不少的感触,互联网就是这么一个神奇的东西。今天我突然想到,优酷网在国内也算是视频网站的老大了,不知道他的架构相对于YouTube是怎么样的,于是带着这个好奇心去网上找了优酷网架构的各方面资料,虽然谈得

2011-09-10 11:45:09 641

转载 HBase随机写以及随机读性能测试

http://feed.feedsky.com/bluedavy根据最近生产环境使用的经验,更多的项目的采用,以及采用了更加自动的测试平台,对HBase做了更多的场景的测试,在这篇blog中来分享下纯粹的随机写和随机读的性能数据,同时也分享下我们调整过后的参数。

2011-08-27 12:59:48 1327

原创 hbase replication

hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善,但是今后必然会变得更加重要。 hbase的replication机制很像mysql statement-based replication

2011-08-24 17:35:23 850

原创 hadoop-vfs(fuse_dfs)线上问题定位

问题现象:hadoop-vfs挂载目录显示乱码,且list目录时出现input/output error.-rw-r--r--  1 ***** *****   13366 2010-02-19 08:55 ********.txt drwxr-xr-x  3 ***

2011-08-23 15:32:32 1378

原创 natch常用的几个类

抓取目录分析一共生成5个文件夹,分别是:l         crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.l         linkdb目录存放URL的互联关系,是下载完成后分析得到的.l         segmen

2011-08-21 19:42:06 432

原创 Nutch Crawler工作流程及文件格式详细分析

Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。一、总体介绍:1、先注入种子urls到crawldb2、循环:    * generate 从crawldb中生成一个url的子集用于抓取    * fetch 抓取上一小的ur

2011-08-21 19:41:24 423

转载 Nutch搜索引擎系统架构

下面分析一下Nutch搜索引擎系统的特点。一、系统架构  总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓 取程序和搜索程序的接口是索引,两者都使用索引中的字段。抓取程

2011-08-21 19:40:01 625

原创 nutch1.3+hadoop0.20.2+solr3.2搭建

一 简介1 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. Nutch必须能够做到:  * 每个月取几十亿网

2011-08-20 21:20:23 967

原创 Subversion 用户眼中的 Git (10): Git 命令行的人性化设计

Git 命令行的人性化设计?刚刚接触 Git 的 SVN 用户一定不予认同。 因为在 SVN 用户看来,co 必须严格写成 checkout, ci 必须严格写成 checkin,st 必须严格写成 status 的版本控制系统,怎么能说成人性化? 容我慢慢道来。Git 命令

2011-08-16 11:43:51 665

原创 Subversion 用户眼中的 Git (9): 单亲 VS 多亲

SVN 和 GIT 对比的系列博文尚有几篇一直放在草稿中,处于构思阶段,今天从故纸堆里检出来(checkout?) 我们在《Subversion 用户眼中的 Git (7): 完全不同的分支和里程碑的实现》中介绍过,Git 和 Svn 的分支实现机制完全的不同,这也直接导致了

2011-08-16 11:43:31 474

恢复中exe文件夹病毒的文件

恢复中exe文件夹病毒的文件 执行该bat文件即可

2010-01-15

jira使用MySql数据库

jira使用MySql数据库配置说明 详细配置

2009-12-09

C++面象对象课程答案

C++,面象对象,系统分析,软件工程 大四计算机课程

2009-01-06

不规则窗体&异形窗体

不规则窗体&异形窗体 Visual C#编写

2008-11-24

DynamicMenu动态创建菜单

DynamicMenu动态创建菜单 C#,菜单,数据库,XML

2008-11-24

Visual C#重绘标题栏

C#,WinForm,重绘 C#重绘标题栏

2008-11-24

RichTextBox设置颜色

RichTextBox,C#,VS RichTextBox设置颜色 RichTextBox设置颜色实例

2008-11-24

DES加密算法源代码

DES加密算法源代码(C++类) DES加密算法源代码(C++类)

2008-11-24

利用Visual C++制作应用程序启动画面

使用启动画面一是可以减少等待程序加载过程中的枯燥感(尤其是一些大型程序);二是可以用来显示软件名称和版权等提示信息。怎样使用VC++制作应用程序的启动画面呢?本文提供四种方法,前三种适用于基于文档的应用程序,第四种适用于基于对话框的应用程序。

2008-11-24

Visual C++学习笔记

以上方法常用于动态生成控件,虽说用控件的Create函数可以动态生成控件,但这种控件很不好控制,所以用隐藏、显示方法不失为一种替代手段。

2008-11-24

个人积累的SQL存储过程

SQL,SQL Server,存储过程,C# 执行带参数的存储过程 sql 存储过程返回值 C#

2008-11-24

WinSock异步事件

WinSock,sockets,异步,完成端口,重叠IO 老陈非常想看到女儿的信。以至于他每隔10分钟就下楼检查信箱,看是否有女儿的信~~~~~ 在这种情况下,"下楼检查信箱"然后回到楼上耽误了老陈太多的时间,以至于老陈无法做其他工作。 select模型和老陈的这种情况非常相似:周而复始地去检查......如果有数据......接收/发送.......

2008-11-24

创建一个简单的MFC窗口

创建一个简单的MFC窗口.rar(15.25K),可能对大家有帮助

2008-10-25

PL0词法语法分析器

我的编译原理课程设计,请大家多多指教!!!

2008-10-25

3DS Max自动漫游动画

3DS Max自动漫游动画.doc(21.04K)自己整理资料

2008-10-25

3dmax打造真实火炬

3d,3ds max,动画,使用3ds max 打造真实火炬

2008-10-25

操作系统教程&网络工具使有教程

OS,操作系统,Windows,Linux,Netstat 个人收集,讲到了windows操作系统的启动,Linux操作系统的启动

2008-10-25

C#面试题解答-经典C#面试题解答

C#面试题解答-经典C#面试题解答.txt

2008-10-25

商品进销存管理系统

VC++ 开发的一个大型进销存管理系统,并附带有Visio的数据库开发模型,商品采用分类管理.但是各位同仁需要注意,本系统的开发过程是基于VC++6.0 SQL Server2000的基础之上开发的.但是为了方便大家,故而把数据库导出成了ACCESS.由于转换问题,运行过程会出现很多错误,大家如果用得上的话不妨按格式转到SQL Server上. SellEvent和ClassName为两个视图.根目录下有一个DB_CONN.ini的配置文件,数据库访问方面可以在此设置.<br>如有问题请联系:冯赞锋<br>E_mail:[email protected]<br>QQ:315405572<br>

2008-01-23

VC++ MIS员工管理系统

登陆密码:请查看ACCESS数据库的Login表中<br>可以使用<br>用户名:a<br>密码:a<br>管理权限:技术组长登录<br>这是一年前写的,功能还不完善,希望大家批评指正

2008-01-15

VC++ ADO SQL Server

VC++利用ADO连接局域网上的SQL Server服务器前提是要先在SQL Server服务器上注册一个管理权限E_mail:[email protected]

2008-01-15

网络开机(含源码)

网络开机(含源码)此软件根据我所在部门而写,如有疑问请联系:315405572

2007-12-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除