自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xlvector的专栏

Vector Space

  • 博客(79)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫的困惑:下一步走向何处

最简单的表述,爬虫的作用就是从一个起始页面开始,抓取整个互联网。但是,互联网太大了,一个爬虫显然不可能抓取整个互联网。那么最简单的想法是,先抓取比较重要的网页,然后再抓取比较不重要的网页,同时比较频繁的更新重要的网页。这样问题就出来了,爬虫怎么知道什么网页是重要的?也许有人说,不是有pagerank算法吗?但是,pagerank是在爬下网页后根据网页之间的超级连接计算出来的,现在爬虫什么也没爬,他

2008-12-02 16:30:00 2906 2

原创 图可视化工具 GLDF : Graph Layout tool

GLDF : Graph Layout by Directed Force最近一直在研究复杂网络的问题,可视化是复杂网络中的一个重要工具,Directed Force的可视化算法可以显示出网络中的一些结构,比如聚类结构。为此写了一个可视化工具,用的 Qt for windows. 可以移植到Linux下面。可以处理1000个顶点的图的可视化(在普通PC机上测试),支持鼠标的拖动,选择等交互。支持P

2008-09-19 12:36:00 3895

原创 Firefox 扩展中文化实例教程

这篇文章讲解发irefox扩展中文化还不错 http://hall.sociz.com/index.php?showtopic=6490 不过我还没有调试通过,呜呜

2008-06-16 16:35:00 2399

原创 关于小规模垂直搜索的想法

如果我们要对某一个事件有一个具体的了解,比如这几天的欧洲杯,当然我们可以上新浪,搜狐。但这个时候,如果有个专门针对欧洲杯的垂直搜索,把各地的资源整合起来应该是一个不错的选择。不过,这种针对一个很窄的领域的垂直搜索,大概也不会处理超过10w张网页,如果我们用C++写后台的爬虫索引,用php写前台的页面,系统就显得太复杂了,维护起来也不方便。 于是我设想用php + mysql来实现一个能处理50W

2008-06-14 21:39:00 2033

原创 娱乐361 图片搜索

大家可以用以下娱乐361的图片搜索,主要是针对明星,影视等娱乐图片目前娱乐361的图片搜索还没有独立出来,大家可以搜索空间,然后查看相册http://www.yule361.com娱乐搜索引擎另外有一个明星贴图的页面http://image.yule361.com/space/imageyl/mingxin.php我相信我们的搜索结果准确度是超过了现在绝大多数的搜索引擎

2008-06-07 22:41:00 3077

原创 4.17号alexa排名算法变化

http://www.zhanghangfeng.cn/post/1051.htmlThe New Alexa RankingsWeve been working hard behind the scenes for several months and are excited to announce that our new Alexa Rankings system is avail

2008-05-09 14:58:00 2318

原创 网站日志系统的设计(一)

如果要监测一个网站的流量,日志系统肯定是少不了的,可以用google analytics。但如果自己设计,可以获取更多的信息。最简单的日志系统,是用服务器脚本,比如php来记录,这其实和apache的记录差不多。但这种方法无法跟踪用户的点击和鼠标。所以这种方法就不介绍了。用javascript来设计网站的日志系统,可以用两种方法设计,Ajax或者script方法(这个方法没有标准的名字,所以暂时叫

2008-05-08 11:49:00 5259

原创 图片搜索引擎搜索结果的显示

因为搜索引擎搜索出来的图片大小各异,所以结果的排版显示比较困难,经过一个下午的研究,最终用一段javascript实现了如下的排版。http://i.cindoo.com/space/image/image.php?sid=2557&&name=%CC%C0%CE%A8这个排版时MSN Live Search中的图片排版。首先图片的显示还是用table完成的,但是如何让图片按比例缩小,一开始总是觉

2008-04-08 17:17:00 2708

原创 C++初学者应该关心的优秀图书一览

1.The C++ Programming Lanuage, by Bjarne Stroustrup, Speical 3rd edition,Addison Wesley  这是C++创始人B教主之力作,描述C++语言之经典一书。这本书第三版是97年出的,B教主老人家给这本书开了个网页http: //www.research.att.com/~bs/3rd.Html,2000年,又出了个S

2008-01-17 12:46:00 2428

原创 C++ 中短字符串的快速算法

如果我们在实际工程中,碰到的字符串都是小于8个字节的短字符串,我们可以通过以下的方法优化来提升系统的性能就是将字符串pack到一个64位整数里。下面的算法将短字符串转换为一个整数inline void convert(const string & buf, uint64 & n) ...{      n = 0;      int length = buf.length();      f

2008-01-16 21:05:00 2588

原创 javascript:如何获得鼠标在屏幕上的位置

在web设计时,常常需要获得用户鼠标的坐标,可以用以下方法得到function mouse_pos(e) ...{   if (!e) var e = window.event;   if (e.pageX || e.pageY)     ...{      posx = e.pageX;      posy = e.pageY;   }   else if (e.clientX || e

2008-01-16 08:12:00 5672

转载 经典的C++库

基础类 1、 Dinkumware C++ Library参考站点:http://www.dinkumware.comP.J. Plauger编写的高品质的标准库。P.J. Plauger博士是Dr. Dobbs程序设计杰出奖的获得者。其编写的库长期被Microsoft采用,并且最近Borland也取得了其OEM的license,在其C/C+ +的产品中采用Dinkumware的库。

2008-01-16 08:04:00 3202 3

原创 搜索引擎技术:标题去重 如何快速判断两个字符串的相似度

判断两个字符串的相似度很容易,关键是如何提高速度。在搜索引擎中,往往有上百万的网页,怎么去重。速度最快。下面用一个hash的办法来快速计算相似度。首先,我们用hash的方法把一个字符串变为一个整数数组:void hashString(const string & buf, setint> & ret)...{  for(int i = 0; i  buf.length() - 4; ++i

2008-01-15 13:10:00 7261 2

原创 C++ Recipes 自己实现输出重定向

输出重定向在命令行中,可以用 > 和 >> 等实现。但是有时候我们希望通过编程来实现,以下是一个最简单的 C++ 版本。#include ios>#include iostream>#include fstream>int main( )...{    using namespace std;    ofstream file( "rdbuf.txt" );    streambuf *x

2008-01-15 13:03:00 2595

原创 中国搜索引擎用户调查报告2007

百度市场份额持续上升,Google/谷歌触底反弹正望咨询的调查结果显示,按照首选搜索引擎用户比例数定义的京沪穗三地用户市场份额,百度为69.5%,Google/谷歌为23.0%,雅虎(含 3721)和搜狗则分别为2.3%和1.8%。根据正望咨询每半年所作的调查结果形成的历史对比,百度的市场份额分别比一年前(2006年9月份)和半年 前(2007年3月份)增长了7.6和0.5个百分点,Googl

2008-01-15 13:00:00 2339

原创 Google算法调整,提高时间权重

Duncan Rileygoogle Operating System points out something interesting in google’s algorithm recently: a preference in favoring recent content.The example provided would seem to favor the conclusion

2008-01-15 12:59:00 2317

原创 AJAX 一个IE和Firefox兼容的XMLHttpRequest

function request() ...{    var A=null;     try ...{         A=new ActiveXObject("Msxml2.XMLHTTP");     }     catch(e) ...{         try ...{             A=new ActiveXObject("Microsoft.XMLHTTP");     

2008-01-15 12:55:00 4628

原创 C++ Type traits

昨天研究了C++ 的 type traits,我们在使用C++的模板的时候,有时我们需要确定模板中的T究竟是什么类型的,这时候我们就要用到type traits.比如我们定义一个比较大小的函数:template less(const T & a, const T & b);我们需要在T是int,double,string时设计不同的算法,一种可以选择的方案就是函数重载。不过我们也可以

2007-11-20 09:56:00 2669 1

原创 Cindoo 专业化的搜索引擎

大家都听说过Maholo吧,这个搜索引擎又被称为人肉搜索,他的结果非常专业化,因为他是用人工编辑的。Cindoo是一个类似的引擎,他同样注重结果的专业性,但他不使用太多的人工编辑。在Cindoo中,不是所有的网站都会索引,只有那些Cindoo认为结果比较专业的网站才会索引。和Google不一样,Cindoo目前不注重结果的广度,我们不保证所有的搜索都有结果,但我们尽量保证有的结果都是很好的

2007-10-11 12:55:00 2373

转载 Javascript中最常用的55个经典技巧

1. oncontextmenu="window.event.returnValue=false" 将彻底屏蔽鼠标右键no 可用于Table2. 取消选取、防止复制3. onpaste="return false" 不准粘贴4. oncopy="return false;" oncut="return false;" 防止复制5. IE地址栏前换成自己的图标6. 可以

2007-10-08 14:54:00 1992

原创 javascript:如何判断客户端操作系统

如何判断浏览你的网页的用户用的操作系统,这一点javascript可以办到,下面是代码:function detectOS()...{     var sUserAgent = navigator.userAgent;    var isWin = (navigator.platform == "Win32") || (navigator.platform == "Windows");  

2007-09-25 21:14:00 2272

原创 javascript:如何判断浏览器类型

这个问题一直让很多人头疼,下面是浏览器检测的代码,大家可以参考。function detectBrower()...{     var sUserAgent = navigator.userAgent;     var isOpera = sUserAgent.indexOf("Opera") > -1;    if(isOpera) return "Opera";    var isKH

2007-09-25 17:44:00 2087

原创 javascript:如何判断一个网页被用户关闭

用户关闭了你的网页,如何记录下这个行为。其实很简单,用户在关闭网页时,会触发body的onunload事件,这时只要在onunload中使用XMLHttpRequest来告诉浏览器,用户关闭了网页即可。 

2007-09-25 17:39:00 1914

转载 提升PHP速度全攻略

PHP的优点之一是速度很快,对于一般的网站应用,可以说是已经足够了。不过如果站点的访问量很高、带宽窄或者其它的因素令服务器产生性能瓶颈的时候,你 可能得想想其它的办法来进一步提高PHP的速度了。这篇文章将从几个方面介绍如何做到这一点,从而令用户浏览的时候更加“爽”。代码优化   在这里并不想再次告诉你如何写更干净的代码,这一点我想每个人都清楚,在需要速度的时候,你可能已经在PHP源代码的优化上面做

2007-09-20 13:22:00 936

原创 Mathon广告过滤规则发现

今天发现,Mathon过滤的广告是根据url过滤的比如url中含有单独的ad字符串,就会被过滤比如 http://xxx.xx.xxx/ad/xxx或者 http://xxx.xx.xxx/ad.html等等都被会过滤不过 http://xxx.xx.xxx/xxadxx/xxx不会被过滤 

2007-09-20 13:19:00 785

原创 稠密矩阵特征值和特征向量的计算

稠密矩阵特征值和特征向量的计算稠密矩阵特征值计算一般分为两个步骤: 将矩阵A转化为Hessenberg矩阵H,A = QHQ,对于稠密矩阵,他的Hessenberg阵是三对角阵。 对Hessenberg阵H运用QR方法,求出H的特征值,H的特征值就是A的特征值。 用逆迭代的算法,对于一个给定的特征值,计算它对应的特征向量。1.将矩阵A转化为Hessenb

2007-06-26 15:20:00 2746

原创 Adaboost 人脸检测

用Adaboost算法,针对各种各样的图片,下面是一些效果

2007-06-26 10:28:00 2850 20

原创 矩阵特征值特征向量计算

最近写了一个利用Hessenberg和QR方法计算矩阵特征值和特征向量的库。经过测试,计算1000阶矩阵的所有特征值需要25秒。这个库主要针对稠密矩阵,可以用于PCA,ASM等等需要计算矩阵特征值的算法中。

2007-06-26 10:07:00 1837 1

原创 Blog 转到新的Blogger上了,欢迎访问

http://vector-sci.blogspot.com欢迎访问

2007-01-29 07:06:00 909

原创 blog

最近BlogSpot解封了,所有的文章都发表在http://vector-sci.blogspot.com/ python的Web开发Happy New YearCanvas Tag中美确实有必要建一条直连的光缆了Problem 最小集合元素和圣诞快乐排序的交换问题An antiarithmetic permutation高精度计算问题计算机程序设计艺术:学

2007-01-02 22:00:00 884

原创 How to Draw Graph(一)

我们这里讨论的图是图论中的图,主要是研究如何将图显示在一个2D的平面上。首先举一个例子,考虑一个随机图:我们定义3n个顶点,分成3个团(Group),我们定义:p(vi,vj)为vi和vj有边的概率,如果vi,vj属于同一个团,我们去比较大的概率,否则取比较小的概率。这样我们定义了一个有3个Group的随机图。如果我们想把这个图在2D平面上显示出来,我们希望显示出来的图也能够显示出这种Group的

2006-12-17 15:01:00 1521 3

原创 社会网络可视化软件

图的可视化也是目前一个研究方向。关于社会网络的可视化,有很多软件,比如KrackPlot,Pajek等等。但似乎对中文支持的都不好。为此,我还得把中文换成汉语拼音,太麻烦了。于是决定写一个自己的可视化工具。可视化的核心就是一个Layout的问题,如何选择图顶点的坐标,让图看起来美观。我用了Qt做界面,算法用的梯度下降法。下面是我Layout出来的一些结果。感觉还行,嘿嘿。

2006-11-29 21:59:00 4672 3

原创 Code::Blocks & Boost & MinGW & Qt : 我的开发环境

由于Boost在微软的编译器下面支持的很不好,所以准备在Windows下使用GCC编译器,这样使得我们在Linux下开发的程序可以很容易的在Windows下使用。而且,使用了GCC编译器,可以使用很多Linux下的GCC编译好的库。Windows下的GCC编译器可以选用MinGW 。Windows下的IDE可以使用一个开源的工具Code::Blocks,这个工具目前正在蓬勃发展,集成可很多插件。W

2006-11-25 19:31:00 2288

原创 Graph Algorithm : Bridge 桥

桥是指连通图中这样的边,如果把它删去,图将不连通,下面就是一个图的桥的示意图。 

2006-11-21 09:53:00 1202

原创 最小生成树 MST

 

2006-11-16 16:27:00 1200

原创 MatrixPainting

MatrixPaintingProblem StatementThere is a matrix with 9 rows and 9 columns. Each cell of the matrix is either black or white. With a single repaint operation, you can repaint all the cells in a single

2006-11-15 16:05:00 1054

原创 Joseph - acm.uva.305(约瑟夫环)

假设有2k个人围着一个圆桌坐着,前k个是好人,后k个是坏人 。现在开始,每m个人踢掉一个,比如有6个人,m=5,那么,被踢掉的人依次是5,4,6,2,3,1。现在要求,在踢掉第一个好人前,必需把所有的坏人踢掉,问,给定一个k,求满足这个要求的最小的m。 The Josephs problem is notoriously known. For those who are not famili

2006-11-14 20:23:00 4748 2

原创 Google Reader

昨天试用了Google Reader,感觉还不错,Google的新产品真是越来越多。 

2006-11-14 17:41:00 899

原创 六度分离(Six Degrees of Separation)理论

转自社会学吧早在上个世纪60年代,美国著名社会心理学家米尔格伦(Stanley Milgram)就提出了“六级分隔”(Six Degrees of Separation)的理论,并设计了一个连锁信的实验来验证这个假设。他认为,任何两个陌生人都可以通过“朋友的朋友”建立联系,并且他们之间所间隔的人不会超过六个,无论是美国总统与威尼斯的船夫,或热带雨林中的土著与爱斯基摩人。也就是说,最多通过六个人你就

2006-11-14 09:13:00 4134

原创 中文分词方面的重要文章

Jianfeng Gao, Mu Lin, Andi Wu, Chang-Ning Huang, Chinese Word Segmentation: A Pragmatic Approach.  Microsoft Research 2004. 这是微软亚洲研究院对MSRSeg的实现方法的详细描述,内容非常详细。 Hua-ping Zh

2006-11-12 09:54:00 1866

Compiler Design In C

电子书 :Compiler Design In C

2007-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除