- 博客(135)
- 资源 (1)
- 收藏
- 关注
原创 Apache Solr 实现去掉重复的搜索结果
打上SOLR-236_collapsing.patch补丁,实现 solr 搜索结果折叠、除去重复的搜索结果,可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并搜索试用下。 其实 solr 上已经有了这功能的实现:solr 1.3 collapse pat...
2011-11-04 20:40:20 803
原创 Apache Solr schema.xml及solrconfig.xml文件中文注解
schema.xml位于solr/conf/目录下,类似于数据表配置文件,定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。name:就是这个FieldType的名称。class:指向org.apache.so...
2011-11-04 20:39:42 208
原创 自定义评分器Similarity提高搜索体验
http://www.gbsou.com/2011/11/01/8048.html score(q,d) = coord(q,d) · queryNorm(q) ·∑( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) ) 具体可以查看相关文章:http://...
2011-11-04 20:35:44 358
原创 Solr的扩展(Scaling)以及性能调优
当你的索引数量越来越大,你会发现你的搜索响应时间变得更慢,索引新内容的时间也会越来越长,那么,到了做出一些改变的时候了,幸运的是,solr很好的考虑到了这些情况,你只需要改变你的配置就可以了。以下将从三个方面讲述solr的scaling: l 调优某个Solr服务器(Scale High) 通过缓存和内存管理优化某个单实例的...
2011-11-04 20:16:51 668
原创 二十个你必须知道的SEO概念
如果你拥有一个网站或独立博客,或者你的工作多少和互联网有关,那你一定耳濡目染多多少少对SEO(搜索引擎优化)有一定了解。本文将列举其中20个SEO领域最常用的名词和概念,如果你打算熟悉和了解他们请继续阅读。当然,如果你已经无所不晓,那你可以权当补习功课,或可以直接忽略本文。 1. 搜索引擎营销 (SEM) 搜索引擎营销(SEM)英文全称为Search En...
2011-01-13 23:51:05 148
原创 [转]电子商务名词介绍
电子商务介绍: 概念:电子商务,英文名Electronic Commerce,简称EC。 电子商务模式(常见类): B2B模式,Business to Business-企业对企业,例子:阿里巴巴,生意宝(网盛科技)、慧聪网。 B2C模式,Business to Customer-企业对个人,例子:亚马逊,当当,凡客,时尚起义,走秀网。 C2C模式,Custo...
2010-10-19 14:11:07 352
原创 [转]如何用数字判断一个网站
1.访问量:alexa,chinaz查询工具。 2.网络流行度:搜索网站名,搜索结果越多相对来说越流行。 3.行业排名:查询艾瑞的排名。 4.网络新闻曝光率:用baidu新闻搜索。 5.SEO表现:收录与PR,排名。 6.百度指数:百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度。 7.每天新增注册用户数=UV*1%=80000*1%=80...
2010-10-19 14:05:27 159
原创 lucene下的contrib包介绍
analyzers下分为两个包:common:提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词smartcnSmartChineseAnalyzer 是一个智能中文分词模块, 能够利用概率对汉语句子进行最优切分, 并内嵌英文tokenizer,能有...
2010-09-10 18:23:39 195
原创 linux命令:sz和rz
一般来说,linux服务器大多是通过ssh客户端来进行远程的登陆和管理的,使用ssh登陆linux主机以后,如何能够快速的和本地机器进行文件的交互呢,也就是上传和下载文件到服务器和本地; 与ssh有关的两个命令可以提供很方便的操作: sz:将选定的文件发送(send)到本地机器 rz:运行该命令会弹出一个文件选择窗口,从本地选择文件上传到服务器(rece...
2010-07-20 12:56:35 140
原创 构建可伸缩,高性能的互联网应用(copy from http://yuquan-nana.javaeye.com/blog/710302)...
时间过得很快,来淘宝已经两个月了,在这两个月的时间里,自己也感受颇深。下面就结合淘宝目前的一些底层技术框架以及自己的一些感触来说说如何构建一个可伸缩,高性能,高可用性的分布式互联网应用。一 应用无状态(淘宝session框架) 俗话说,一个系统的伸缩性的好坏取决于应用的状态如何管理。为什么这么说呢?咱们试想一下,假如...
2010-07-12 13:31:12 147
原创 实时检索系统Zoie实现分析
实时检索系统Zoie实现分析 实时检索的核心原理通常的检索系统中,建索引和查询是分开的,即建索引是离线的,新的索引会以一定频率(比如每隔5分钟)供查询端使用。对于一些站内检索来说,这种延迟性使得:不需要建索引的速度足够快(只要能跟的上提交频率就行),查询的效果不必完全精确。而要取得实时检索效果,典型的思路是:建索引和查询是在一个进程内,这样每一次的添加索引都会被下一次的查询...
2010-05-11 14:19:37 118
原创 ubuntu 如何自动开启小键盘数字键?
sudo apt-get install numlockxsudo vim /etc/rc.local 把下面的内容添加到最后那行的前面代码:if [ -x /usr/bin/numlockx ]; then numlockx onfi
2010-01-04 14:15:50 173
原创 rails缓存Tips: 缓存js,css文件
4.缓存Tips: 缓存js,css文件请参考: http://railslab.newrelic.com/2009/01/22/page-responsiveness# Combining all your javascripts in production mode<%= javascript_include_tag :all, :cache...
2009-12-26 23:52:58 124
原创 apache的ab命令做压力测试
1. 最基本的关心两个选项 -c -n例: ./ab -c 100 -n 10000 http://127.0.0.1/index.php-c 100 即:每次并发100个-n 10000 即: 共发送10000个请求2. 测试结果分析[junjie2@login htdocs]$ /data1/apache/bin/ab -c 1000 -n 50000 "http:...
2009-11-23 17:57:45 690
强大的ruby模版:ERB
#http://stdlib.rubyonrails.org/[code="ruby"]require "erb" # Build template data class. class Product def initialize( code, name, desc, cost ) @code = code @name = name ...
2009-10-28 15:55:47 1290
原创 马云:因小而美
全球经济衰退的来袭令许多国际企业都频临倒闭,去年关于此类事件的新闻报道层出不穷。但这并非当今时代的标志,反而,它预示着一场崭新的商业革命正徐徐拉开序幕。这些大企业中有许多都是从上世纪踉跄走到今天,而金融危机则给它们带来了致命一击,令其固有缺陷暴露无遗。今时今日,一场由互联网技术掀起的革命正初露端倪,这股浪潮必将永久改变顾客与企业之间的力量态势。在世界各地,能够把握这些新契机和新趋势...
2009-10-28 12:00:21 282
原创 您不得不看 apache添加模块(不重新编译)
下面是使用apxs工具给apache添加模块添加的模块:LoadModule proxy_module libexec/mod_proxy.soLoadModule rewrite_module libexec/mod_rewrite.soLoadModule headers_module libexec/mod_headers.so添...
2009-10-27 00:25:39 154
布局变量
[code="ruby"]class FooController < ActionController:Base layout :figure_out_layout def figure_out_layout if action_name = ~ /pretty 'pretty' else ...
2009-10-22 17:00:24 123
原创 如何在Rails的controller中取得URL中的anchor值
有人问,如何在Rails的控制器中取得URL中的锚点的值,这个需求比较奇特,以前没搞过,于是google了一把,在“Getting the # value”这个帖子看到有人有类似的问题,他说出了在controller中直接取不到的原因是“For normal links/urls the#anchor is a client side feature and is often no...
2009-10-22 16:14:37 151
原创 在Rails中使用缓存(码表)的方式
搞过Java的应该都晓得,经常会定义一些字典,然后将这些字典缓存带内存中以提高查询的效率和速度,也就是常说的缓存,有人叫码表.今天看看如何在Rails中实现类似的功能,思路是一样的,可以缓存在数组或者Hash里面,这里为了查找方便,我们选择使用Hash.也就是:如何创建一个变量从rails开始运行时初始化,一直维持到rails终止,而且对于每一个request都能共享的变量?1,首...
2009-10-22 16:12:57 165
原创 应用WillPaginate分页
WillPaginate这个插件很棒,以至于其取代了Rails中原有的Paginate方法,虽然看上其很简单,其实还是有不少技巧的,本篇用来记录我遇到的或者使用到的一些tips。1.直接使用paginate这个比较简单,也是使用的最多的,如下:Ruby代码def self.get_all_items_in_catelog( catelog_id,page,per...
2009-10-22 15:14:38 91
原创 Rails render partial collection
Rails 在 partial 中 传递 collection,默认的循环变量 是 partial的名字(约定)。或者你想改变变量名的话,可以使用 :as 参数声明一个变量。。。不能用惯性思想 for ...........in........等例如:之前错误的写法:partial : _feednews.html.erb <%= render :partial => ...
2009-10-21 17:39:25 116
rails学习网址
http://railscasts.comhttp://asciicasts.com http://202.165.105.226/babelfish/translate_url_content?intl=cn&lp=en_zh&trurl=http%3a%2f%2frailscasts.com%2fepisodes%3fpage%3d2
2009-10-21 17:15:56 69
原创 Rails 很好用的锚(anchor)标记
Rails 很好用的锚(anchor)标记 锚(anchor)标记 很好用,虽然现在一般好多都是 ajax 无刷新 更新。。但是如何 你没有 采用 ajax 方法提交数据和更新的话,那么 anchor是你的最佳选择了,看上去有点像ajax的效果anchor 说白了 就是 进入 这个 页面的时候, 定位到页面指定的部分,例如一个个人用户的界面,最下面是留言版,如果你采用传统...
2009-10-21 17:15:11 143
原创 Ajax pagination
Ajax paginationttp://wiki.github.com/mislav/will_paginate/ajax-pagination This is the most popular feature request for will_paginate library. Reasons why the core library doesn’t support thi...
2009-10-21 17:13:53 130
ImageMagick, JMagick安装、配置(windows版)
ImageMagick, JMagick安装、配置(windows版)我在winxp环境下安装调试JMagick,并成功运行了测试code,实现了图片的多种操作,缩略图、旋转、设置边框、设置背景等等...,下面记录安装及配置历史,分享给大家:ImageMagick, JMagick安装、配置及使用:平台:winXP 1. 安装ImageMagick(http://www...
2009-09-29 21:55:37 160
原创 什么是Session, 什么是Cookie?
什么是Session, 什么是Cookie?Session是由应用服务器维持的一个服务器端的存储空间,用户在连接服务器时,会由服务器生成一个唯一的SessionID,用该SessionID为标识符来存取服务器端的Session存储空间。而SessionID这一数据则是保存到客户端,用Cookie保存的,用户提交页面时,会将这一SessionID提交到服务器端,来存取Session数据。这一...
2009-09-22 15:42:28 166
原创 天乙通行证单点登录的做法
天乙通行证是一个单点登录系统(Single sign on),用户登录一次通行证,即可以直接使用社区、Blog等产品,无需再次注册或登录,保证几个产品用户的统一,但天乙通行证由于本身没有产品化,所以现在没有开源,如果使用天乙社区需要做用户整合,只要实现通行证的类似系统就可以。 SSO的实现技术有多种,也有一些开源产品,而天乙通行证使用的是比较简单,但非常有效的方案,即同域名下的Cookie...
2009-09-22 15:17:05 93
使用HttpClient4.0调用JavaEye API
[code="java"]package com.javaeye.client;import java.io.IOException;import org.apache.commons.codec.binary.Base64;import org.apache.http.Header;import org.apache.http.HttpEntity;import or...
2009-09-19 21:22:42 88
原创 A记录,MX记录,CNAME记录,url转发,ns记录解释
1、A记录:WEB服务器的IP指向 A (Address) 记录是用来指定主机名(或域名)对应的IP地址记录。 说明:用户可以将该域名下的网站服务器指向到自己的web server上。同时也可以设置自己域名的二级域名。 就是说:通过A记录,大家可以设置自己的不同域名转到不同的IP上去!如: www.yourname.com 转到IP 321.32.321.321 ftp.you...
2009-09-16 11:29:53 120
原创 什么是子域名、二级域名、次级域名?
子域名是个相对的概念,是相对父域名来说的。域名有很多级,中间用点分开。例如中国国家顶级域名CN,所有以 CN 结尾的域名便都是它的子域。例如:www.zzy.cn 便是 zzy.cn 的子域,而 zzy.cn 是 cn 的子域。 “二级域名”目前有很多用户认为“二级域名”是自己所注册域名的下一级域名,实际上这里所谓的“二级域名”并非真正的“二级”,而应该称为“次级”...
2009-09-16 11:28:51 1639
原创 强烈推荐创业者阅读:周鸿祎的产品秘笈
强烈推荐创业者阅读:周鸿祎的产品秘笈 很多创业者,尤其是互联网,创业的出发点大部分是产品出发,觉得自己可以做一个比现在成功企业更好的产品创意义..因此,激情洋溢了去创业了,包括我自己.....创业2年后发现现在被用户接受的产品与当初的产品创意90%以上是没有关系..今天看到周鸿祎谈产品,所有观点都是一针见血..虽然他的口碑不好,但不能抹杀他是一...
2009-09-07 13:04:29 133
原创 李彦宏-命运掌握在自己手中
命运是一个人一生所走完的路,是一个人用一辈子所完成的作业。有的人认为,命运是天注定的,是不可改变的。但在我看来,命运不过是人生的方向盘,驶往哪个方向它掌握在每个人自己的手中。在这里,我想和各位同学分享几个关于命运的故事,没有什么高谈阔论,仅仅是我自己的一些经历而已。眼界与命运和很多同学一样,我出生在一个小城市的普通工人家庭。小时候起,除了学习我的兴趣就非常广泛。戏曲就曾经一度...
2009-09-04 13:23:02 180
原创 Ubuntu Linux 9.04 正式版 光盘安装教程+安装后配置教程
万众瞩目的 9.04终于出了。呵呵,估计这个新版本的推出,会引来一系列新的网友,投入linux的怀抱吧。估计论坛Ubuntu区的人气,也会大涨滴。嘿嘿~因此,这次把Ubuntu Linux 9.04 正式版的安装、配置。写一下了,以便日后有新人来问,来看。一. 下载 和安装方法1. U...
2009-08-19 00:23:38 239
原创 Apache tomcat 的整合 以及多个网站的配置,二级域名的配置
其实很简单.Apache 整合tomcat可以通过 JK, 这是往常的做法。但现在也可以通过 Apache 的反向的代理功能实现。不过我想LZ现在应该是需要 Apache + JK + Tomcat 这种配置了。先问问LZ说里边报的警告是什么?首先说说是 Apache 的配置 httpd.confLZ 需要的是配置虚拟主机, 即 Apache + JK +( tomcat1 / t...
2009-08-05 14:45:11 112
原创 spam搜索引擎垃圾技术的统称
在搜索引擎优化相关的文章中中经常遇到“SPAM”一词,不过在搜索引擎营销中所说的SPAM是专门针对那些欺骗搜索引擎的信息。搜索引擎垃圾技术是利用不道德的技巧去提高自己搜索引擎上的排名。不诚实的网站管理员就是利用这样的手段去欺骗搜索引擎从而获得较高的排名。这样的做法会让你的网站在短期内排名得到提高,但是后果却是十分严重的。有可能导致搜索引擎把你的网站从他的数据库里永久删除! 以...
2009-07-24 13:53:57 337
原创 HTTP协议分析之一:HTTP协议详解
HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写,它用于传送WWW方式的数据,关于HTTP 协议的详细内容请参考RFC2616。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URI、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,相应的内容包括消息协议的版本,成...
2009-07-20 13:41:32 899
原创 HTTP分析之二:标准状态代码
Number Description100Continue101Switching protocols200OK201Created202Accepted203Non-Authoritative...
2009-07-20 13:40:12 108
原创 MYSQL启用日志,和查看日志
mysql有以下几种日志: 错误日志: -log-err 查询日志: -log 慢查询日志: -log-slow-queries 更新日志: -log-update 二进制日志: -log-bin 是否启用了日志 mysql>show variables like 'log_%'; ...
2009-06-09 18:06:49 114
苹果iPhone不为人知的秘密:苹果公司怎样改变了整个手机产业界
简介在TI,Nokia等大厂主导的手机世界里,苹果如何能够"绝地而起"?这种商业成功的背景是什么? 一家Mac桌面电脑厂商和iPod供应商是如何做到进入一个新领域并且获得空前的成功的?这就是本文要告诉你的故事Apple公司研发总部的一段对话工程师:抱歉,Demo样机感觉不怎么好!容易死机等等主管:重新试验,再来一次,2006年秋天的一个早上,差不多算是一年多前, Jobs(...
2009-03-25 12:27:14 719
jquery api
2009-07-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人