thundersssss-CSDN博客

原创打破 FOXMAIL 疯狂占用磁盘读写资源的魔障

背景大家在使用邮件过程中恐怕会遇到下面的情况：每次早上开机就看到硬盘灯在疯狂的不停的转动，意味着在 20 分钟的宝贵时间里，你什么也做不了，因为硬盘读写能力和 IO 资源已经被某一个进程独占了，这种情况就这样在我身上上演了一个月。原因分析终于，实在无法忍受这种情况继续下去，就用 WINDOWS 任务管理器 - 性能选项卡下方的资源监视器，去查看到底是什么进程在滥用我的磁盘资源，进去一看，

2017-08-15 10:47:25 12565

原创终于有解了~~hadoop Does not contain a valid host:port authority: file:///

valid host:port authority: file://HADOOP遇到namenode: at org.apache.hadoop.net.NetUtils.createSocketAddr错误最近装HDFS分布式文件系统，用于替换之前坑爹的MFS （为什么坑爹，稍后再谈）折腾了一下午，不过还好总算是有解决办法了~ 之所以造成

2014-12-18 11:48:08 6837

原创如何使用mencoder打LOGO

安装imageMagick 使用imageMagick转换功能，将LOGO图片转换为rgba文件 convert logo.png logo.rgba创建图片管道mkfifo /data/fifo 将图片写入管道 (echo "RGBA32 156 41 30 30 0 0" ; cat /data/logo.rgba ) > /data/fifo &

2013-04-24 16:31:10 962

原创解决mencoder打LOGO花屏的BUG

最近在做视频的LOGO，大家熟悉的ffmpeg打LOGO非常简单，虽然mencoder/mplayer 文档比较全，但是mencoder打LOGO 却不是那么容易,并且出现了令人匪夷所思的事情，那就是有一些视频在打完LOGO后，LOGO面目全非，找遍搜索引擎一无所获，于是写了封BUG REPORT给开发团队，嘿嘿，幸运的是刚写完不到5分钟，就有意外发现，废话少说，切入正题。

2013-04-24 16:25:37 1120

原创 Kumofs 简介，部署和特性介绍（一）

一简介 Kumofs 是一款基于tokyo cabinet超高性能的分布式存储系统，继承了tc超高的读取和写入性能，并且遵循CAS，除此之外，他同样支持MEMCACHE协议，在众多的客户端中得到良好的支持。除了拥有高效的存取特性外，他主要具备以下特性：数据能够被均匀的拆分到所有的节点，同时具备分布式存储必须的功能：复本随着节点数量的增加，系统整体的读取和写入

2011-11-23 15:50:50 1166

讨论话题之一：工程师眼中的优秀产品经理是什么样的？ 1.)有一定的技术背景 2.)在产品功能和技术成本间，可以客观地权衡双方利益 3.)善于沟通，会打感情牌（女孩子会撒娇也管用） 4.)有较强的产品设计逻辑和长期的产品规划，不是干一票就撒手不管的那种 5.)善于抽象产品指标，善于利用指标和数据客观评估产品质量的 6.)有较强的产品把控能力，比如项目大小，功能边界，需求细节等 7.)尊重工程师的工作，愿意听他们的想法，潜意识中不

2011-03-29 14:33:00 883

原创打造一款成功的产品所需遵循的原则

带着创业的心态，在互联网圈子里待了大概有8个年头了，服务的公司有两三个朋友筹资成立的幼稚的创业公司，有成立不到2年、富有朝气的；也有成立超过5年、产品占据市场份额80%；这些公司中有项目非常成功的，有坚持了两年惨败告终的，有刚刚出生就夭折的。经历过这么多，刚开始那份创业的劲头已经有些麻木，但是这么多年走过来，一直没有放弃寻找一个答案，怎样才能早就互联网企业的成功？ 答案：得产品者得天下。 互联网虽然诞生到现在也不过二十年，它与传统行业基本相同，都有

2011-03-17 15:02:00 1013

原创使用memcached缓存替代solr中的LRUCache缓存

前沿在搜索引擎中，缓存被当做是不可缺少的部分，但是很多情况下，将缓存的实现过度依赖于分发服务器及webserver会很大程度上加重webserver的负担，具体表现就是经常性的假死，拒绝服务，因此为了解放前端转发服务器，我们将使用solr + memcache后端搭档组合实现缓存。前期准备条件：点击下面的下载地址，将memcache必备的工具包和java类下载至本地

2010-05-25 19:15:00 3670 3

原创国内外著名的互联网公司使用hadoop都做了什么？谈HADOOP在大规模数据处理领域的具体应用。

HADOOP在阿里巴巴：用于处理商业数据的排序，并将其应用于阿里巴巴的ISEARCH搜索引擎，垂直商业搜索引擎。节点数： 15台机器的构成的服务器集群服务器配置： 8核CPU，16G内存，1.4T硬盘容量。 HADOOP在百度：HADOOP主要应用日志分析，同时使用它做一些网页数据库的数据挖掘工作。节点数：10 - 500个节点。周数据量： 3000TB

2010-04-29 10:11:00 7344 1

原创解决 RNI接口调用出现的异常UnsatisfiedLinkError: no jtokyocabinet in java.library.path 及 wrong ELF class: ELFCLASS64问题

使用RNI接口调用C程序，经常会报以下两种异常： UnsatisfiedLinkError: no jtokyocabinet in java.library.path 和 wrong ELF class: ELFCLASS64 UnsatisfiedLinkError: no jtokyocabinet in java.library.path 的解决方案

2010-04-22 09:53:00 3271

原创 TOMCAT : tomcat Connection refused如何解决？

通常遇到这个问题，是因为当前连接数达到了TOMCAT处理队列的默认长度： 100很有可能你的程序在每一次连接之后，没有真正关闭连接造成的，这类Connection Refused 的问题在数据库上尤为明显。但是如果你的线程数确实足够多，连接确实大，那么就需要通过调整TOMCAT的配置文件server.xml来增加TOMCAT处理线程队列的大小： <!

2010-04-08 15:42:00 17028

原创如何解决SOKCET中time_wait连接状态堆积的问题。

查看所有的SOCKET状态数 netstat -n | awk /^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]} 说明： TIME_WAIT 168 连接等待CLOSE_WAIT 1SYN_SENT 2ESTABLISHED 38 已建立连接使用下列命令查看当前服务端的被连接数目

2010-04-07 16:19:00 2002

原创解决ccSvcHst.exe CPU占用超50%的问题，及其缘由

无意中发现任务管理器中一个很奇特的进程，迅速吃掉了我50%的cpu资源，而且是持续性的，于是上google一番查找，最终有了新的发现。很多问答产品全部都是清一色的错误解决方案：正常情况下，系统中应该有两个ccsvchst进程。路径为X:/progamme files/common files/symantec shared/ccsvchst.ex

2010-04-06 16:34:00 32502 2

原创如何构建高性能分词系统？（手把手教你做分词系统）

ictclas1.0中文词库已经出来好长时间了（网上有很多版本的，搜下就可以很容易得到），但是基于该词库基础上的系统却为数不多，很多分词组件的功能都达不到商用，比如实时添加词汇，持久化，序列化，即对词库的操作等都缺乏相应的基础支撑。其实做一个分词系统并不是难于登天的事情，下面我就给大家将一种基于链表和二叉树的分词系统。基于ICTCLAS 1.0，将其中的数

2010-03-24 16:04:00 2362

原创在SOLR环境变量的配置过程中，遇到的 A pseudo attribute name is expected 异常

此类问题，不仅仅限于SOLR，还有很多基于XML配置程序，也会出现这种问题，原因十有八九就是 XML格式书写错误有问题的XML ：大家不仔细看，很难看出XML书写的问题：第一行倒数第二列少了个 “?” 正常应该是这样：

2010-03-17 11:45:00 8205

原创 SOLR环境变量的配置

solr.solr.home的理解和配置主要有两种基于环境变量solr.solr.home在当前用户的环境变量中（.bash_profile）或在/opt/tomcat/catalina.sh中添加如下环境变量export JAVA_OPTS="$JAVA_OPTS -Dsolr.solr.home=/opt/solr-tomcat/solr" 评价：

2010-03-17 11:37:00 3940

原创如何使SOLR系统自动AUTO COMMIT？

在很多情况下，我们并不想自己主动触发COMMIT相应的XML给SOLR，这样带来很多的不便，恰好，SOLR通过配置文件可以自行在满足指定的条件下自动的COMMIT索引，同时，让前端检索实例可以检索到最新生成的数据，而不需要人为干预。方法很简单：找到solrConfig.xml文件找到以下行，并增加以下配置 1

2010-03-16 19:34:00 6176

原创实战： SOLR的分布式部署（复制）CollectionDistribute 快照分发（精简版）

SOLR复制模式，是一种在分布式环境下用于同步主从服务器的一种实现方式，因之前提到的基于rsync的SOLR不同方式部署成本过高，被SOLR1.4版本所替换，取而代之的就是基于HTTP协议的索引文件传输机制，该方式部署简单，只需配置一个文件即可。以下讲解具体操作步骤：步骤分主服务器和从服务器，允许有多个从服务器，即从服务器的配置一样。主服务器：

2010-03-16 15:37:00 5460 2

原创如何设置SOLR的高亮 (highlight)？

打开SOLR的核心配置文件： solrconfig.xml 找到 standard request handler 写入以下XML配置代码： explicit true title 3 <!--

2010-03-11 15:14:00 19134 10

原创如何启动SOLR特性：按层面检索？

按层面检索是SOLR推出的一项特性，可以再检索结果中按照事先设定的分类，标签等显示，目前已经有很多搜索引擎提供这项功能，现将SOLR的实现步骤展示给大家：首先在配置之前，需要将自己的分类，或标签等将要按照层面检索的字段，设置为索引，存储格式，并已创建索引。找到SOLR的核心配置文件： solrconfig.xml

2010-03-11 14:56:00 2274

原创如何在SOLR中嵌入自己的分词系统？？

SOLR虽然为我们提供了分词的接入方法,但很显然并不奏效，搜遍了大江南北，也没有什么可参考的，大部分都是使用的IK或庖丁之类的分词~~，难不成就这样永远活在别人的阴影中？？答案是"NO!"，如果是这样那就意味着屏蔽词管理，词典实时更新，实时持久化等多个个性化的产品需求得以在这些分词系统上半路杀入，老鸟应该都明白这种做法的成本是太高了。 SOLR推荐但失败的分词接入方法

2010-03-10 18:11:00 3552

转载 Lucene2.9 TokenStream新的遍历方法

TermAttribute termAtt = (TermAttribute) tokenStream.getAttribute(TermAttribute.class); TypeAttribute typeAtt = (TypeAttribute) tokenStream.getAttribute(TypeAttribute.class);

2010-03-10 18:04:00 1042 1

原创 LUCENE 2.9 如何正常读取压缩后的整形，长整形及浮点数值？（解读 Invalid shift value in prefixCoded string 异常）

今天有一个需要从索引中读取数值型数据的需求，然后就轻车熟路写了如下代码： Document doc2 = ir.document(counter);sb.append(doc2.get(field)); 结果竟发现读出的数据为 null !!!??? 一番GOOGLE,刚开始还觉得新的版本对LUCENE做了较大改动，为了提升整形，浮点的检索及排序效率，LUCENE使用了

2010-03-05 16:46:00 4542 3

原创通过对QParser类的继承实现SOLR 半匹配检索（模糊搜索/模糊检索）（一）

在SOLR应用中，需要支持对指定关键词部分匹配的应用场景如何实现SOLR的模糊检索（半匹配）？何谓模糊检索（半匹配）：这种方式是生产环境下经常要使用到的检索方式，通过对命中请求关键词分词后的一个或多个词元的进行检索方式叫做半匹配或模糊匹配，（注意：这里要与SOLR检索运算符“~” 检索方式区分开）。如用户输入关键词：战争人，但是索引库里收录只有“战争之人”

2010-01-07 15:26:00 6187 5

原创 2009年度中国互联网网站流量排行榜（前20 ）（依据ALEXA官方统计）

根据我之前做站的一些经验，按照ALEXA覆盖度公式计算方法，计算出国内主流互联网每日网站流量排名（本统计仅供参考） =========================统计日期： 2009.11.30=============================国内主流网站访问量排名（单位：独立IP）=============================百度 10000 0000

2009-12-31 18:39:00 1761 1

原创实战： SOLR的分布式部署（复制模式 CollectionDistribute）部署流程详解（二）

<p class="MsoNormal" style="mso-

2009-12-29 15:39:00 5962 3

原创实战： SOLR的分布式部署（复制）CollectionDistribute 快照分发（一）

网上有很多SOLR的文章，但是大多都是翻译自SOLR的官方WIKI，尤其是对分布式说的较含糊，在部署过程中，出现很多问题，令人摸不着头脑，下面就有些我遇到的情况及解决方案作下描述，希望对大家有用。 SOLR复制模式下分布式应用的基本原理： SOLR主要通过SHELL脚本与SOLR的相互协调完成快照在主服务器与辅服务器下的同步完成，该脚本位于：SOLR的安

2009-12-29 12:25:00 2485

原创 Lucene的排序算法

公式： 1 tf(t in d) term frequency与term的出现次数（frequency）有关系（correlate to），定义为（defined as）term t在当前算分（currently scored）的文档d中出现（appear in）的次数（number of times）。对一个给定（gived）的t

2009-09-16 16:12:00 6393 1

原创 Lucene 倒排原理

Lucene 的索引排序是使用了倒排序原理。该结构及相应的生成算法如下：设有两篇文章1和2 文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为：He once lived in Shanghai. 1. 由于lucene是基于关键词索引和查询的，首先我们要取得这两篇文章的关键词，通常我们需要如下处理措施 a.

2009-09-16 16:10:00 848

知名流量检测工具： iptraff

业界知名的基于LINUX的流量检测工具，可以按照网卡，TCP,UDP,IP等协议监控当前网卡流量，甚至可以对某一个端口进行流量监控，功能非常强大，该包中包含源码和32位可执行文件。

2010-04-08

Lucene 源代码剖析.rar

说明：这是一篇公司的内部培训教材，其中中的内容涵盖LUCENE的方方面面，从源代码角度深入剖析LUCENE，如果要对LUCENE有更加深入的了解（专家级别），这篇技术文档必不可少。前提：对LUCENE有一定程度的了解,否则会让你云里雾里。

2008-12-11

Lucene 倒排原理.docx

用浅显易懂的方法介绍搜索引擎的工作原理，从这里让你明白为什么搜索引擎会比数据库那么快。

2008-12-11

搜索引擎Lucene 简介.doc

在一定深度上介绍LUCENE，原先是给公司员工的培训材料，想必大家也需要，因此发到网上，希望能对LUCENE有进一步了解。

2008-12-11

深入了解Lucene之四主要算法介绍.ppt

在一定深度上介绍LUCENE，原先是给公司员工的培训材料，想必大家也需要，因此发到网上，希望能对LUCENE有进一步了解。

2008-12-11

深入了解Lucene之三排序算法.doc

在一定深度介绍LUCENE的排序算法和打分公式。

2008-12-11

深入了解Lucene之二索引结构.ppt

写给公司员工的内部培训文档，希望对大家有用。

2008-12-11

深入了解Lucene之一系统结构分析.pptx

在一定深度上介绍LUCENE的系统结构，原先是给公司员工的培训材料，想必大家也需要，因此发到网上，希望能对LUCENE有进一步了解。

2008-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

thundersssss的专栏

原创打破 FOXMAIL 疯狂占用磁盘读写资源的魔障

原创终于有解了~~hadoop Does not contain a valid host:port authority: file:///

原创如何使用mencoder打LOGO

原创解决mencoder打LOGO花屏的BUG

原创 Kumofs 简介，部署和特性介绍（一）

转载工程师与产品经理换位思考~

原创打造一款成功的产品所需遵循的原则

原创使用memcached缓存替代solr中的LRUCache缓存

原创国内外著名的互联网公司使用hadoop都做了什么？谈HADOOP在大规模数据处理领域的具体应用。

原创解决 RNI接口调用出现的异常UnsatisfiedLinkError: no jtokyocabinet in java.library.path 及 wrong ELF class: ELFCLASS64问题

原创 TOMCAT : tomcat Connection refused如何解决？

原创如何解决SOKCET中time_wait连接状态堆积的问题。

原创解决ccSvcHst.exe CPU占用超50%的问题，及其缘由

原创如何构建高性能分词系统？（手把手教你做分词系统）

原创在SOLR环境变量的配置过程中，遇到的 A pseudo attribute name is expected 异常

原创 SOLR环境变量的配置

原创如何使SOLR系统自动AUTO COMMIT？

原创实战： SOLR的分布式部署（复制）CollectionDistribute 快照分发（精简版）

原创如何设置SOLR的高亮 (highlight)？

原创如何启动SOLR特性：按层面检索？

原创如何在SOLR中嵌入自己的分词系统？？

转载 Lucene2.9 TokenStream新的遍历方法

原创 LUCENE 2.9 如何正常读取压缩后的整形，长整形及浮点数值？（解读 Invalid shift value in prefixCoded string 异常）

原创通过对QParser类的继承实现SOLR 半匹配检索（模糊搜索/模糊检索）（一）

原创 2009年度中国互联网网站流量排行榜（前20 ）（依据ALEXA官方统计）

原创实战： SOLR的分布式部署（复制模式 CollectionDistribute）部署流程详解（二）

原创实战： SOLR的分布式部署（复制）CollectionDistribute 快照分发（一）

原创 Lucene的排序算法

原创 Lucene 倒排原理

知名流量检测工具： iptraff

Lucene 源代码剖析.rar

Lucene 倒排原理.docx

搜索引擎Lucene 简介.doc

深入了解Lucene之四主要算法介绍.ppt

深入了解Lucene之三排序算法.doc

深入了解Lucene之二索引结构.ppt

深入了解Lucene之一系统结构分析.pptx

空空如也

知名流量检测工具： iptraff

Lucene 源代码剖析.rar

Lucene 倒排原理.docx

搜索引擎Lucene 简介.doc

深入了解Lucene之四 主要算法介绍.ppt

深入了解Lucene之三 排序算法.doc

深入了解Lucene之二 索引结构.ppt

深入了解Lucene之一 系统结构分析.pptx

空空如也

深入了解Lucene之四主要算法介绍.ppt

深入了解Lucene之三排序算法.doc

深入了解Lucene之二索引结构.ppt

深入了解Lucene之一系统结构分析.pptx