自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (2)
  • 收藏
  • 关注

原创 关于Linux下利用GPU对视频进行硬件加速转码的方案

RT,最近一直在研究Linux下利用GPU进行硬件加速转码的方案,折腾了很久,至今没有找到比较理想的硬加速转码方案。似乎网上讨论这一方案的文章也特别少,这个过程中也进行了各种尝试,遇到很多具体问题,以下便对之前所作的一些工作做一些总结和分享,省的时间长了自己也忘记了,也希望后来者能少走弯路,并找到适合自己的最佳方案。背景:项目需要在指定的Linux服务器上对视频源进行转码存储,以节

2012-06-13 17:38:31 18980 5

原创 研发人员的三个优秀品质之一 - 质疑

现在说起培根,我们经常想到某种美味的食物,但是请别忘了我们还有一个名叫培根的伟大童鞋。培根曾经说过一句名言,“一个人如果以肯定开始,必以疑问告终;如果以疑问开始,则必会以肯定结束”。我想他要说的是,人必须以质疑的精神来对待一切即将入住大脑皮层的各种知识,如事物规律、行事规范、人生哲理,有时甚至是各种数学公式、物理定律等。小丹尼尔在参加一次美国中学考试的时候做过这样一个考试题:有2个

2012-02-09 10:11:04 2422

原创 避免hashcode重复

众所周知,Java中如果用String的hashcode作为key,将String保存到HashSet中,这样做是不太可靠的。原因就在于,String的hashcode有可能会重复。比如有这样一个场景,一个网络爬虫需要将所有爬取过的URL保存下来,以便于判断新获取的URL是否已经被访问过,这时就需要有一块内存空间来保存URL,或是保存能够唯一标识URL的ID,比如URL的MD5值或hashcode

2012-02-06 16:12:37 22344 5

原创 Crawljax性能问题之我见

如果将Crawljax作为爬虫来用的话,有严重的性能问题,其问题主要在于其state管理机制,如下图:由于浏览器缺省情况下是不能保持ajax应用的状态的,因此也就无法利用浏览器的回退机制,从当前state回退到上一个state,这样就必须从最初始的index state开始一层层地往下走,直到目标state。如果是一个较大型的网站,或者是翻页较多的网站,其state的层次非常之深,那么

2012-01-19 17:00:12 3697 1

原创 Jobo Bug List

想不到Jobo的问题还真多,列举如下:1、缺省Jobo是用单线程跑的,需要自己扩展实现多线程代码;2、Jobo里面有个todo和visited列表,分别用于存放待抓取和已访问的task。但是,在多线程模式下,todo里面会出现很多重复的task,也就是visited没有起

2011-07-30 17:14:06 673

原创 Unable to connect to host localhost on port 7055 after 45000 ms

People who are using Selenium/Crawljax may recently encounter this problem, "Unable to connect to host localhost on port 7055 after 45000 ms". The reason is that you are probably using Firefox 5.0, wh

2011-07-02 09:38:33 3702

原创 如何让Jobo支持中文

其实很简单!Jobo在解析HTML的时候用到了Tidy,但是Jobo引用的Tidy的版本有点旧了,只要去http://sourceforge.net/projects/jtidy/files/下载一个最新版本的包,替换掉Jobo中的Tidy.jar,一切搞定! 另:新版本的Tidy,在解析完页面之后,会将所有link做一下encode,所以如果需要显示这些link中的中文,你还需要用页面返

2011-06-29 13:01:00 1044

原创 Cobra的javascript执行问题

最近正在寻找一个网站爬虫的解决方案,目标是不仅能够把网站的页面“爬”下来,而且需要能够执行页面中的某些js脚本,以求得到js执行后的页面DOM树,这个问题恐怕也是爬虫面对很多富Ajax网站页面时的共同问题吧?! 在阅读了Kyle的大作http://hi.baidu.com/zhizhesky/blog/item/e4b1f6fada2652d5b58f314e.html之后,决定研究一下C

2011-06-24 14:07:00 1124

敏捷开发理论及案例学习

浅显易懂的敏捷开发理论和一个大型项目的案例

2009-07-10

tesseract 2.03(执行程序for linux)

最新版本的tesseract执行程序,请直接运行./ccmain/tesseract img_file output_file testdata/

2009-04-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除