自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 情感分析简述(转)

情感分析,我研究了也有半年有余了,ACLAnthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处(http:/...

2012-06-25 18:41:25 311

原创 [编程之美]快速寻找满足条件的两个数

在《编程之美》一书的第2.12个题目描述如下:能否快速找出一个数组中的两个数字,让这个两个数字之和等于一个给定的值,为了简化起见,我们假设这个数组中肯定至少存在一组满足要求的解。作者给出了3种方案:[方案一]穷举法:从数组任意取出两个数字,计算两者之和是否为给定的数字。时间复杂度O(N^2),效率较低。[方案二]将问题变通为一个查找问题:求两个数之和,假定为sum。对于数组中的每个

2012-05-05 11:53:02 1347

原创 实时搜索引擎-tweetfeel.com

实时搜索引擎-tweetfeel.com ·网站名称:tweetfeel.com(http://www.tweetfeel.com/ )·上线时间:未知·所在地点:国外 推荐理由:这是一个提供实时搜索的引擎,目前主要应用于Twitter。对于实时搜索...

2012-02-15 14:52:52 230

原创 为程序员量身定制的12个目标(转自搜搜实验室)

对程序员们来说挑战自我非常重要,要么不断创新,要么技术停滞不前。新年伊始,我整理了12个月的目标,每个目标都是对技术或个人能力的挑战,而且可以年复一年循环使用。01. 变得有耐心02. 保持健康03. 拥抱变化带来的不适应04. 学习一门新的编程语言05. 自动化06. 学习更多数学知识07. 关注安全08. 备份你的数据09. 学习更多理论知识10...

2012-02-10 15:55:49 129

原创 Linux平台(Fedora 16/15, CentOS/RedHat(RHEL)6/5.7)下在线安装AdobeReader

 Note:This is guide shows, howto install and keep up-to-date Adobe Reader (Acrobat PDF Reader) current version 9.4.2 with YUM on Fedora 16/15/14/13/12, CentOS 6/5.7, Red Hat (RHEL) 6.1/6...

2011-11-25 16:11:23 389

“INIT:Id "x" respawning too fast,disabled for 5 minutes”问题之解决思路

CentOS5,启动过程中出现以下问题: INIT:Id "x" respawning too fast,disabled for 5 minutes 图形界面无法启动。 首先根据错误信息知道是init程序在执行系统启动脚本时出现问题,init所执行的脚本是 /etc/i...

2011-11-24 15:44:14 1742

原创 有关Windows和Linux双系统环境如何正确卸载Linux系统的方法总结

在winxp和linux双系统下卸载Linux系统,很多童靴会采用在windows系统中将linux分区直接格式化删除的方法,认为这能卸载掉 Linux系统。但是不幸的是将linux分区删除重启电脑会出现grub>这个符号,然后就无法进入windows或linux任何一个系统了。我刚开始学习Linux的时候也经常遇到这个问题,所以以后每次想卸载Linux系统的时候都会很小心的查找些相关资料再...

2011-11-24 09:03:35 2395

原创 Java正则表达式详解(转)

如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。 许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表...

2011-11-11 12:37:47 86

原创 Eclipse中SVN版本控制插件的安装和使用

以前提到过SVN版本控制器和客户端的安装和配置,这里再在说一下在编译器中怎么使用SVN,使其既可以单独使用,也可以配合SVN客户端一起使用。由于编译器种类众多,插件种类也不同,这里只简单介绍下Eclipse的插件安装。我用的版本是Eclipse3.2.2+MyEclipse_5.1.1,由于本身只有CVS而没有集成SVN,所以要想使用SVN做版本控制只好装一个Eclipse插件Subcli...

2011-11-09 16:05:44 96

原创 eclipse 3.3+myeclipse 6.0+tomcat配置JSP开发环境

本人今天忙了一整天,终于把JSP的开发环境配置完成了,在配置过程中遇到不少问题,现在记录以下我的配置过程:  开发环境:  JDK:j2sdk 6.0-windows-i586.exe  下载地址:java.sun.com/javase/downloads/index.jsp            Tomcat:apache-tomcat-6.0.14.exe  下载地...

2011-11-09 15:36:51 139

原创 Eclipse插件的安装(转自百度空间)

Eclipse的开发能力本身很有限,但是它支持强大的插件功能,这使得这个免费开源的IDE倍受青睐。Eclipse的插件安装分为两种方式:1.在线安装在线安装十分简单,但是需要有较好的网络做支持。点击“Help”菜单,然后将光标移动到“Software Updates”菜单项上,然后单击“Software Updates”菜单项上的“Find and Install”子菜单,如图...

2011-11-09 11:37:19 102

Heritrix组件框图详解

         Heritrix是一个纯Java开发的、开源的Web网络爬虫,开发者可以可以根据自己的抓取逻辑来对它的各个组件进行扩展,但是在扩展之前必须对其各个组件有个整体的理解。下面的图示,是我在学习Heritrix时对整体各个组件间的关系的理解,仅供大家参考,自己能力有限,不对的地方大家一起探讨下。 ...

2011-10-27 11:23:14 146

Eclipse下配置Heritrix1.14.4

最近在看邱哲等人编著的《开发自己的搜索引擎Lucene+Heritrix》一书,里面有一章专门讲Hertrix的配置问题的,可是感觉讲得很麻烦,其实很简单。故将自己的配置方法整理下:由于Hertrix的是开源的网络爬虫工具,具有很强的可扩展性,开发者可以根据自己的抓取逻辑对其源码进行修改。但是如果你仅是想利用Hertrix进行网页的抓取,那么配置就更简单了。只需下载到SourceForge网站...

2011-10-25 20:09:14 120

博客推荐

      各位朋友,大家在浏览技术博客的目的无非是学习,但每个人的精力总是有限的,往往在无意之间发现一些别人可能没有发现的优秀博客,那么将这些博客推荐给你的朋友,大家一起学习,分享。同样,别人也会将他们发现的优秀博客推荐给你,这无意是一个双赢的学习交流方式。     现在我先推荐下我看到的几个优秀的博客,希望大家也能将你们感觉很好的博客推荐出来,大家一起学习:喜欢算法的朋友可以看下c...

2011-10-06 17:05:12 90

ICTCLAS2011_JNI学习笔记-ICTCLAS_ImportUserDictFile及ICTCLAS_SaveTheUsrDic接口

1、int ICTCLAS_ImportUserDictFile(byte[] sPath, int eCodeType)接口:     * Method:     ICTCLAS_ImportUserDictFile<! 导入用户词典文件>     * Parameter:  byte[] sPath<! 用户词典路径名称>     * Parameter:  int...

2011-09-30 09:18:57 112

原创 ICTCLAS2011_JNI学习笔记-ICTCLAS_FileProcess接口

boolean ICTCLAS_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged, byte[]sDestFilename)接口:该接口与ICTCLAS_ParagraphProcess接口类似,只是该接口用与处理文件,对整个文件的内容进行分词并标注,最后将结果存在目标文件中 * Method:     ICTCLAS...

2011-09-29 22:00:21 87

原创 ICTCLAS2011_JNI学习笔记-ICTCLAS_SetPOSmap及ICTCLAS_ParagraphProcess接口

1、int ICTCLAS_SetPOSmap(int nPOSmap)        * Method:     ICTCLAS_SetPOSmap<!指定词性标注集>        * Parameter:  int nPOSmap<! 标注集ID>            ICT_POS_MAP_SECOND 0 //计算所二级标注集            ICT_...

2011-09-29 21:51:18 140

原创 ICTCLAS2011_JNI学习笔记-ICTCLAS_Init及ICTCLAS_Exit接口

ICTCLAS_Init及ICTCLAS_Exit接口之所以放在一块是因为,无论在什么程序下,这两个接口都应该被调用。1、ICTCLAS_Init(byte[] sPath)接口:    * Method:     ICTCLAS_Init<!读取配置文件,加载词典等>    * Parameter:  byte[] sPath<!配置文件configure.xml,授权...

2011-09-29 21:31:42 120

ICTCLAS2011_JNI学习笔记-eclipse部署

这里首先将ICTCLAS的提供的JNI版本导入Eclipse工程下以便以后的开发,部署很简单:1)新建一个Java工程,将ICTCLAS提供的最重要的4个文件一并拷贝到工程目录下:Data目录:主要存放系统自带的各个词典文件、词性标注映射集及用户自定义词典等,在初始化时会根据配置文件的配置信息加载本目录下的词典Configure.xml文件:系统配置文件,主要有data目录的路径信息...

2011-09-29 21:17:21 127

ICTCLAS2011_JNI接口之学习笔记-整体介绍

最近因为实验需要中文分词工具,所以就学习了下中科院的分词工具ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)2011版,汉语词法分析系统ICTCLAS主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCL...

2011-09-29 20:50:18 138

原创 如何用VC6.0集成开发环境来构建MASM32汇编的编程环境(转)

开发高性能的程序少不了用汇编编程,限于C语言中内嵌汇编语言的局限(如在C代码中混合汇编语言编程时,很难实现跳表),一些代码必须书写在独立的汇编源文件中。遗憾的是,在调试时,只能看到裸的汇编码,而不能到懂标号,变量等,现在能这样C与ASM混合编程就方便多了。编程环境:VC6.0,Masm32v8优点:[1] 使用VC6.0集成开发环境可以利用其强大的Debug功能来实现源代码级调试(Sour...

2011-09-27 22:35:24 531

原创 读书笔记:《深入java虚拟机第二版》--- Java的体系结构 (转)

原文链接:http://www.cnblogs.com/nicholas_f/articles/1733512.htmlJava体系结构包括四个独立但相关的技术:Java程序设计语言Java class文件格式Java应用编程接口(API)Java虚拟机用Java编程语言编写源代码,把它编译成Java class文件,然后再在Java虚拟机中运行class文件(图1.1...

2011-09-27 21:15:28 83

原创 从U盘安装CentOS-5.3-i386到服务器

今天给实验室的服务器装Linux系统,准备利用U盘来安装CentOS5.3版本的Linux发行版,在网上搜了下资料,发现一篇文章与写的不错,但不知是环境的不同还是原作者在写博客时有什么疏忽有些细节出现些问题,所以在此我将自己的安装过程记录一下,以便各位朋友参考。原文地址:http://hi.baidu.com/cwbdde/blog/item/57331bd3b2fc3fd3a8ec9aac.ht...

2011-07-31 19:54:58 187

原创 C中的getchar()函数的使用总结

最近在学习C语言,在看字符处理这部分的时候,有个重要的库函数getchar(),可从终端获得一个字符的ASCII码值。在终端输入字符时并非输入一个字符就会返回,而是在遇到回车换行前,所有输入的字符都会缓冲在键盘缓冲器中,直到回车换行一次性将所有字符按序依次赋给相应的变量,在这里一定要注意最后一个字符即'\n',该字符也会赋给一个相应的变量(当然这要你定义的用来接收字符的变量数比你输入的可见字符多一...

2011-06-27 14:41:08 256

子集和数问题的实现

源代码:#include <stdio.h>#define N 8int X[N]={0};int W[N];int M,NUM=0;int main(){ void input(); void sumofsub(int,int,int); int s,r,k; input(); s = r = 0; for(k=0;k<N;k++)  r += W[k]; k = 0; i...

2011-06-25 16:15:26 286

n-皇后问题的实现

最近在学习C语言,随便编写实现了一个8-皇后问题,同时他程序也可以扩展为N-皇后问题.8-皇后问题描述:八皇后问题是一个古老而著名的问题,是回溯算法的典型例题。该问题是十九世纪著名的数学家高斯1850年提出:在8X8格的国际象棋上摆放八个皇后,使其不能互相攻,即任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法。高斯认为有76种方案。1854年在柏林的象棋杂志上不同的作者发表了4...

2011-06-24 21:41:53 95

原创 Google的秘密-PageRank

原文地址:http://www.kreny.com/pagerank_cn.htm,这里简单的介绍下,该文的主要内容,详细请看原文。 最近,搜索引擎 Google (http://www.google.com/)非常引人注目。Google 是基于现担任 CEO 的 Larry Page 和担任总经理的 Sergey Brin (2001年2月)在就读于美斯坦福大学研究生院时所开发的搜索引擎...

2011-06-13 20:27:19 101

Linux主机启动流程

当Linux主机启动后,整个开机流程可简单的描述如下:打开计算机电源,开始读取固化到主板上面的 BIOS程序,同时并进行主机的自我测试;透过 BIOS程序 取得第一个可启动装置(一般主机可以通过在系统启动时长按delete键或Fn等进入BIOS设置界面进行该选项的设置),然后读取主要启动区 (MBR) (存放在上面读取到的启动装置的第一块扇区)取得启动管理程序;透过...

2011-06-12 16:50:54 145

原创 函数指针和函数数组

原文地址:http://blog.csdn.net/dragoniye/archive/2008/12/17/3537701.aspx函数指针是指向函数的指针变量。  因而“函数指针”本身首先应是指针变量,只不过该指针变量指向函数。这正如用指针变量可指向整型变量、字符型、数组一样,这里是指向函数。如前所述,C在编译时,每一个函数都有一个入口地址,该入口地址就是函数指针所指向的地址。有了指向函数...

2011-06-12 13:55:28 66

原创 C语言深入浅出可变参数函数的使用技巧

深入浅出可变参数函数的使用技巧本文主要介绍可变参数的函数使用,然后分析它的原理,程序员自己如何对它们实现和封装,最后是可能会出现的问题和避免措施。VA函数(variable argument function),参数个数可变函数,又称可变参数函数。C/C++编程中,系统提供给编程人员的va函数很少。*printf()/*scanf()系列函数,用于输入输出时格式化字符串;exec*()系列...

2011-06-12 13:28:15 81

原创 Map Reduce – the Free Lunch is not over?(孟岩)

最近在学习有关分布式技术方面的知识,首先看了下google的MapReduce编程模型。看了之后,又在网上找了些资料,感觉这篇文章写的非常棒,所以转载过来以供大家分享。这篇文章是孟岩写的,原文地址http://www.mengyan.org/blog/archives/2006/11/15/138.html     原文内容:微软著名的C++大师Herb Sutter在2005...

2011-06-09 22:09:16 161

原创 latent Dirichlet allocation (LDA)[转]

Latent Dirichlet Allocation(LDA) [pdf]模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。关键所在:it posits that each document is a mixture of a small number of topics and that each word’s creation is attributable to o...

2011-05-20 15:29:05 179

原创 关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码

LDA和HLDA:(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics," Pro...

2011-05-20 14:53:45 338

原创 基于LDA的Topic Model变形

转载:http://hi.baidu.com/fandywang_jl ... 9dd9dd3ac76362.html      最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体...

2011-05-20 14:50:44 229

原创 一篇改了81次的最佳学生论文--高斌(转)

一篇改了81次的最佳学生论文          今年(注:2008年)7月在新加坡举行的第31届国际信息检索大会(SIGIR)上,微软亚洲研究院的一篇论文《BrowseRank: Letting Web Users Vote for Page Importance》获得了最佳学生论文奖(Best Student Paper Award)。这个奖项是在大会晚宴上颁发的,而晚宴是在新加坡著名的旅游景点...

2011-05-20 14:48:31 178

原创 Twitter相关研究(转)

原文连接:http://hi.baidu.com/flyer_hit/blog/item/ad18d6d02eb04d9aa1ec9c6e.html1. Twitter基本的统计性质Kwak-www-10weng-wsdm-101.1 Following/Followers之间的关系1.2 ...2. Twitter中内容分析的研究2.1 自动生成标签Mihalcea-EMNLP04Wu-HL...

2011-05-20 10:01:31 181

原创 有关情感分析的研究总结(转)

这个分类只是一个很粗糙的分类,并且截止到今年5月份,此后没有继续更新。论文包含的也不是很全,但是以小见多未必是一件坏事!1 Topic modeling for sentiment analysis1.1 Unsupervised aspect extraction [25]1.2 Weakly supervised aspect extraction [4, 16, 17, 24, 1, 1...

2011-05-20 10:00:09 942 1

原创 有关情感分析和观点挖掘的几个概念(转)

情感和主观观点分类(sentiment and subjectivity classification):情感分析(sentiment analysis)就是一个文本分类(text classification)问题,主要有两个级别: 文档级别的分类:含有主观观点的文章表达的是正面的还是负面的观点(positive or negative opinion),有个专用名词表示这一类sen...

2011-05-20 09:57:33 446

原创 五种情感分析工具(转自译言网)

感情分析(sentiment analysis)是一种长期热门趋势,终将会成为搜索引擎的关键功能之一。《纽约时报》最近撰文对感情分析进行了讨论。该文章介绍了三种感情分析工具:Scout Labs,《金融时报》的Newssift,以及Jodange。并且还提到了三个Twitter应用:Tweetfeel Twendz和Twitrratr。本文将介绍另外五个用于情感分析的工具。 1. 监测...

2011-05-19 11:33:37 3211

原创 Social Networking: The Future

Editor’s note: This is the third of a three-part guest post by venture capitalist Mark Suster of GRP Partners on “Social Networking: The Past, Present, And Future.” Read Part I and Part II first. This...

2011-05-17 22:36:45 494

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除