自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (9)
  • 收藏
  • 关注

转载 DARPA Seeks To Learn From Social For Warfare

Agency aims to explore how the use of social media--particularly on mobile devices--can be used to help wage military campaigns.By Eli

2011-08-12 19:12:32 1289

转载 Mining social networks to predict your app choices

UNSURE which app to download to your smartphone? While you waver, internet giants like Apple and Google could soon be predicting what you wi

2011-08-11 16:21:00 482

原创 推荐网易公开课

自我感觉网易公开课真的做得很不错,课程同样是来自世界各大名校,最吸引人的是它提供中英文字幕,上面有各种学科的公开课,比如说数据挖掘方面的,上面有机器学习的课。其他的热门课程,比如“幸福课”,“死亡课”等等,不是我想为网易做广告,它实在做得很有特色,有时间就上去逛逛。(网易公开课网

2011-07-12 23:07:17 1602 2

转载 一个数据结构学习的可视化网站

非常适合可视化教学,感兴趣的朋友可看看~~ http://www.cs.usfca.edu/~galles/visualization/Algorithms.html

2011-07-08 10:52:54 517 1

原创 一种高效的混合聚类算法

<br />     聚类分析是数据挖掘中的重要任务,就是根据对象之间的相似度将对象划分为不同的组,使得同一组内的对象相似度最大化,而不同组内的对象相似度最小化的方法。聚类分析通常用于从大量数据中寻找隐含的数据分布和模式,既可以作为一个独立的工具来使用,也可以作为其它算法(如特征构造与分类等)的预处理步骤。聚类分析已得到广泛地研究,在文献中已有许多聚类算法,然而对于大规模数据集的高效聚类算法的研究仍然是一个充满挑战的问题。<br />     Chameleon算法是一种基于图的层次聚类算法,该算法利用基于

2011-04-15 08:50:00 1229 1

原创 一种高效的搜索结果多层聚类方法

    以Google和百度为代表的搜索引擎,在用户输入关键词进行查询后,返回的是成千上万的相关结果,往往需要用户花大量时间浏览与选择,不能满足用户快速获取信息的愿望。为了解决这一问题,很多学者开始研究检索结果聚类算法。当前检索结果聚类方法主要可以分为两类:基于文档的方法和基于标签的方法。基于文档的方法通常是先使用余弦夹角公式计算文本相似度,再采用传统的文本聚类算法对检索结果进行聚类,最后使用一种加权策略提取具有代表性的词或句子作为类别标签。    提出一种基于名词短语的检索结果多层聚类方法(multi-l

2011-04-15 08:41:00 967 1

转载 能“穿越时空”的新搜索引擎

新闻来源:Technology Review过去,人们曾试过以一条时间轴来显示新闻故事。而现在,雅虎的巴塞罗那研究实验室研发的时间探险家(Time Explorer)新闻搜索引擎原型能够生成贯穿过去与未来的时间轴。时间探险家的结果页上最重要的组成部分是一条互动的时间轴。这条时 间轴能够显示出关于某特定搜索词的相关文章在时间上的数量变化。最有可能相关的文章会出现在时间轴上,并标明了发布日期。若用户将这条时间轴移到未来的 话,任何提到未来某一时点的相关文章就会显示出来。它不仅提供了一种查看新闻的新方式,还使人们

2010-08-29 09:54:00 484

转载 美国名校网上公开课_free online courses of America's top colleges

<br />耶鲁大学公开课程:http://oyc.yale.edu/<br />麻省理工大学公开课程:http://ocw.mit.edu/<br />斯坦福大学公开课程:http://itunes.stanford.edu/<br />加州大学伯克利分校公开课程:http://webcast.berkeley.edu/courses.php<br />卡内基·梅隆大学公开课程:http://oli.web.cmu.edu/openlearning/<br />ITUNES U 和 YOUTUBE.COM

2010-08-01 19:20:00 695

原创 在xp和Win7上使用Tomcat 6.0经常遇到的几个问题及其解决方法

<br />在Win7上使用Tomcat 6.0经常会遇到一下几个问题:<br /> <br />1.将Tomcat 6.0作为WEB应用程序的服务器时,经常会出现乱码,即编码问题。最常用的解决方法就是在/conf/server.xml中的connector标记中加URIEncoding="utf-8",统一为uft-8编码。<br /> <br />2.最好不要把Tomcat 6.0装在系统盘里,因为很多时候在Win7 系统盘上安装完Tomcat 6.0,会出现运行错误。<br /> <br />3.刚在

2010-07-08 20:15:00 1164

原创 使用LUCENE快速实现属于自己的英文分词程序——附简单实现

简单的英文分词程序现在已经有很多现成的JAR包实现了此功能,最流行的就是LUCENE里的analysis包,analysis包里包含许多类型的分词器、过滤器、分析器,可以让我们自由组合实现我们需要的功能。 使用LUCENE的analysis包,可以快速实现按照字符分割的英文分词,附带过滤停用词功能的分词器(有默认的停用词表,也可以自己指定,指定方式有多种:包括停用词表的文本文档;把停用词加

2010-02-26 14:46:00 1965

转载 新一代商业智能

在适当的时候将适当的信息交给适当的人:从一开始,这句话就成为商业智能(BI)的最高境界。但是如今,关于 BI 和数据仓库(DW)社区如何实现那个目标的各种因素正在变化。当数据的来源、类型和绝对数量不断增长的时候,什么才是适当的信息?谁应该拥有这种信息——谁不应该拥有这种信息?当业务流程涉及需要跨越全球协作的多个用户和系统时,什么才是“适当的时候”?  答案是不确定的,也就是说,企业满足 BI

2009-08-26 20:14:00 515

转载 未来五年BI商业智能的走向

BI(商业智能)是当今企业软件市场上最令人兴奋的领域之一,这个行业正在发生变化,用户的需要和BI生态系统都在经历同步增长。Web 2.0使互联网正在经历根本性的变化。Web2.0一般被认为是面向消费者的,但其真正的影响却是在企业方面。通过向Web 2.0学习,BI将在未来五年经历一次根本性的转变,在这次转变中包括五项主要的革命。>用户革命面向消费者的技术已经变得更加易于使用。而商业系统却还

2009-08-26 20:05:00 324

转载 lucene + IKAnalyzer 中文分词及索引,简单实例

import org.apache.lucene.document.Document;    import org.apache.lucene.document.Field;    import org.apache.lucene.document.DateTools;    import org.apache.lucene.index.IndexWriter;    impo

2009-08-26 18:43:00 1741

转载 常用正则表达式

正则表达式用于字符串处理、表单验证等场合,实用高效。精通正则表达式的同时也要有一些使用正则表达式的经验才能更好的使用它。现将一些常用的表达式收集于此,以备不时之需。匹配中文字符的正则表达式: [/u4e00-/u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^/x00-/xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,AS

2009-08-16 11:25:00 384

转载 java编程规范

1          Java编程规范1.1      命名约定1.1.1     包的命名JDK 的标准是――包名称的所有字母均小写,如:package myownpackage;1.1.2     类的命名JDK 的标准是――大写一个类名的首字母,若类名由几个单词构成,那么把它们紧靠到一起(也就是说,不要用下划线来分隔名字)。此外,每个嵌入单词的首字母都要采用大写形式。

2009-08-11 17:15:00 919

原创 使用中科院汉语分词系统ICTCLAS2009共享版(JNI)会出现的问题

1. 在使用中科院汉语分词系统ICTCLAS2009共享版(JAVA)的过程中,你可能会遇到这样的问题提示:## An unexpected error has been detected by Java Runtime Environment:##  EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x03f75b46, pid=2872, tid

2009-08-09 13:13:00 1783 1

原创 在NETBEANS上使用中科院汉语分词系统ICTCLAS2009共享版

     我在网上注意到没有什么信息是与在NETBEANS上实现ICTCLAS2009共享版有关的,所以,把我的实现经验写出来和大家分享。      首先,到http://ictclas.org/下载ICTCLAS2009共享版的代码,解压后,你会看到一个叫到“sample”的文件夹,里面是实现示例,可以直接在DOS界面用JAVAC和JAVA命令来运行示例程序看一下效果。     

2009-08-09 12:51:00 1066 2

转载 Java系统中内存泄漏测试方法的研究

  摘 要 稳定性是衡量软件系统质量的重要指标,内存泄漏是破坏系统稳定性的重要因素。由于采用垃圾回收机制,Java语言的内存泄漏的模式与C++等语言相比有很大的不同。全文通过与C++中的内存泄漏问题进行对比,讲述了Java内存泄漏的基本原理,以及如何借助Optimizeit profiler工具来测试内存泄漏和分析内存泄漏的原因,在实践中证明这是一套行之有效的方法。  关键词 Java; 内存泄漏

2009-08-01 09:58:00 412

转载 java垃圾收集算法——垃圾清理势在必行

1.垃圾收集算法的核心思想  Java语言建立了垃圾收集机制,用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险:因内存垃圾过多而引发的内存耗尽,以及不恰当的内存释放所造成的内存非法引用。  垃圾收集算法的核心思想是:对虚拟机可用内存空间,即堆空间中的对象进行识别,如果对象正在被引用,那么称其为存活对象,反之,如果对象不再被引用,则为垃圾对

2009-07-31 20:40:00 373

SCI 学术论文撰写总攻略

第一部分:选题与创新;第二部分:构思与撰文;第三部分:选刊与投稿;第四部分:修回与退稿;第五部分:其他内容

2011-08-16

数据挖掘分类建模算法——贝叶斯分类算法

数据挖掘分类建模中应用广泛的分类算法,而且效果也不错!

2009-11-08

begining ajax with asp.net

Ajax is a set of technologies that will revolutionize the way that web-based applications are designed. It revolutionizes the way that applications are used, provides users a responsive application, and provides developers with the alternatives for building their applications. We believe that this book will meet your needs regarding programming Ajax on the ASP.NET platform.

2009-08-23

《简明Python教程》CHM和PDF版本

《简明Python教程》CHM和PDF版本,希望为大家学习Python提供便利。

2009-08-23

停用词(包含中英文停用词表)

包含中英文停用词表,希望在涉及过滤停用词的分词应用上,大家用得着。

2009-08-12

lucene-analyzers-2.2.0

lucene jar包 在分词,开发自己的搜索引擎有着强大的功能

2009-08-11

《数据挖掘导论》PPT

《数据挖掘导论》的书所附带的PPT,总共包含十张PPT,介绍了数据预处理、分类建模基础知识、高级分类算法、聚类分析基础知识、高级聚类算法、关联分析基础知识、高级关联分析算法、异常检测等内容。

2009-08-11

kmeans文本聚类算法

kmeans文本聚类算法的简单实现,是用JAVA实现的

2009-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除