自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (61)
  • 收藏
  • 关注

原创 C#string数组去重方案

public static void Purge(ref ListneedToPurge)        {                        for(int i=0;i            {                string deststring=needToPurge[i];                for(int j=i+1;j               

2009-07-31 10:59:00 1135

原创 html 标签解嵌套

一:前言:网页源码中有很多嵌套的标签例如div标签嵌套如:[email protected]我们的网页解析工作中有时候需要解嵌套。通俗的讲就是把嵌套的标签以线性表的形式表示出来。还拿上面的例子来说明。即解嵌套为aurora [email protected] class=/"Cited1/">ggff核心代码如下: CodeCo

2009-07-31 10:57:00 806

原创 C#操纵大量数据表的一种方法菜鸟经验谈

问题描述:一个数据库中的某张表A有5,6万条记录。我们要对该表的每条记录做相同的处理,并将处理结果保存到表B。这时我们不能采用SqlDataReader读一条记录,处理,储存到表B的方案。因为sqldatareader对数据库连接具有独占性,所以我们就不能储存记录到表B了。还有一种方案是可行的,就是在内存中采用datatable数据结构映射一张A的虚表A‘,这种方法固然可行。但是这样做无疑是耗内存

2009-07-31 10:55:00 594 1

原创 http404 error的一种解决方案

     需求分析:本人最近做一个项目,项目中需要从新闻的索引页(就是上面有很多链接的那种网页),获取新闻正文页源码,并将新闻正文页源码保存到本地数据库中。    但是由于网络稳定性的原因,总会出现 404 page not found 类型的error。(但是网页是确确实实存在的)。而且这种错误,往往是在程序运行一段时间后出现的,觉得很不可思议。我在网络上查这种问题的解决方案时,发现没有一种管用

2009-07-31 10:49:00 8018

原创 菜鸟练习C#htmlparser----C#正则加htmlDOM进行网页解析腾讯新闻帖子列表相关信息提取

适用网站有7.奇闻异事:http://news.qq.com/newssh/qwqs/qwqs3j.htm(简单无其他连接)·组图:地球上最像外星的九大地方(2009年05月04日11:17)时间8.社会观察:http://news.qq.com/newssh/sh-shgc3jy.htm(同上)tr>·齐鲁晚报:“三鹿”之后为何仍有“晨园”(2009年04月27日08:0

2009-05-06 22:15:00 5530

原创 菜鸟入门:C#htmlparser的配置与使用。

1 。配置先下载C#的htmlparser包(Winistaparser)。及说明见我CSDN的资源空间。VS2005下项目->添加引用->浏览(找到)Winistaparser/bin/debug/winstahtmlparser.dll添加即可。2。练习使用快速入门教程见http://www.zhangyongjun.com/blog/article.asp?id=226;代码

2009-05-05 22:09:00 3570 1

面向中文DBLP的知识族谱算法

自动化学科知识服务网络平台的后台数据处理算法,详情请见 http://www.cnblogs.com/finallyliuyu/ http://www.datatang.com/member/5878

2013-05-31

面向中文DBLP的关键词和术语聚类算法

自动化学科知识服务网络平台的数据处理算法 详情请见http://www.datatang.com/member/5878 和 http://www.cnblogs.com/finallyliuyu/

2013-05-31

面向中文DBLP的人名消歧机构名称归一化算法

面向中文DBLP的人名消歧机构名称归一化算法 详情请见:http://www.datatang.com/member/5878中的相关资料 http://www.cnblogs.com/finallyliuyu/中的相关资料

2013-05-31

TabControl CLISTCtrl的用法示例程序

MFC TabControl CLISTCtrl的用法示例程序 MFC TabControl CLISTCtrl的用法示例程序 MFC TabControl CLISTCtrl的用法示例程序 并且含有数据库操作

2010-12-31

卡方特征词选择法选取1000个特征词

卡方特征词选择法选取1000个特征词的中间文件

2010-10-04

IG法选取1000个特征词

IG法选取1000个特征词的中间文件

2010-10-04

point wise MI选取1000个特征词

point wise MI选取1000个特征词的中间文件

2010-10-04

全局DF法选取1000个特征词的中间文件

全局DF法选取1000个特征词的中间文件

2010-10-04

localDF法1000个特征词的中间文件

localDF法1000个特征词的中间文件

2010-10-04

DF特征词选择法选取4000个关键词

DF特征词选择法选取4000个关键词的中间文件

2010-10-04

point wise mi 特征词选择算法中间文件

point wise mi 特征词选择算法中间文件 包括MI法遴选出的特征词;训练集和测试集的VSM模型 以及最后的评测结果文件

2010-10-04

卡方特征词选择法中间文件

卡方特征词选择算法的中间文件 包括用卡方法选出的特征词, 测试文档集合VSM模型, 训练文档集合VSM模型 最后的评测结果文件

2010-10-04

IG特征词选择算法的中间文件

IG特征词选择算法的中间文件。 包括用IG法选出的特征词,测试文档集合的VSM模型,训练文档集合的VSM模型,以及最后的评测结果

2010-10-04

DF特征词选择法中间文件

里面包含的文件有:最后的评估结结果evaluation.txt 测试集的VSM模型,训练集的VSM模型

2010-10-04

DictionaryandContigencyTable

文本分类的中间数据结构,统计词典,以及关联表

2010-10-04

音标学习软件,音标发音

音标学习的一个软件,可以配合我整理的文档一起使用。 文档浏览地址: http://wenku.baidu.com/view/22af8d22bcd126fff7050b25.html

2010-09-13

LibSVM进行文本分类

包括调用LibSVM进行分类的程序,以及文本预处理部分的程序详情见:http://www.cnblogs.com/finallyliuyu/archive/2010/09/04/1818019.html

2010-09-04

C++写Arff数据预处理

C++写Arff文本详情见http://www.cnblogs.com/finallyliuyu/archive/2010/09/02/1816293.html

2010-09-03

bzip boost安装组件

bzip boost 安装组件 详情见http://www.cnblogs.com/finallyliuyu/archive/2010/08/23/1806811.html

2010-08-23

Zlib boost 安装组件

Zlib boost 安装组件详情见http://www.cnblogs.com/finallyliuyu/archive/2010/08/23/1806811.html

2010-08-23

ICU unicode转化

安装boost需要的模块详细请见http://www.cnblogs.com/finallyliuyu/archive/2010/08/23/1806811.html

2010-08-23

词性标注软件所需的模型文件

词性标注软件所需的模型文件详情请见http://hi.baidu.com/finallyliuyu/blog/item/5c2ce7f09ce3135d352accc7.html

2010-08-18

词性标注模型软件所需要的模型文件(Part2)

词性标注软件所需的模型文件详细请见http://hi.baidu.com/finallyliuyu/blog/item/5c2ce7f09ce3135d352accc7.html

2010-08-18

词性标注软件需要的模型文件

词性标注软件需要的模型文件,详细请见http://hi.baidu.com/finallyliuyu/modify/blog/5c2ce7f09ce3135d352accc7

2010-08-18

改写后的lucene snowball

可以进行英文词性标注,词根还原,对lucene,snowball源码进行了部分改写

2010-08-18

新闻文本分类libsvm格式数据

有搜狗分类新闻语料库得出的libsvm格式数据,特征词选择方法为IG,更多了解请参阅个人博客http://hi.baidu.com/finallyliuyu/home 查阅相关文章

2010-08-17

48个国际音标 英语音标发音软件

本软件 为英语音标发音辅助使用软件,和前面的《英语音标发音舌位,口型详细表》配套使用效果更加,此软件适合有一定音标发音基础,但是若干发音不太清楚的同仁。对于初学者而言,不够详细。请大家根据个人具体情况选择性下载

2010-06-26

自然语言处理语料凤凰新闻第二部分

凤凰新闻文本第二部分 欢迎大家光临我的博客:http://hi.baidu.com/finallyliuyu 如您在语料库的使用中遇到什么问题,可从以上博客联系我

2010-05-08

自然语言处理语料库新闻文本凤凰新闻第一部分

欢迎大家下载评价,如果对新闻文本纯度有什么建议,欢迎光临我的个人博客http://hi.baidu.com/finallyliuyu 进行交流

2010-05-08

Dynamic Extreme Learning Machine: A learning Algorithm for Neural Network with Elastic output structure

同学发表的一篇论文, 水会。 上传到这里,还是希望更多的人能够了解,和指正。

2010-05-08

北京邮电大学毕业设计,新闻网页解析器

本科毕业做的程序,包括论文,和程序实现源代码

2010-03-20

清华大学统计信号处理的答案

清华大学研究生课程 统计信号处理的答案。是对手写板答案进行扫描的

2010-03-13

自然语言处理---语料库

上学期自己下载的新闻,新闻时间是在2009年12月末

2010-03-13

用于自然语言处理的语料库——新浪新闻

我自己写的新闻解析器从网页中提取的,支持多页新闻,效果不错。

2010-03-13

用于做自然语言相关处理的新闻语料库。自己写的解析程序下载的

我毕设过程中提取的新闻,可以用来做语料库使用。

2010-03-13

文本KL熵计算(计算两段文字的KL熵)java编程

自然语言处理学习中的一个小例子。具体请见 http://www.cnblogs.com/finallyliuyu/archive/2010/03/12/1684015.html

2010-03-12

ASP.Net 编程实例 简易BBS系统

资源来自CSDN,可是原来的程序不能运行,经过修改几个bug后程序能运行了,希望对初学者有用,大家有了感官认识学起来也就快了。 首先感谢这个系统的Initial作者,没有他们的分享就没有这个源码,我在此改进上传,是希望初学者,尤其是生手,能够快速入门。更多参考请见 http://www.cnblogs.com/finallyliuyu/archive/2010/01/27/1657855.html

2010-01-27

Matlab版prim Kruskal算法实现文档

前些日子,我曾在资源中上传了这两个Matlab版本算法的源码,今天忽然间找到了文档,就把文档也上传了吧。终于意识到了文档的重要性。还请大家多多指正。

2010-01-04

《现代信息检索》 modern ir

中科院研究生院现代信息检索过去的指定教材,新版指定教材暂不公布

2010-01-04

现代信息检索延伸资料

我在课程作业中做的PPT,还请大家多多指教

2010-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除