自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

beifeng600的专栏

不忘初心

  • 博客(18)
  • 资源 (11)
  • 收藏
  • 关注

原创 中文信息处理--分句

中文信息处理--分句    工欲善其事必先利其器。中文信息处理之,中文分句。    按这几个标点“ 。!?…!?”,将中文进行分句,一般会遇到一些问题,比如成对的《》“”‘’{}()()【】"",如果其中包含句的标点,会将完整的一句话拆分成几个句子。    以下是使用Python实现的中文分句程序,可以处理单个文件或者文件夹,但文件编码需为UTF-8,    # cod

2015-08-24 01:04:50 2708 1

原创 文本编码检测

工欲善其事必先利其器 -- 文本编码检查   处理文本的时候,经常会遇到各种不同的文件编码。将它们批量转换成同一编码,再批量进行其他操作会方便很多。今天在github上发布了一个 批量检测文件编码的小工具,希望对经常处理文本的朋友有所帮助。并能批量转换编码。用java写的,需要安装java运行环境,建议 JDK 1.7 +地址:https://github.com/beif

2015-07-17 08:40:07 742

转载 17句名言

这17句话是:     科学是漫长的路,不是靠聪明就能高人一筹,需要忍耐;     小班课教学期待在讨论中解决问题,讨论有助于学习知识,更有助于同学完善自我;     通识教育能让同学们广泛涉猎、横跨文理,同学们要用一些时间广泛阅读,多读经典,对人生有一次宽泛的思考;     我们要学习的不只是知识,很多东西在课堂之外;     那些看似“没用”的知识往往可以丰富人生,给自己无

2014-09-16 13:12:31 1463

转载 北大校长 王恩哥的10句话

王恩哥的10句话:一、结交两个朋友~一个运动场,一个图书馆,不断地充电、蓄电、放电。二、培养两种功夫~一个本分,做人靠本分,做事靠本事,两本起家靠得住。三、乐于吃两样东西~一个是吃亏,一个是吃苦,做事不怕吃苦,做人不怕吃亏。四、具备两种力量~一种思想的力量,一种是利剑的力量。思想的力量往往战胜利剑的力量,这是拿破仑的名言。一个人的思想走多远,他就有可能走多远。五、追求两个一致,

2014-09-16 13:10:00 1438

原创 2014年全国高等学校名单

教育部发布2014年全国高等学校名单,

2014-09-05 01:27:04 3651

原创 最新县及县以上行政区划代码(截止2013年8月31日)

如题,我国最新县及县以上行政区划名称及代码,截至2013年8月31日,来着国家

2014-09-05 00:32:25 11104

转载 推荐系统中所使用的混合技术介绍

原文转自:文/陈运文在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。引言在这个信息爆炸的时代,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,内容的生产者(例如商家)也在苦苦寻觅合适的用户,寻找最便捷的渠

2014-08-25 01:19:35 1187

原创 输出路径的最小编辑距离

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如将kitten一字转成sitting:sitten (k→s)sittin (e→i)sitting (→g)俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。(以上概念介绍

2014-08-05 02:17:29 1555

原创 约4万个外国人名,中英对照

以下是一些外国人名,中英对照

2014-05-10 19:10:55 14983

转载 <转>linux文件合并,去重

原文转自:http://www.2cto.com/os/201108/100617.html (1)两个文件的交集,并集前提条件:每个文件中不得有重复行1. 取出两个文件的并集(重复的行只保留一份)cat file1 file2 | sort | uniq > file32. 取出两个文件的交集(只留下同时存在于两个文件中的文件)cat file1 file2 |

2013-12-10 13:32:28 584

转载 <转>关于常见排序算法的稳定性分析和结论

关于常见排序算法的稳定性分析和结论原文见 http://hi.baidu.com/dpguclciokbfgld/item/381c2f0f5d4893ea34990256        这几天笔试了好几次了,连续碰到一个关于常见排序算法稳定性判别的问题,往往还是多选,对于我以及和我一样拿不准的同学可不是一个能轻易下结论的题目,当然如果你笔试之前已经记住了数据结构书上哪些是稳定

2013-10-16 23:14:36 649

原创 <编程之美>电话号码对应英文字母组合

2014.9.23 创新工场 北航站 笔试题,有个电话号码对应英文字母组合的题。当时没写出来,后在《编程之美》上也看到这题:电话的号码盘一般可以用于输入字母。如用2可以输入A、B、C,用3可以数D、E、F等。如下表所示:12ABC3DEF4GIH5JKL6MNO7PQ

2013-09-30 15:14:26 1196

原创 <笔试面试>2013.9.22 阿里校招 笔试题之 在黑板上写下50个数字,1至50

2013年9月22日 阿里巴巴校招 算法、研发 题之(仅供学习讨论)在黑板上写下50个数字:1至50,在接下来的49轮操作中,每次做如下操作,选取两个黑板上的数字a和b,擦去,在黑板上写|b-a|,请问最后一次动作之后剩下数字可能是什么?为什么?(不用写代码,不写原因不得分)。 1至n的数字,剩余的数字肯定为0至n的数字,假如剩下k,则可以这样认为,1至n的数字中除k外的数字全部抵消了

2013-09-28 15:02:56 1992

原创 <编程之美>给定一个十进制正整数N,写下从1开始,到N的所有整数,然后数一下其中出现的所有1的个数

这个是《编程之美》上的一个题目,题目如题:给定一个十进制正整数N,写下从1开始,到N的所有整数,然后数一下其中出现的所有1的个数。书上给出了两个解法,第一个就是笨方法,挨个数呗,最后加一块。第二个解法,有兴趣的自己看书上的分析吧,这里先把Java实现的代码贴下:public static long F_Sum1s(long n){ long iCount = 0; long

2013-09-28 12:29:50 5666

原创 Win7+PHP 5.4.19+Apache 2.2+phpMyAdmin 4.0

安装apache最好不要装到C:\Program Files\下,不然,因为权限的问题,操作会不方便主要参考博文安装Apache参考、配置phphttp://blog.csdn.net/achillesjps/article/details/7686684 安装MySQL很简单,只要记住用户名和密码就可以了,可以先用Navicat连接试一下配置phpmyadmin,参考博文

2013-09-13 09:39:28 1321

原创 一些中国优秀开源项目(来自CSDN2013年评选)

来自CSDN,2013年度中国优秀开源项目评选活动,多谢这些开源软件,让我们学习了很多东西,开发、学习容易了很多。 当时票数有限,只能选择了近期接触的几个开源软件,其他的也有很多好的。开源中国社区 http://www.oschina.net/ 里面也有很多,没事逛逛,学习下。

2013-07-02 20:05:11 1074

转载 《集体智慧编程》第九章 关于婚介数据集的SVM分类

原文转自 http://muilpin.blog.163.com/blog/static/165382936201131875249123/    《集体智慧编程》关于婚介数据集的SVM分类 作者写这本书的年代已经很久远了,于是里面使用到的LIBSVM接口与现在也非常不一样:1.书本上提高的官方下载svm已经更新至3.x版本,不适合(研究了很久,发现接口很大不一样,建议

2013-06-28 22:09:18 1361 1

原创 集体智慧编程 Programming Collective Intelligence 书中代码程序研究

集体智慧编程 Programming Collective Intelligence 书中代码程序研究     本人最近在学习《集体智慧编程》,英文名称为《Programming Collective Intelligence》。机器学习入门强烈推荐!    本书以机器学习和计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销,个人品味等诸多信息,

2013-06-26 11:11:35 2953

集体智慧编程书中源代码

集体智慧编程 Programming Collective Intelligence 书中源代码 Python 原书作者提供

2013-06-29

数据挖掘-实用技术机器学习(英文第二版)

数据挖掘实用机器学习技术,英文第二版,配合WEKA,易懂

2012-12-05

数据挖掘-实用机器学习技术(中文第二版)PDF

很实用的数据挖掘书,浅显易懂,配合WEKA,机器学习入门

2012-12-05

Natural Language Processing with Python

Natural Language Processing with Python,配合NLTK,很好的学习Python和自然语言处理技术

2012-03-11

大道至简-软件工程实践者的思想 pdf版

大道至简 软件工程实践者的思想 编程到实践

2010-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除