叶不美丽-CSDN博客

转载文章标题

这问题，估计计算机专业的同学在找研发等工作的时候都会遇到过。前几天某老牌软件厂商的电话面试就提到了这一经典问题，今天招聘会上又有不少同学说在面试的时候被问到这点。在这里我就起个头，大家有啥想法意见等都欢迎回帖交流。要了解二者的区别与联系，首先得对进程与线程有一个宏观上的了解。进程，是并发执行的程序在执行过程中分配和管理资源的基本单位，是一个动态概念，竟争计算机系统资源的基本单位。每一个进程都有一个自

2015-10-10 17:05:40 334

转载欢迎使用CSDN-markdown编辑器

下面是25个Java机器学习的工具&&库列表：Weka 是一个数据挖掘任务机器学习算法的集合。这些算法可以直接应用于数据集或者在你自己的Java代码中调用。Weka 包含数据预处理、分类、回归、聚类、关联规则、可视化等工具。Massive Online Analysis (MOA) 是一个非常流行的数据挖掘方面的开源框架，它有一个非常活跃的社区。它包括一组机器学习算法(分类、回归、聚类、异常

2015-09-13 11:56:03 289

转载 myeclipse一些智能提示修改

myeclipse一些智能提示修改设置

2015-08-30 10:10:59 353

转载海量数据相似度计算之simhash短文本查找

在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是很慢，

2015-07-21 18:29:37 382

转载海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和

2015-07-21 17:50:14 532

转载 mysql常用客户端工具

mysql客户端工具mysql客户端工具一共有4个，mysqlfront, sqlyog, mysqlbrowser, ems mysql manager。 mysqlbrowser的优点是简单，及其的简单，安装之后能够立刻上手，马上就能使用的那种，布局也很简陋，功能也很简陋，简单使用没有问题，尤其是刚开始学习mysql的同学，可以尝试一下。接下来是ems，ems到了另外一个极端

2015-07-20 16:25:46 4059

原创 ubuntu14.10下java1.7安装

由于刚接触linux系统，对于菜鸟的我来说，无疑难入登天。在网上查看了一些资料，始终不敢下手，说实话是不知道该如何下手。经过努力，总算安装完成。下面附上方法，希望给自己做一下备份，通用希望能够帮助一些人，废话不多说。。个人的情况不同，我先说一下我的方法：首先，要确定自己安装ubuntu的版本，Alt+Ctrl+t 打开命令窗口，输入 uname -ar可显示是32位或者64位。

2015-06-10 20:47:47 903

orac12的博客