- 博客(7)
- 收藏
- 关注
转载 文章标题
这问题,估计计算机专业的同学在找研发等工作的时候都会遇到过。前几天某老牌软件厂商的电话面试就提到了这一经典问题,今天招聘会上又有不少同学说在面试的时候被问到这点。在这里我就起个头,大家有啥想法意见等都欢迎回帖交流。要了解二者的区别与联系,首先得对进程与线程有一个宏观上的了解。进程,是并发执行的程序在执行过程中分配和管理资源的基本单位,是一个动态概念,竟争计算机系统资源的基本单位。每一个进程都有一个自
2015-10-10 17:05:40 334
转载 欢迎使用CSDN-markdown编辑器
下面是25个Java机器学习的工具&&库列表:Weka 是一个数据挖掘任务机器学习算法的集合。这些算法可以直接应用于数据集或者在你自己的Java代码中调用。Weka 包含 数据预处理、分类、回归、聚类、关联规则、可视化 等工具。Massive Online Analysis (MOA) 是一个非常流行的数据挖掘方面的开源框架,它有一个非常活跃的社区。它包括一组机器学习算法(分类、回归、聚类、异常
2015-09-13 11:56:03 289
转载 海量数据相似度计算之simhash短文本查找
在前一篇文章 《海量数据相似度计算之simhash和海明距离》 介绍了simhash的原理,大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增,如果一天100w,10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash,计算量还是蛮大,普通PC 比较1000w次海明距离需要 300ms ,和5000w数据比较需要1.8 s。看起来相似度计算不是很慢,
2015-07-21 18:29:37 382
转载 海量数据相似度计算之simhash和海明距离
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和
2015-07-21 17:50:14 532
转载 mysql常用客户端工具
mysql客户端工具mysql客户端工具一共有4个,mysqlfront, sqlyog, mysqlbrowser, ems mysql manager。 mysqlbrowser的优点是简单,及其的简单,安装之后能够立刻上手,马上就能使用的那种,布局也很简陋,功能也很简陋,简单使用没有问题,尤其是刚开始学习mysql的同学,可以尝试一下。 接下来是ems,ems到了另外一个极端
2015-07-20 16:25:46 4059
原创 ubuntu14.10下java1.7安装
由于刚接触linux系统,对于菜鸟的我来说,无疑难入登天。在网上查看了一些资料,始终不敢下手,说实话是不知道该如何下手。经过努力,总算安装完成。下面附上方法,希望给自己做一下备份,通用希望能够帮助一些人,废话不多说。。个人的情况不同,我先说一下我的方法:首先,要确定自己安装ubuntu的版本,Alt+Ctrl+t 打开命令窗口,输入 uname -ar可显示是32位或者64位。
2015-06-10 20:47:47 903
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人