自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (8)
  • 收藏
  • 关注

转载 数据科学20:文本挖掘2

数据科学20:文本挖掘2Jun 26th, 2014图片由本文中数据生产~“文章原创,转载请注明出处”一、对词条-文档矩阵的操作在’tm’包中,提供了一些常用的函数,可以对得到的Document Term Matrix进行一些操作。当然,我们也可以使用自己的方式,对该矩阵进行一些探索,比如,我们先来看看词条的频数:1.1 词条频数

2015-01-26 14:16:55 838

转载 数据科学19:文本挖掘1-更新

数据科学19:文本挖掘1-更新Jun 25th, 2014图片由本文中数据生产~“文章原创,转载请注明出处”前几天,R中的’tm’包从0.5-10更新到了0.6版本。其中更新了不少的东西,对于上一篇中的代码,已经是不能够正确运行了。所以这里需要先更新一下上一篇中的一些代码,正好可以回顾一些之前的流程。12345678910

2015-01-26 14:08:58 663

转载 数据科学18:文本挖掘1

数据科学18:文本挖掘1Jun 18th, 2014图片由本文中数据生产~“文章原创,转载请注明出处”文本挖掘,也称为文本数据挖掘,意思就如字面,对文本数据进行挖掘分析。文本挖掘一般包含:文本分类、文本聚类、概念实体挖掘、自然语言处理等等。接下来,我打算用一个简单的例子,介绍一下R语言文本挖掘的一般过程,顺便介绍一些文本挖掘中的概念。这边主要使用R中的tm包进行文本

2015-01-26 14:05:58 1052

转载 数据科学之机器学习17:因子分析2

图片来源于网址“文章原创,转载请注明出处”这两天来了个同学,大家聚了聚,我也乘机休息了两天(好奢侈!)。这两天属于什么都没有写,就翻看了两本书。一本是二月河的康熙大帝,另外一本是推荐系统实践,这本书的电子版,图灵正在打折,有兴趣可以买本看看。好了,不废话了,下面就接着上一篇讲的继续!上一篇简单介绍了因子分析的一些概念,以及最基础的因子模型:正交因子模型。那么这一篇,就来说说正交

2014-05-21 15:44:40 1134

转载 数据科学之机器学习16:因子分析1

图片来源于网址“文章原创,转载请注明出处”前一篇介绍的主成分分析(PCA),是一种降维技术;这一篇介绍的因子分析也是一种降维的方法,不仅如此,还可以将因子分析看作是主成分分析的一种推广和发展。与之主成分分析相比较,因子分析更为灵活,对变量降维后的解释能够更加清楚。但因子分析和主成分分析有非常多的不同点。主成分分析不能作为一个模型来描述,主成分是观测变量的线性组合;因子分析需

2014-05-15 10:21:23 1602

转载 数据科学之机器学习15: 主成分分析

图片为:本文实例数据得到的,前两个主成分的散点图!“文章原创,转载请注明出处”在之前线性回归3提到多重共线性问题,当时说了一些解决这个问题的办法,其中一种就是今天要说的主成分分析。主成分分析,Principal Components Analysis,简称PCA,是变量选择的一种方法。其一般的目的就是:变量的降维和主成分的解释!当主成分用于聚类或者回归,这个时候就是在做变量的降维;

2014-05-14 09:36:20 1178

转载 数据科学之机器学习14: 关联分析之apriori算法

“文章原创,转载请注明出处”在上一篇中,我们介绍了关联分析相关的概念,这一节来看看如何使用Apriori算法去寻找满足条件的项集。首先回顾一个概念,一个项集的支持度就是数据集中该项集所占的比例。Apriori算法就是用于寻找数据集中,支持度和可信度超过某一给定值的项集和关联规则。一、原理在介绍算法之前,首先了解一个集合论中的性质定理:集合的向下封闭性。我们通过一

2014-05-09 14:54:02 1258

转载 数据科学之机器学习13: 关联分析

标题图片出处:Rule Generation“文章原创,转载请注明出处”一、简介在统计学中,变量与变量之间的关系是统计结构的重要参数,统计的核心问题也就是研究变量与变量之间的关系。如果变量与变量之间不独立,那么这两个变量之间肯定存在一定的关联性,那么如何处理度量这个关联性,在统计中就称为关联分析。列联表是传统统计学中度量两个分类变量之间关系强弱的方法,但是这个方法是对于

2014-05-09 14:52:38 1556

转载 数据科学之机器学习12: Logisic回归

“文章原创,转载请注明出处”在数据科学系列的开头,花了三篇介绍了线性回归。线性回归模型应该是定量分析中最常用的一种统计分析方法。但是线性回归处理数据时,要求因变量是连续型变量。但是很多时候,需要处理的数据,其因变量并不是连续的。像性别、对错等等,这种离散的因变量,一般称为分类响应变量。在机器学习的介绍篇中,已经介绍了监督学习与非监督学习。在监督学习中,最主要的两类问题,一个就是回归,另

2014-05-09 14:51:33 1078

转载 数据科学之机器学习11: 聚类分析2

“文章原创,转载请注明出处”上一篇介绍了聚类分析的定义,给出了很多不同的相似性的度量方法。这一篇主要想介绍一下除了快速聚类之外的另外一种聚类方法:系统聚类法。二、系统聚类法系统聚类法,hierarchical clustering method,是聚类分析方法中用的较多的一种。其具体过程如下:对于n个样品,构造n个类,每个样品单独作为一类。计算每个类之间的距离;合并

2014-05-09 14:50:32 1083

转载 数据科学之机器学习10: 聚类分析1

“文章原创,转载请注明出处”上一篇介绍了聚类分析中的KMeans算法,这一节就来具体地说说聚类分析。聚类分析,cluster analysis,是一种研究“物以类聚”现代统计学分析方法,其目的是要把分类对象按照一定的规则分成若干个类。这些类别并非事先给定的,而是根据数据的特征确定的。NOTE:聚类的划分:根据分类对象的不同,可以分为:Q型聚类分析和R型聚类分析。Q型

2014-05-09 14:49:28 3053

转载 数据科学之机器学习9: 聚类算法之KMeans

“文章原创,转载请注明出处”The k-means algorithm前面写了很多监督学习的东西,除了回归就是分类,今儿有点想换换口味,写写无监督学习的算法。k-means算法是一种聚类算法,聚类就是无监督学习里面的内容。那么先来说说聚类:一、聚类简介聚类是一种无监督学习方法,它主要就是将相似的对象归并到一个类别中。聚类分析的目的是把分类对象按照

2014-05-09 14:48:26 1176

转载 数据科学之机器学习8: 决策树之ID3

“文章原创,转载请注明出处”ID3算法的核心问题就在于:如何选取在决策树的每个节点处要测试的属性。那么如何去选择呢?当然,我们要选取分类能力最好的属性,那么怎么去确定哪个属性是分类能力最好的呢?ID3算法中,使用信息增益作为评判标准。在看信息增益之前,我们先看看这个决策树的构造过程:一、构造过程选取分类能力最好的属性作为决策树根部节点的测试;为根节点属性的每一个可能值产

2014-05-09 14:47:25 929

转载 数据科学之机器学习7: 决策树

“文章原创,转载请注明出处”一、开始在介绍决策树的概念内容之前,先来初步了解一下决策树的流程。这是一个很简单的概念,通过一张简单的流程图就可以大致了解决策树是干什么的,怎么干的。二、相关概念1. 一些概念决策树学习是一种逼近离散值目标函数的方法。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子的节点即为实例所属的分类。决策树上的每一

2014-05-09 14:46:21 829

转载 数据科学之机器学习6: 分类之朴素贝叶斯

“文章原创,转载请注明出处”0、kNN算法的优缺点与kNN算法一样,朴素贝叶斯算法也是数据挖掘十大算法之一。我们介绍kNN算法时,并没有讨论kNN算法的优缺点,这边首先看看这个问题。从构造kNN算法的过程可以看到,这个分类算法的精度很高。因为这个算法计算了所有点与待分类点之间的相似度,然后去确定带分类点的类别。由此可见,这个算法对异常值并不敏感。但是正是因为它需要计算所有点之间

2014-05-09 14:45:20 868

转载 数据科学之机器学习5:分类之k-近邻算法

“文章原创,转载请注明出处”基本思想kNN,k-Nearest Neighbor algorithm,也就这边的k-近邻算法,是数据挖掘十大算法之一,是一个比较简单的分类方法。其基本的思想是:对于一个输入样本(未知分类的样本),考虑其与测试样本中与之距离最近(特征最相似)的k个样本,用这k个样本中出现最多的分类作为输入样本的分类。具体流程对于输入样本中的每一

2014-05-09 14:43:52 663

转载 数据科学之机器学习4:线性回归3

“文章原创,转载请注明出处”这是介绍线性回归的最后一篇,首先回顾一下之前的两篇。第一篇主要就是介绍了如何去估计回归系数得到回归方程,以及在R语言中如何使用自带的函数去实现。第二篇主要介绍了对于回归方程和回归系数的显著性检验,以及给出了我自己写的一个处理线性回归的函数。这一篇介绍线性回归中回归诊断的一些问题,也就是估计出回归方程,检验了回归方程的显著性以及回归系数的显著性后,对这个模型所

2014-05-09 14:41:54 1232

转载 数据科学之机器学习3:线性回归2

“文章原创,转载请注明出处”上一篇简单介绍了线性回归中系数估计的问题,给出了一元以及多元情况下,系数估计值的表达式!此外,还给出了在R语言中如何使用自带的函数计算系数估计值。这一篇,打算介绍一下线性回归中的一些显著性检验问题。这个就是完全属于统计学中的理论内容,不过依旧有着很强的实际意义。简单来说,显著性检验不能通过,说明你的线性回归的效果不好,可能你就需要选择其它的方式去处理你手头的

2014-05-09 14:40:38 759

转载 数据科学之机器学习2:线性回归1

“文章原创,转载请注明出处”一、回归分析在统计分析中,最大的两支应该算是相关分析和回归分析。而回归分析应该是统计学的核心。回归分析,就是研究因变量y与自变量x之间的关系,存在条件数学期望:f(x)=E(y|x)。此时有:y=f(x)+ε,一般假设ε∼N(0,σ2)。回归分析有很多变种:简单线性回归;多项式回归;Logistic回归;非参数回归;非线性回归等等。本篇就介绍最简

2014-05-09 14:39:06 1023

转载 数据科学之机器学习1:简介

机器学习的定义一般来说,教科书介绍一样东西,首先会给它下一个确切的定义。不过,对于机器学习的定义,我还真不知道该怎么去下。有太多的版本,太多的述说方式,不知道用哪个好。这里就列举一些我觉得有代表性的,讲的容易懂的那些定义。对于机器学习是什么,看看这些定义,应该就能够有个大致的了解了。首先,在“Machine Learning: the art and science of

2014-05-09 14:37:16 826

转载 redis.conf配置项说明

#是否以后台进程运行,默认为no,如果需要以后台进程运行则改为yesdaemonize no  #如果以后台进程运行的话,就需要指定pid,你可以在此自定义redis.pid文件的位置。pidfile /var/run/redis.pid  #接受连接的端口号,如果端口是0则redis将不会监听TCP socket连接port

2014-05-07 17:58:48 549

转载 redis数据丢失及解决

Redis的数据回写机制Redis的数据回写机制分同步和异步两种,同步回写即SAVE命令,主进程直接向磁盘回写数据。在数据大的情况下会导致系统假死很长时间,所以一般不是推荐的。异步回写即BGSAVE命令,主进程fork后,复制自身并通过这个新的进程回写磁盘,回写结束后新进程自行关闭。由于这样做不需要主进程阻塞,系统不会假死,一般默认会采用这个方法。个人感觉方法2采用fork

2014-05-07 14:28:30 586

转载 redis 主从

一、原理Redis的主从复制功能非常强大,一个master可以拥有多个slave,而一个slave又可以拥有多个slave,如此下去,形成了强大的多级服务器集群架构。下面是关于redis主从复制的一些特点:1.master可以有多个slave2.除了多个slave连到相同的master外,slave也可以连接其他slave形成图状结构3.主从复制不会阻塞master

2014-05-07 14:27:38 575

转载 redis常见的性能问题

1.Master写内存快照save命令调度rdbSave函数,会阻塞主线程的工作,当快照比较大时对性能影响是非常大的,会间断性暂停服务,所以Master最好不要写内存快照。2.Master AOF持久化如果不重写AOF文件,这个持久化方式对性能的影响是最小的,但是AOF文件会不断增大,AOF文件过大会影响Master重启的恢复速度。3.Master调用BGREWRI

2014-05-07 14:26:35 550

转载 Redis 的安装

redis 是一个高性能的key-value数据库。 redis的出现,很大程度补偿了memcached这类keyvalue存储的不足,在部分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。问题是这个项目还很新,可能还不足够稳定,而且没有在实际的一些大型系统应用的实例。此外,缺乏mc中批量get也是比较大的问题,始终批量获取跟多次获取

2014-05-07 14:24:57 551

转载 代码面试最常用的10大算法

摘要:面试也是一门学问,在面试之前做好充分的准备则是成功的必须条件,而程序员在代码面试时,常会遇到编写算法的相关问题,比如排序、二叉树遍历等等。在程序员的职业生涯中,算法亦算是一门基础课程,尤其是在面试的时候,很多公司都会让程序员编写一些算法实例,例如快速排序、二叉树查找等等。本文总结了程序员在代码面试中最常遇到的10大算法类型,想要真正了解这些算法的原理,还需程序员们花些功夫。

2014-04-30 11:52:55 744

疯狂java程序员的基本修养

疯狂java程序员的基本修养随书光盘

2013-07-24

疯狂java第三版代码

疯狂java第三版随书光盘

2013-07-24

自己写的宽度优先的爬虫程序

自己写的宽度优先的爬虫程序,实现了基本的爬虫功能,直接运行MyCrawler.java文件即可。需要在D盘创建temp文件夹。

2013-07-15

基于N元语言模型的文本分类方法

基于N元语言模型的文本分类方法.pdf 汉语n元模型统计软件.ppt 基于N元语法的汉语自动分词系统研究.pdf 一种基于N元语法分布的语言模型自适应方法.pdf 语言模型的基本概念.doc N元语言模型的解码算法.doc N元语言模型的训练方法.doc 自动文本分类.pdf

2013-07-15

java反编译工具

超好用的java反编译工具,免安装,中文版

2013-07-15

MapReduce2.0源码分析与实战编程

包含前八章内容,还缺两章,找到资源后,再补齐

2013-07-15

JDK1.6中文API

分享jdk1.6中文API,希望多多学习,但是,如果发现API有问题请最终参照英文文档

2013-07-15

自己动手写网络爬虫

手把手教你写爬虫,畅享网络数据抓取的快乐。简单易懂学习爬虫。

2013-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除