昵称我不需要-CSDN博客

转载数据科学20：文本挖掘2

数据科学20：文本挖掘2Jun 26th, 2014图片由本文中数据生产~“文章原创，转载请注明出处”一、对词条-文档矩阵的操作在’tm’包中，提供了一些常用的函数，可以对得到的Document Term Matrix进行一些操作。当然，我们也可以使用自己的方式，对该矩阵进行一些探索，比如，我们先来看看词条的频数：1.1 词条频数

2015-01-26 14:16:55 838

转载数据科学19：文本挖掘1-更新

数据科学19：文本挖掘1-更新Jun 25th, 2014图片由本文中数据生产~“文章原创，转载请注明出处”前几天，R中的’tm’包从0.5-10更新到了0.6版本。其中更新了不少的东西，对于上一篇中的代码，已经是不能够正确运行了。所以这里需要先更新一下上一篇中的一些代码，正好可以回顾一些之前的流程。12345678910

2015-01-26 14:08:58 663

转载数据科学18：文本挖掘1

数据科学18：文本挖掘1Jun 18th, 2014图片由本文中数据生产~“文章原创，转载请注明出处”文本挖掘，也称为文本数据挖掘，意思就如字面，对文本数据进行挖掘分析。文本挖掘一般包含：文本分类、文本聚类、概念实体挖掘、自然语言处理等等。接下来，我打算用一个简单的例子，介绍一下R语言文本挖掘的一般过程，顺便介绍一些文本挖掘中的概念。这边主要使用R中的tm包进行文本

2015-01-26 14:05:58 1052

转载数据科学之机器学习17:因子分析2

图片来源于网址“文章原创，转载请注明出处”这两天来了个同学，大家聚了聚，我也乘机休息了两天（好奢侈！）。这两天属于什么都没有写，就翻看了两本书。一本是二月河的康熙大帝，另外一本是推荐系统实践，这本书的电子版，图灵正在打折，有兴趣可以买本看看。好了，不废话了，下面就接着上一篇讲的继续！上一篇简单介绍了因子分析的一些概念，以及最基础的因子模型：正交因子模型。那么这一篇，就来说说正交

2014-05-21 15:44:40 1134

转载数据科学之机器学习16:因子分析1

图片来源于网址“文章原创，转载请注明出处”前一篇介绍的主成分分析(PCA)，是一种降维技术；这一篇介绍的因子分析也是一种降维的方法，不仅如此，还可以将因子分析看作是主成分分析的一种推广和发展。与之主成分分析相比较，因子分析更为灵活，对变量降维后的解释能够更加清楚。但因子分析和主成分分析有非常多的不同点。主成分分析不能作为一个模型来描述，主成分是观测变量的线性组合；因子分析需

2014-05-15 10:21:23 1602

转载数据科学之机器学习15: 主成分分析

图片为：本文实例数据得到的，前两个主成分的散点图！“文章原创，转载请注明出处”在之前线性回归3提到多重共线性问题，当时说了一些解决这个问题的办法，其中一种就是今天要说的主成分分析。主成分分析，Principal Components Analysis，简称PCA，是变量选择的一种方法。其一般的目的就是：变量的降维和主成分的解释！当主成分用于聚类或者回归，这个时候就是在做变量的降维；

2014-05-14 09:36:20 1178

转载数据科学之机器学习14: 关联分析之apriori算法

“文章原创，转载请注明出处”在上一篇中，我们介绍了关联分析相关的概念，这一节来看看如何使用Apriori算法去寻找满足条件的项集。首先回顾一个概念，一个项集的支持度就是数据集中该项集所占的比例。Apriori算法就是用于寻找数据集中，支持度和可信度超过某一给定值的项集和关联规则。一、原理在介绍算法之前，首先了解一个集合论中的性质定理：集合的向下封闭性。我们通过一

2014-05-09 14:54:02 1258

转载数据科学之机器学习13: 关联分析

标题图片出处：Rule Generation“文章原创，转载请注明出处”一、简介在统计学中，变量与变量之间的关系是统计结构的重要参数，统计的核心问题也就是研究变量与变量之间的关系。如果变量与变量之间不独立，那么这两个变量之间肯定存在一定的关联性，那么如何处理度量这个关联性，在统计中就称为关联分析。列联表是传统统计学中度量两个分类变量之间关系强弱的方法，但是这个方法是对于

2014-05-09 14:52:38 1556

转载数据科学之机器学习12: Logisic回归

“文章原创，转载请注明出处”在数据科学系列的开头，花了三篇介绍了线性回归。线性回归模型应该是定量分析中最常用的一种统计分析方法。但是线性回归处理数据时，要求因变量是连续型变量。但是很多时候，需要处理的数据，其因变量并不是连续的。像性别、对错等等，这种离散的因变量，一般称为分类响应变量。在机器学习的介绍篇中，已经介绍了监督学习与非监督学习。在监督学习中，最主要的两类问题，一个就是回归，另

2014-05-09 14:51:33 1078

转载数据科学之机器学习11: 聚类分析2

“文章原创，转载请注明出处”上一篇介绍了聚类分析的定义，给出了很多不同的相似性的度量方法。这一篇主要想介绍一下除了快速聚类之外的另外一种聚类方法：系统聚类法。二、系统聚类法系统聚类法，hierarchical clustering method，是聚类分析方法中用的较多的一种。其具体过程如下：对于n个样品，构造n个类，每个样品单独作为一类。计算每个类之间的距离；合并

2014-05-09 14:50:32 1083

转载数据科学之机器学习10: 聚类分析1

“文章原创，转载请注明出处”上一篇介绍了聚类分析中的KMeans算法，这一节就来具体地说说聚类分析。聚类分析，cluster analysis，是一种研究“物以类聚”现代统计学分析方法，其目的是要把分类对象按照一定的规则分成若干个类。这些类别并非事先给定的，而是根据数据的特征确定的。NOTE：聚类的划分：根据分类对象的不同，可以分为：Q型聚类分析和R型聚类分析。Q型

2014-05-09 14:49:28 3053

转载数据科学之机器学习9: 聚类算法之KMeans

“文章原创，转载请注明出处”The k-means algorithm前面写了很多监督学习的东西，除了回归就是分类，今儿有点想换换口味，写写无监督学习的算法。k-means算法是一种聚类算法，聚类就是无监督学习里面的内容。那么先来说说聚类：一、聚类简介聚类是一种无监督学习方法，它主要就是将相似的对象归并到一个类别中。聚类分析的目的是把分类对象按照

2014-05-09 14:48:26 1176

转载数据科学之机器学习8: 决策树之ID3

“文章原创，转载请注明出处”ID3算法的核心问题就在于：如何选取在决策树的每个节点处要测试的属性。那么如何去选择呢？当然，我们要选取分类能力最好的属性，那么怎么去确定哪个属性是分类能力最好的呢？ID3算法中，使用信息增益作为评判标准。在看信息增益之前，我们先看看这个决策树的构造过程：一、构造过程选取分类能力最好的属性作为决策树根部节点的测试；为根节点属性的每一个可能值产

2014-05-09 14:47:25 929

转载数据科学之机器学习7: 决策树

“文章原创，转载请注明出处”一、开始在介绍决策树的概念内容之前，先来初步了解一下决策树的流程。这是一个很简单的概念，通过一张简单的流程图就可以大致了解决策树是干什么的，怎么干的。二、相关概念1. 一些概念决策树学习是一种逼近离散值目标函数的方法。决策树通过把实例从根节点排列到某个叶子节点来分类实例，叶子的节点即为实例所属的分类。决策树上的每一

2014-05-09 14:46:21 829

转载数据科学之机器学习6: 分类之朴素贝叶斯

“文章原创，转载请注明出处”0、kNN算法的优缺点与kNN算法一样，朴素贝叶斯算法也是数据挖掘十大算法之一。我们介绍kNN算法时，并没有讨论kNN算法的优缺点，这边首先看看这个问题。从构造kNN算法的过程可以看到，这个分类算法的精度很高。因为这个算法计算了所有点与待分类点之间的相似度，然后去确定带分类点的类别。由此可见，这个算法对异常值并不敏感。但是正是因为它需要计算所有点之间

2014-05-09 14:45:20 868

转载数据科学之机器学习5：分类之k-近邻算法

“文章原创，转载请注明出处”基本思想kNN，k-Nearest Neighbor algorithm，也就这边的k-近邻算法，是数据挖掘十大算法之一，是一个比较简单的分类方法。其基本的思想是：对于一个输入样本（未知分类的样本），考虑其与测试样本中与之距离最近（特征最相似）的k个样本，用这k个样本中出现最多的分类作为输入样本的分类。具体流程对于输入样本中的每一

2014-05-09 14:43:52 663

转载数据科学之机器学习4：线性回归3

“文章原创，转载请注明出处”这是介绍线性回归的最后一篇，首先回顾一下之前的两篇。第一篇主要就是介绍了如何去估计回归系数得到回归方程，以及在R语言中如何使用自带的函数去实现。第二篇主要介绍了对于回归方程和回归系数的显著性检验，以及给出了我自己写的一个处理线性回归的函数。这一篇介绍线性回归中回归诊断的一些问题，也就是估计出回归方程，检验了回归方程的显著性以及回归系数的显著性后，对这个模型所

2014-05-09 14:41:54 1232

转载数据科学之机器学习3：线性回归2

“文章原创，转载请注明出处”上一篇简单介绍了线性回归中系数估计的问题，给出了一元以及多元情况下，系数估计值的表达式！此外，还给出了在R语言中如何使用自带的函数计算系数估计值。这一篇，打算介绍一下线性回归中的一些显著性检验问题。这个就是完全属于统计学中的理论内容，不过依旧有着很强的实际意义。简单来说，显著性检验不能通过，说明你的线性回归的效果不好，可能你就需要选择其它的方式去处理你手头的

2014-05-09 14:40:38 759

转载数据科学之机器学习2：线性回归1

“文章原创，转载请注明出处”一、回归分析在统计分析中，最大的两支应该算是相关分析和回归分析。而回归分析应该是统计学的核心。回归分析，就是研究因变量y与自变量x之间的关系，存在条件数学期望：f(x)=E(y|x)。此时有：y=f(x)+ε，一般假设ε∼N(0,σ2)。回归分析有很多变种：简单线性回归；多项式回归；Logistic回归；非参数回归；非线性回归等等。本篇就介绍最简

2014-05-09 14:39:06 1023

转载数据科学之机器学习1：简介

机器学习的定义一般来说，教科书介绍一样东西，首先会给它下一个确切的定义。不过，对于机器学习的定义，我还真不知道该怎么去下。有太多的版本，太多的述说方式，不知道用哪个好。这里就列举一些我觉得有代表性的，讲的容易懂的那些定义。对于机器学习是什么，看看这些定义，应该就能够有个大致的了解了。首先，在“Machine Learning: the art and science of

2014-05-09 14:37:16 826

转载 redis.conf配置项说明

#是否以后台进程运行，默认为no，如果需要以后台进程运行则改为yesdaemonize no #如果以后台进程运行的话，就需要指定pid，你可以在此自定义redis.pid文件的位置。pidfile /var/run/redis.pid #接受连接的端口号，如果端口是0则redis将不会监听TCP socket连接port

2014-05-07 17:58:48 549

转载 redis数据丢失及解决

Redis的数据回写机制Redis的数据回写机制分同步和异步两种，同步回写即SAVE命令，主进程直接向磁盘回写数据。在数据大的情况下会导致系统假死很长时间，所以一般不是推荐的。异步回写即BGSAVE命令，主进程fork后，复制自身并通过这个新的进程回写磁盘，回写结束后新进程自行关闭。由于这样做不需要主进程阻塞，系统不会假死，一般默认会采用这个方法。个人感觉方法２采用fork

2014-05-07 14:28:30 586

转载 redis 主从

一、原理Redis的主从复制功能非常强大，一个master可以拥有多个slave，而一个slave又可以拥有多个slave，如此下去，形成了强大的多级服务器集群架构。下面是关于redis主从复制的一些特点：1.master可以有多个slave2.除了多个slave连到相同的master外，slave也可以连接其他slave形成图状结构3.主从复制不会阻塞master

2014-05-07 14:27:38 575

转载 redis常见的性能问题

1.Master写内存快照save命令调度rdbSave函数，会阻塞主线程的工作，当快照比较大时对性能影响是非常大的，会间断性暂停服务，所以Master最好不要写内存快照。2.Master AOF持久化如果不重写AOF文件，这个持久化方式对性能的影响是最小的，但是AOF文件会不断增大，AOF文件过大会影响Master重启的恢复速度。3.Master调用BGREWRI

2014-05-07 14:26:35 550

redis 是一个高性能的key-value数据库。 redis的出现，很大程度补偿了memcached这类keyvalue存储的不足，在部分场合可以对关系数据库起到很好的补充作用。它提供了Python，Ruby，Erlang，PHP客户端，使用很方便。问题是这个项目还很新，可能还不足够稳定，而且没有在实际的一些大型系统应用的实例。此外，缺乏mc中批量get也是比较大的问题，始终批量获取跟多次获取

2014-05-07 14:24:57 551

转载代码面试最常用的10大算法

摘要：面试也是一门学问，在面试之前做好充分的准备则是成功的必须条件，而程序员在代码面试时，常会遇到编写算法的相关问题，比如排序、二叉树遍历等等。在程序员的职业生涯中，算法亦算是一门基础课程，尤其是在面试的时候，很多公司都会让程序员编写一些算法实例，例如快速排序、二叉树查找等等。本文总结了程序员在代码面试中最常遇到的10大算法类型，想要真正了解这些算法的原理，还需程序员们花些功夫。

2014-04-30 11:52:55 744

疯狂java程序员的基本修养

疯狂java程序员的基本修养随书光盘

2013-07-24

疯狂java第三版代码

疯狂java第三版随书光盘

2013-07-24

自己写的宽度优先的爬虫程序

自己写的宽度优先的爬虫程序，实现了基本的爬虫功能，直接运行MyCrawler.java文件即可。需要在D盘创建temp文件夹。

2013-07-15

基于N元语言模型的文本分类方法

基于N元语言模型的文本分类方法.pdf 汉语n元模型统计软件.ppt 基于N元语法的汉语自动分词系统研究.pdf 一种基于N元语法分布的语言模型自适应方法.pdf 语言模型的基本概念.doc N元语言模型的解码算法.doc N元语言模型的训练方法.doc 自动文本分类.pdf

2013-07-15

java反编译工具

超好用的java反编译工具，免安装，中文版

2013-07-15

MapReduce2.0源码分析与实战编程

包含前八章内容，还缺两章，找到资源后，再补齐

2013-07-15

JDK1.6中文API

分享jdk1.6中文API，希望多多学习，但是，如果发现API有问题请最终参照英文文档

2013-07-15

自己动手写网络爬虫

手把手教你写爬虫，畅享网络数据抓取的快乐。简单易懂学习爬虫。

2013-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

QQ415171148的专栏

转载数据科学20：文本挖掘2

转载数据科学19：文本挖掘1-更新

转载数据科学18：文本挖掘1

转载数据科学之机器学习17:因子分析2

转载数据科学之机器学习16:因子分析1

转载数据科学之机器学习15: 主成分分析

转载数据科学之机器学习14: 关联分析之apriori算法

转载数据科学之机器学习13: 关联分析

转载数据科学之机器学习12: Logisic回归

转载数据科学之机器学习11: 聚类分析2

转载数据科学之机器学习10: 聚类分析1

转载数据科学之机器学习9: 聚类算法之KMeans

转载数据科学之机器学习8: 决策树之ID3

转载数据科学之机器学习7: 决策树

转载数据科学之机器学习6: 分类之朴素贝叶斯

转载数据科学之机器学习5：分类之k-近邻算法

转载数据科学之机器学习4：线性回归3

转载数据科学之机器学习3：线性回归2

转载数据科学之机器学习2：线性回归1

转载数据科学之机器学习1：简介

转载 redis.conf配置项说明

转载 redis数据丢失及解决

转载 redis 主从

转载 redis常见的性能问题

转载 Redis 的安装

转载代码面试最常用的10大算法

疯狂java程序员的基本修养

疯狂java第三版代码

自己写的宽度优先的爬虫程序

基于N元语言模型的文本分类方法

java反编译工具

MapReduce2.0源码分析与实战编程

JDK1.6中文API

自己动手写网络爬虫

空空如也