mousever-CSDN博客

转载几种数据可视化框架分析

根据下面各个框架本身的特性，以及各自的优缺点，推荐使用D3或者ECharts作为数据可视化的首选框架，某些小特性可以辅用其他小框架实现。具体每个框架的说明和分析如下：D3.jsD3是指数据驱动文档(Data-Driven Documents)。D3.js是一个JavaScript库，它可以通过数据来操作文档。D3可以通过使用HTML、SVG和CSS把数据鲜活形象地展现出来。D3严格遵循

2017-02-14 10:32:53 2572

转载推荐系统中协同过滤算法实现分析（重要两个图！！）

最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过分析用户的偏好行为，来挖掘出里面物品与物品、或人与人之间的关联。其次，通过对这些关联的关系做一定的运算，得出人与物品

2016-09-12 22:25:48 7565

转载协同过滤中item-based与user-based选择依据

此文总结的不错。协同过滤是大家熟知的推荐算法。总的来说协同过滤又可以分为以下两大类：Neighborhood-based：计算相似item 或user后进行推荐Model-based：直接训练模型预测Rating在Neighborhoold-based算法中，又细分为user-based CF(Collaborative Filtering)和item-based CF

2016-09-12 22:22:23 1092

转载数据挖掘之lsh minhash simhash

在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单，只要两两计算用户的相似性，针对每个用户，获取最相似的K个用户即可。但是在实际的工程上，假定用户规模在亿的规模N，计算复杂度为N*N，即使是分布式，也是非常可怕的复杂

2016-09-09 22:39:50 990

转载 ChiMerge 算法: 以鸢尾花数据集为例

ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考：1. ChiMerge:Discret

2016-09-03 19:47:44 3945

转载十大算法展辉煌历史，十大问题引锦绣前程

上篇博文（趣味数据挖之十）末尾许下一愿–介绍数据挖掘十大算法。在博友们友好的催促之下，现在才姗姗来迟，歉疚有加。凡人写博是十分个性化的业余活动（非平凡人物可能会雇佣团队写博）；在科技的春种秋收季节，人们总会遇到若干突然冒出来的任务，而在次要活动中，最先停下来为正事让时间的，就是读博写博。言归正传，这篇突出资料性，先说三十年的十大算法，看数据挖掘的史上辉煌，再叙七年前提出的十大问题，证数据挖掘专

2016-08-31 13:33:32 763

转载最大似然概率和后验概率的区别

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为，参数是客观存在的，只是未知而矣。因此，频率派最关心极大似然函数，只要参数求出来了，给定自变量X，Y也就固定了，极大似然估计如下所示:D表示训练数据集，是模型参数相反的，贝叶斯派认为参数也是随机的，和一般随机变量没有本质区别，正是因为参数不能固定，当给定一个输入x后，我们不能用一个确定的y表示输出结果，必须用一

2016-08-29 18:06:46 7567

如今越来越多的人愿意和自己的虚拟私人助理交谈，只需要动动嘴就可以让Siri/Alexa/Rokid帮你完成发微信、订车票、设闹钟这样的闲事，还能提醒你吃药、开会，这样一个不需要付工资的贴心小棉袄怎么会不受喜爱呢？虚拟助理正在一步步接近现实中的私人助理，而背后支持它的正是深度学习的技术除了虚拟助理之外，深度学习技术还将是未来计算机视觉、自动驾驶、语音识别等多个领域的核心技术。而深度学习实践的四个关键

2016-08-29 17:39:47 4164

转载机器学习算法优缺点及其应用领域

决策树一、决策树优点1、决策树易于理解和解释，可以可视化分析，容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时，运行速度比较快。4、决策树可以很好的扩展到大型数据库中，同时它的大小独立于数据库大小。二、决策树缺点1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属性的相互关联。4、ID3算法计算信息增益时结果

2016-08-23 19:54:41 4476

转载让人又爱又恨的信用评级

墨西哥湾漏油事故，让石油巨人BP甚至陷入了破产的传言，最直接的表现就是，6月3日，几大国际信用评级机构纷纷下调对其信用评级。这预示着这家公司在金融市场上面临的风险正在增加，而保障这家公司债务违约的成本也大幅上升。在早前的金融危机和欧洲债务危机中，信用评级一词就被频频提及。那么，究竟什么是信用评级，信用评级为何具有巨大的影响力，连主权国家都又爱又怕。 [详细]信用评级：对欠债人“违约

2016-08-16 13:53:09 958

转载论信贷企业信用评级与债券信用评级的关系

一、信贷企业信用评级与债券信用评级的概念及作用信用评级，也称为资信评级，是由独立的信用评级机构对影响评级对象的诸多信用风险因素进行分析研究，就其偿还债务的能力及其偿债意愿进行综合评价，并且用简单明了的符号表示出来。根据评级对象的不同，信用评级又分主体信用评级和债券信用评级两种。主体信用评级是以企业或经济主体为对象进行的信用评级。债券信用评级是以企业或经济主体发行的有价债券为对象进行的信用评

2016-08-16 09:29:12 3981

转载机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

2016-08-07 21:03:27 1395 4

转载 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构区别

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。（扯一个不相关的：由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的，脑补一下科学家们扯着密密麻麻的导线的样子…）但是，Rosenblatt的单层感知机有一

2016-08-07 18:09:01 1296 3

转载如何防范与化解联保联贷风险

众多研究认为，“联保联贷”模式改变了传统商业银行信贷机制，能缓解信息不对称问题，其诞生的初衷主要是为解决中小企业担保不足、信息不对称的问题，但如果这种企业间的联保联贷纯粹为了得到银行贷款，则在经济增速放缓、内外部需求趋弱从而导致企业经营困难、盈利能力下降的情况下，容易引发因单一企业资金链断裂影响到整个联保小组的状况，一旦这种现象过于集中还可能影响地区的金融稳定。联保联贷

2016-07-29 15:54:04 1378

转载 adaboost原理（包含权重详细解释）

1.1 Adaboost是什么 AdaBoost，是英文"Adaptive Boosting"（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

2016-07-26 17:59:43 42648 9

转载大数据环境下，征信，真的那么美好吗？

不知从什么时候开始，征信仿佛一夜之间成了一个很热门的业务。也曾经看过很多文章，都描绘着征信未来广泛的应用，和庞大的市场份额。其间，虽然偶尔也有人出来泼冷水，但显然很快就被更为狂热的后进者所淹没。众多代表着传统金融和互联网金融的大腕们纷纷摩拳擦掌，下场厮杀。BAT中除了B略微落后之外，AT直接进入第一批玩家的角逐。其余二线、三线互联网跟进者，数不胜数。征信大军越来

2016-07-10 16:21:14 655

转载 Deep Learning（深度学习）学习笔记整理系列

目录：一、概述二、背景三、人脑视觉机理四、关于特征 4.1、特征表示的粒度 4.2、初级（浅层）特征表示 4.3、结构性特征表示 4.4、需要有多少个特征？五、Deep Learning的基本思想六、浅层学习（Shallow Learning）和深度学习（Deep L

2016-07-05 20:53:21 1890

转载银行对公风险分析

银行对公业务风险分析标签　　银行对公业务包括企业电子银行、单位存款业务、信贷业务、机构业务、国际业务、委托性住房金融、资金清算、中间业务、资产推介、基金托管等等，通俗点说就是“对单位的业务”。让我们一起了解下银行对公业务有哪些风险吧。　　一、银行对公业务总体风险因素分析　　（一）贷款业务风险分析　　1、我国商业银行对银行贷款风险的认识不充分。他们过分看重规模，而对资

2016-07-04 21:52:18 1792

转载 R语言主成分和因子分析篇

主成分分析（PCA）是一种数据降维技巧，它能将大量相关变量转化为一组很少的不相关变量，这些无关变量称为主成分。探索性因子分析（EFA）是一系列用来发现一组变量的潜在结构的方法，通过寻找一组更小　的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了PCA和EFA的函数，分别为princomp（）和factanal（）p

2016-05-29 22:58:39 7317 1

转载 R语言预处理之异常值问题

>>>>一、问题什么是异常值？如何检测异常值？请伙伴们思考或者留言讨论。>>>>二、解决方法1. 单变量异常值检测2. 使用局部异常因子进行异常值检测3. 通过聚类的方法检验异常值4. 检验时间序列数据里面的异常值>>>>三、R代码实现1、单变量异常值检测

2016-05-29 22:45:18 6387

转载半监督学习

传统的机器学习技术分为两类，一类是无监督学习，一类是监督学习。无监督学习只利用未标记的样本集，而监督学习则只利用标记的样本集进行学习。但在很多实际问题中，只有少量的带有标记的数据，因为对数据进行标记的代价有时很高，比如在生物学中，对某种蛋白质的结构分析或者功能鉴定，可能会花上生物学家很多年的工作，而大量的未标记的数据却很容易得到。这就促使能同时利用标记样本和未标记样

2016-05-28 20:27:41 35744 1

转载从最大似然到EM算法浅解

机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世界上，还吸引了那么多世人的目光。我希望自己能通俗地把它理解或者说明白，但是，EM这个问题感觉真的不太好用通俗的语言去

2016-05-28 20:19:45 437

转载画图解释LAR算法的几何意义

1）画图及文字解释p74页下半页关于LAR算法所定义的一系列向量的几何意义，及整个算法的几何意义回归模型： QQ图片20160323195657.png (972 Bytes)下载附件保存到相册2016-3-23 19:59 上传（共有p个变量）给出具有n个样本的样本矩阵：QQ图片20160323195701.png (1

2016-05-25 08:40:53 4072

转载结合Scikit-learn介绍几种常用的特征选择方法

原文地址：http://dataunion.org/14072.html?utm_source=tuicool&utm_medium=referral特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能

2016-05-22 16:18:09 2141 2

转载 Fast unfolding of communities in large networks

作者：郑梓豪链接：https://zhuanlan.zhihu.com/p/19769897来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。接着上文，我们需要进一步了解Gephi工具计算modularity的算法。在Gephi社区中，有文档Modularity - Gephi Wiki说明了算法[1]。What & Why Community

2016-05-20 17:25:30 1050

转载 [Network Analysis] 复杂网络分析总结

阅读目录1. 复杂网络的特点2. 社区检测3. 结构平衡4. 影响最大化5. 网络传播6. 补充7. 参考文献　　在我们的现实生活中，许多复杂系统都可以建模成一种复杂网络进行分析，比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等等。复杂网络不仅是一种数据的表现形式，它同样也是一种科学研究的手段。复杂网络方面的研究目前受到了广泛的关注和研究，尤其是随着各种在线社交平台

2016-05-19 17:59:20 6114 1

转载用R语言做正态分布检验

摘自：吴喜之：《非参数统计》（第二版），中国统计出版社，2006年10月：P164-1651、ks.test() 例如零假设为N（15,0.2），则ks.test(x,"pnorm",15,0.2)。如果不是正态分布，还可以选"pexp", "pgamma"等。2、shapiro.test() 可以进行关于正态分布的Shapiro-Wilk检验。3、nort

2016-05-15 21:11:52 15850 1

转载广义线性模型（GLM）

广义线性模型（generalized linear model, GLM)是简单最小二乘回归（OLS)的扩展，在OLS的假设中，响应变量是连续数值数据且服从正态分布，而且响应变量期望值与预测变量之间的关系是线性关系。而广义线性模型则放宽其假设，首先响应变量可以是正整数或分类数据，其分布为某指数分布族。其次响应变量期望值的函数（连接函数）与预测变量之间的关系为线性关系。因此在进行GLM建模时，需要指

2016-05-15 20:56:40 28600

转载机器学习那些事

【原题】A Few Useful Things to Know About Machine Learning【译题】机器学习的那些事【作者】Pedro Domingos【译者】刘知远【说明】译文载于《中国计算机学会通讯》第 8 卷第 11 期 2012 年 11 月，本文译自Communications of the ACM 2012年第10期的“A Few

2016-05-15 17:37:59 2874

转载机器学习——海量数据挖掘解决方案

大数据时代里，互联网用户每天都会直接或间接使用到大数据技术的成果，直接面向用户的比如搜索引擎的排序结果，间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数据技术的应用系统。机器学习是大数据挖掘的一大基础，本文以机器学习为切入点，将达观在大数据技术实践时的一些经验与大家分享。互联网的海量数

2016-05-15 17:07:51 1677

转载 Frequent Pattern 挖掘之二(FP Growth算法)

Frequent Pattern 挖掘之二(FP Growth算法)FP树构造FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树，举例是最好的方法。请看

2016-05-15 14:04:04 417

转载 [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis）

读了著名的【Google News Personalization Scalable Online CF】，提及到针对用户聚类，利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi，产生了对plsi的兴趣。plsi是model-based 推荐算法，属于topic(aspect) model，最近研究了topic model，发现其在NLP领域用途很大。引入：

2016-05-15 11:34:12 297

转载推荐系统的重点、难点问题

随着近年来对推荐系统研究的开展，很多研究中的重点、难点问题得到研究者的关注和共识[7]，主要包括：1）特征提取问题虽然在信息检索中，文本等对象特征的提取技术已经很成熟，但是推荐系统的对象不一定具有文本特征或者文本不足以作为描述[1]，此时特征的选择出现了问题。尤其是网络上广泛存在的多媒体数据如音乐、视频、图像等，自动化的特征提取方法需要结合多媒体内容分析领域的相关技术。另一个问题是特征的区

2016-05-15 11:14:54 5169

转载奇异值分解SVD应用——LSI

潜在语义索引（Latent Semantic Indexing）是一个严重依赖于SVD的算法，本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。————————————在自然语言处理中，最常见的两类的分类问题分别是，将文本按主题归类（比如将所有介绍亚运会的新闻归到体育类）和将词汇表中的字词按意思归类（比如将各种体育运动的名称个归成一类）。这两种分类问题都可用通过

2016-05-15 10:35:03 430

转载 TF-IDF与余弦相似性的应用

这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通

2016-05-15 10:14:34 411

转载 K最近邻(KNN,k-Nearest Neighbor)准确理解

用了之后，发现我用的都是1NN，所以查阅了一下相关文献，才对KNN理解正确了，真是丢人了。左图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟

2016-05-13 21:56:42 13656

转载机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）

前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需求也会越来越大。　　纵观IT行业的招聘岗位，机器学习之类的岗位还是挺

2016-05-12 20:33:51 547

转载构建机器学习系统的20个经验教训

数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训，还需要有自己的理解与见地，虽然后者取决于人的灵动性，但是前者却是可以用语言来传授的。最近Devendra Desale就在KDnuggets上发表了一篇文章，总结了Quora的工程副总裁Xavier Amatriain在Netflix和Quora从事推荐系统和机器学习工作时所总结的20条经验教

2016-05-12 20:16:45 359

转载最大似然估计（MLE）和最大后验概率（MAP）

最大似然估计：最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。简单而言，假设我们要统计全国人口的身高，首先假设这个身高服从服从正态分布，但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高，但是可以通过采样，获取部分人的身高，然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。最大似然估计中采样需满足一个很重要的假设，就是

2016-05-11 21:01:06 412

转载 bootstrap, boosting, bagging 几种方法的联系

这两天在看关于boosting算法时，看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍，以下是搜索得到的原文，没找到博客作者的地址，在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的资源：（1）视频讲义，介绍boosting算法，主要介绍AdaBoosing http://v

2016-05-11 20:48:01 550

空空如也

空空如也