数据挖掘工人-CSDN博客

原创 PL/SQL Developer使用技巧总结

1、PL/SQL Developer记住登陆密码在使用PL/SQL Developer时，为了工作方便希望PL/SQL Developer记住登录Oracle的用户名和密码；设置方法：PL/SQL Developer 7.1.2 ->tools->Preferences->Oracle->Logon History ， “Store history”是默

2014-09-29 17:43:48 1737

原创数据挖掘领域十大经典算法初探

一、C4.5C4.5，是机器学习算法中的一个分类决策树算法，它是决策树(决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树)核心算法ID3的改进算法，所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有：1、用信息增益率来选择属性。

2014-09-25 17:38:47 911

原创数据挖掘模型生命周期管理

为成功地利用预测模型，您需要从开发阶段直至生产环境对模型进行全面管理。模型生命周期管理是由以下阶段组成的高效交替过程： • 确定业务目标 • 访问和管理数据 • 开发模型 • 验证模型 • 部署模型 • 监控模型确定业务目标第一步确定所需模型以及模型的应用类型，制定策略保证模型部署后，业务单位了解模

2014-09-25 17:32:12 5506

原创数据挖掘领域十大经典算法初探

一、C4.5C4.5，是机器学习算法中的一个分类决策树算法，它是决策树(决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树)核心算法ID3的改进算法，所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有：1、用信息增益率来选择属性。

2014-09-25 17:18:58 1122 1

原创数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）

在各种数据挖掘算法中，关联规则挖掘算是比较重要的一种，尤其是受购物篮分析的影响，关联规则被应用到很多实际业务中，本文对关联规则挖掘做一个小的总结。首先，和聚类算法一样，关联规则挖掘属于无监督学习方法，它描述的是在一个事物中物品间同时出现的规律的知识模式，现实生活中，比如超市购物时，顾客购买记录常常隐含着很多关联规则，比如购买圆珠笔的顾客中有65%也购买了笔记本，利用这些规则，商场人员可以很

2014-09-25 17:13:29 5521

原创数据挖掘的十种分析方法

1.记忆基础推理法（Memory-Based Reasoning；MBR）记忆基础推理法最主要的概念是用已知的案例（case）来预测未来案例的一些属性（attribute），通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素，分别为距离函数（distance function）与结合函数（combination function）。距离函数的用意在找出最相似的案例；结合

2014-09-25 17:10:57 1962

原创客户细分总结

随着营销方式的多变、客户需求各异、营销增长受阻等多方面影响，企业的营销面临前所未有的挑战和机遇，精准化营销似乎已成为很多公司的选择，本文针对以下客户细分五大模块进行总结：一：客户细分的必要性：顾客是天生就存在很大差异的，同质化的营销策略在不同的客户面前起到的作用是不同，如果企业想最大化的实现可持续发展和长期的增长，就需要专注正确的顾客群体，找准顾客的需求点，开展有

2014-09-25 17:08:38 11486

原创《SAS编程与数据挖掘商业案例》学习笔记之八

十：file语句file中的option选项：Dlm= 指定列表输出文件的分隔符，默认是空格Dropover 规定当输出数据行长度超过指定值时，忽略超出部分Flowover 规定当输出数据行长度超过指定值时，超过部分在下一行输出Dsd 规定一个数据项可以包含分隔符，但是要用引号括住默认分隔符是逗号En

2014-09-25 16:50:57 1687

原创数据挖掘算法之决策树算法总结

机器学习中，决策树是一个预测模型；它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象，每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出；若需要多个输出，可以建立独立的决策树以处理不同输出。每个决策树都表述了一种树型结构，它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过

2014-09-20 09:26:32 1931 1

原创 Logistic回归主要应用领域

主要应用领域1、预测是否发生、发生的概率（流失、客户响应等预测）　如果已经建立了logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。2、影响因素、危险因素分析（找出影响结果的主要因素）主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，也即影响因素分析。包括从多个可疑影响因素中筛选出具有显著影

2014-09-20 09:25:22 8552

原创数据挖掘在金融行业十大应用

目前数据挖掘在各行各业应用广泛，尤其在金融、保险、电子商务和电信方面得到了很好的效果，本文对金融行业数据挖掘应用做了一个简单的总结，目的是想起到抛砖引玉的作用，欢迎各位大牛拍砖。一：风险控制（贷款偿还预测和客户信用评价）有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法，如特征选择和属性相关性计算，有助于识别重要的因素和非相关因素。例如，与货款偿还风险相

2014-09-20 09:17:48 9458 2

原创主成分分析和因子分析十大不同点

主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处，本文结合以往资料以及自己的理解总结了以下十大不同之处，适合初学者学习之用。1.原理不同主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个不相关的综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主

2014-09-20 09:09:04 6252 1

原创人人都可以成为记忆高手--罗马室记忆法则

我这几天时间刚刚把《记忆力的革命》这本书看完第二遍。书的最后有一个七天的记忆训练很不错，通过这个历时一周的系列练习，可以让你快速增强你的记忆能力。这个训练很基础，也很容易坚持下来，我会分为七天来更新这个训练，希望各位读者一起来做这个训练。　　这个七天的练习课程，但并不意味着你就必须每天做一种，不能中断。这本来就不是刻板的练习，而且为了轻松。如果需要，可以休息一两天，甚至两三天。而且，这和真正的

2015-04-24 08:19:14 2896 5

转载一些奇葩的元素节点object，video

object元素object这个元素，现在前端很少用到，但是像flash，svg等奇葩元素，必须嵌套在object对象元素中。现代浏览器用video，canvas代替这些元素。之前做过图表和地图的一些应用，像highchart,e-chart，这些图表插件，基本上是使用svg元素（嵌套在object元素中）生成的，可见它的作用还是不容忽视的。IE7以及以下版本浏览器使用的是vml。

2014-12-09 12:54:07 2538

转载强大的矩阵奇异值分解(SVD)及其应用

本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系[email protected]前言：上一次写了关于PCA与LDA的文章，PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇

2014-11-03 15:15:28 1064

原创 shell查找命令大全

1.whereis 文件名　　特点:快速,但是是模糊查找,例如找 #whereis mysql 它会把mysql,mysql.ini,mysql.*所在的目录都找出来.一般的查找都用这条命令.2.find / -name 文件名　　特点:准确,但速度慢,消耗资源大,例如我想找到php.ini的准确位置,就需要用　　#find / -name php.ini3.loca

2014-10-31 08:04:57 2115

原创 Java类集-SortedSet接口

TreeSet实现了SortedSet接口 package iotest;import java.util.SortedSet;import java.util.TreeSet;public class sset {public static void main(String args[]){SortedSet alls=new TreeSet();

2014-10-31 07:42:54 1057

原创 Java类集-set

Set接口是Collection接口的子接口，Set接口中不能插入重复元素Set接口的常用子类：HashSet是set接口的一个子类，特点：里面不能存放重复元素，而且采用散列的存储方式，所以没有顺序。Treeset也是set接口的一个子类，特点：里面不能存放重复元素，并且是有序存放 TreeSet是有序存放的，所以需要制定好排序规则，TreeSet中每个对象所在的类都必须实现C

2014-10-31 07:42:11 898

原创 Java类集-list

Collection子接口： ArrayList是List接口和Collection接口的一个子类，用于实例化两种接口 package leiji;import java.util.ArrayList;import java.util.List;import java.util.Collection;public class ArryList {

2014-10-31 07:40:55 934

原创 python核心模块之pickle和cPickle讲解

pickle模块使用的数据格式是python专用的，并且不同版本不向后兼容，同时也不能被其他语言说识别。要和其他语言交互，可以使用内置的json包使用pickle模块你可以把Python对象直接保存到文件，而不需要把他们转化为字符串，也不用底层的文件访问操作把它们写入到一个二进制文件里。 pickle模块会创建一个python语言专用的二进制格式，你基本上不用考虑任何文件细节，它会帮你干净利落

2014-10-30 17:41:34 2045

转载推荐系统相关算法(2)：k-nearest neighbor

1. kNN1.1 基本的kNN模型 kNN(k-nearest neighbor)的思想简单来说就是，要评价一个未知的东西U，只需找k个与U相似的已知的东西，并通过k个已知的，对U进行评价。假如要预测风炎君对一部电影M的评分，根据kNN的思想，我们可以先找出k个与风炎君相似的，并且对M进行过评分的用户，然后再用这k个用户的评分预测风炎君对M的评分。又或者先找出k个与

2014-10-30 15:53:15 1225

转载推荐系统相关算法(1)：SVD

假如要预测Zero君对一部电影M的评分，而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分（包含M的评分）。那么能预测出Zero君对M的评分吗？答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多，并且也不算复杂的算法。 SVD(Singular Value Decomposition)的想法是根据已

2014-10-30 15:51:17 1156

原创《销售总监》读书笔记

2014-10-30 15:25:28 1134 2

原创马化腾最崇拜的作家吴晓波《历代经济变革得失》读书笔记

吴晓波先生，是马化腾最崇拜的作家，腾讯的朋友说，马化腾逢人便推荐吴晓波的写的书《历代经济变革得失》，并亲自指示腾讯视频免费推广这个视频讲座。这本书我通读了两遍，总结了如下的笔记：

2014-10-29 08:01:41 2371 1

转载推荐系统中协同过滤算法实现分析

原创博客，欢迎转载，转载请注明：http://my.oschina.net/BreathL/blog/62519 最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通

2014-10-28 13:24:35 1696

原创 Java学习笔记之 IO包字符流

字符流：Writer/Reader(字符流)通过子类FileWriter和FileReader实现父类实例化 package iotest; import java.io.File;import java.io.Writer;import java.io.Reader;import java.io.FileWriter;import java.io

2014-10-24 15:36:36 893

原创 Java学习笔记之 IO包字节流

IO包最重要的五个类和一个接口File/OutputStream/InputStream(字节流)/Writer/Reader(字符流)一个接口：Serializable File类：字节流：OutputStream与InputStream是抽象类OutputStream是整个IO包中，字节输出流的最大类FileOutputStream是一个子类，通

2014-10-24 15:33:08 1136

原创思考的技术与艺术

总的来说 1.人类的思维充满着各种各样的捷径，每一条捷径都是一把双刃剑。一方面，它降低了大脑的认知复杂性（笼统的看一个问题要比细致的分析简单得多），有助于迅速做出绝大部分时候都正确的判断；但另一方面，它也常常导致人们把大部分情况下成立的法则当成了放之四海而皆准的。可以说，有多少捷径，就有多少条谬误。 2.人类的情绪也在很大程度上影响着人的思考。比如，如果你憎恶一个人，你往往就会反对他的所有

2014-10-24 15:31:59 1042

原创读书笔记--互联网必读《长尾理论》作者克里斯.安德森

《长尾理论》1.长尾市场................................................................................................................... 22.大热门的兴衰起伏.........................................................

2014-10-23 14:31:47 1365

原创读书笔记-互联网思维必读10本书之一《免费》

分享一个读书笔记，具备互联网思维必读10本书之一《免费》，作者克里斯.安德森5年前就能通过“免费”串起众多互联网模式，有些至今还很受用，说明前瞻性思维太重要了

2014-10-23 14:08:30 1115

原创人生133个规则，能领悟多少算多少！！！看自己的造化！！！

1、人之所以痛苦，在于追求错误的东西。2、与其说是别人让你痛苦，不如说自己的修养不够。3、如果你不给自己烦恼，别人也永远不可能给你烦恼。4、好好的管教你自己，不要管别人。5、你永远要感谢在你逆境时给你帮助的人。6、你永远要宽恕伤害过你的人，你一定要放下，才能得到真正的快乐。7、当你快乐时，你要想，这快乐不是永恒的。当你痛苦时你要想这痛苦也不是永恒的。

2014-10-09 11:43:34 722

原创 PPT快捷键大全（作分析报告的人有福了）

Alt+F9隐藏参考线ctrl+[缩小字号ctrl+]增大字号ctrl+z撤销ctrl+y撤销的反向动作ctrl+d快速复制CTRL+G组合

2014-10-09 11:42:41 1660

原创 Vim文本编辑器指令大全（二）

经常处理文本以及经常需要写代码的人，都会有自己比较常用的编辑器，本人喜欢用Vim，理由就是Vim编辑器灵活，并且可以达到纯键盘操作，使用纯熟情况下，根本不需要鼠标操作，听起来是不是很酷的？不过别高兴太早，想达到那个境界必须的指令是需要学习+记忆+练习的。总结指令如下：高级正则表达式1./\s*\查找多由c语言中的函数\零长度匹配，表示单词的开始\@! 零

2014-10-08 15:58:19 1166

原创协同过滤

在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最近有什么好看的电

2014-10-08 15:48:22 1147

原创数据分析在零售业八大应用点总结

1、销售指标分析：主要分析各项销售指标，例如毛利、毛利率、坪效、交叉比、销进比、盈利能力、周转率、同比、环比等等；而分析维又可从管理架构、类别品牌、日期、时段等角度观察，这些分析维又采用多级钻取，从而获得相当透彻的分析思路；同时根据海量数据产生预测信息、报警信息等分析数据；还可根据各种销售指标产生新的透视表，例如最常见的ABC分类表、商品敏感分类表、商品盈利分类表等。这些复杂的指

2014-10-08 15:22:54 5891

原创数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）

在各种数据挖掘算法中，关联规则挖掘算是比较重要的一种，尤其是受购物篮分析的影响，关联规则被应用到很多实际业务中，本文对关联规则挖掘做一个小的总结。首先，和聚类算法一样，关联规则挖掘属于无监督学习方法，它描述的是在一个事物中物品间同时出现的规律的知识模式，现实生活中，比如超市购物时，顾客购买记录常常隐含着很多关联规则，比如购买圆珠笔的顾客中有65%也购买了笔记本，利用这些规则，商场人员可以很

2014-10-08 15:22:06 6011

原创学习总结之数据挖掘三大类六分项

Data Mining可分为三大类六分项来说明：Classification和Clustering属于分类区隔类；Regression和Time-series属于推算预测类；Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会被分类为几个少数的离散数值，例如将

2014-10-08 15:19:23 2289

原创 sas快捷键大全

1.Abbreviation Add a new abbreviationCtrl + Shift + A Bring up word tipAlt + F1 + No Selection Hide the current word tipEsc Make a text abbreviationShif

2014-10-08 15:17:36 2801

原创《SAS编程与数据挖掘商业案例》学习笔记之十九

继续《SAS编程与数据挖掘商业案例》学习笔记，本文侧重数据处理实践，包括：HASH对象、自定义format、以及功能强大的正则表达式一：HASH对象Hash对象又称散列表，是根据关键码值而直接进行访问的数据结构，是根据关键码值而直接进行访问的数据结构，sas提供了两个类来处理哈希表，用于存储数据的hash和用于遍历的hiter,hash类提供了查找、添加、修改、删除等方法，

2014-10-08 15:13:38 2258 1

原创数据挖掘在呼叫中心的六大应用点

当前商业正在从“以产品为中心”到“以用户为中心”转变，很多企业将CRM作为企业成功的一个关键因素，呼叫中心作为影响用户最直接的渠道，起着至关重要的作用；利用数据挖掘技术，可以提高企业呼叫中心的效率的同时来增加客户满意度，下面讨论下具体可以应用的方面。 1、根据客户的历史信息、呼叫信息、客户级别等信息，建立客户接入分类模型，对接入客户进行客户细分，针对不同的客户群采取不同的服务应答策

2014-09-30 15:23:14 1604 1

sas_enterprise_guide.pdf

SAS操作入门－吴有炜

DeepLearning-NowPublishing-Vol7-SIG-039.pdf

空空如也