苦海无边怎回头-CSDN博客

原创 python读取csv文件转化为矩阵

f1=open("E:/ai_challenger_stock_train_20171013/train1_18.csv","rb") case_train=np.loadtxt(f1,delimiter=',',skiprows=0) f1.close() case_train1=np.array(case_train)

2017-10-20 17:23:13 23901

原创 python利用矩阵计算实现BP神经网络

本文讲述具体用python矩阵计算，实现BP神经网络，解决2分类问题，矩阵计算大大缩短了时间。关于BP神经网络的知识，建议参考http://blog.csdn.net/yunpiao123456/article/details/52526907数据介绍：1训练数据：总共80多个维度，其中0，,1标签为期望值矩阵维度（N，80+）2测试数据：采用和训练数据格式一样的数

2017-10-20 16:15:06 1178

转载 Spearman

简介斯皮尔曼等级相关（Spearman’s correlation coefficient for ranked data）主要用于解决称名数据和顺序数据相关的问题。适用于两列变量，而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来，一些人把斯皮尔曼等级相关看做积差相关的特殊形式。Spearman秩相关系数是一个非参数性质（与分布无关

2017-06-29 14:54:57 8644 1

转载推荐系统开源软件

SVDFeature由上海交大的同学开发的，C++语言，代码质量很高。去年我们参加KDD竞赛时用过，非常好用，而且出自咱们国人之手，所以置顶推荐！项目地址：http://svdfeature.apexlab.org/wiki/Main_PageSVDFeature包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SV

2017-05-23 14:14:40 395

转载开源中文分词FudanNLP

推荐FudanNLP，这是一个复旦大学计算机学院开发的开源中文自然语言处理（NLP）工具包Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能，对搜索引擎、文本分析等极为有价值。开源项目地址为：http://code.google.com/p/fudannlp/ DEMO地址为：http://jkx.f

2017-05-23 14:10:29 767

转载国外程序员整理的机器学习资源大全

推荐！国外程序员整理的机器学习资源大全本列表选编了一些机器学习领域牛B的框架、库以及软件（按编程语言排序）。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库，新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口，并支持Windows, Linux, Android and Mac

2017-05-23 14:03:22 393

转载 kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码

[-]kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码对掌握相应的数据挖掘技术很有帮助这些代码和技术都是经过竞赛实际检验的比很多华而不实的学术论文要接地气得多学习和实践起来也更方便Kaggle Competition Past SolutionsAlgorithmic Trading ChallengeAllstate Purchase Prediction Challeng

2017-05-23 13:58:57 1559

原创 K-means算法

K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。假设要把样本集分为c个类别，算法描述如下：（1）适当选择c个类的初始中心；（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；（3）利用均值等方法更新该类的中心值；（4）对于

2017-05-07 15:07:59 467

原创 Naive Bayes贝叶斯

X，Y是一对随机变量，P(X,Y)表示它们的联合概率， P(X|Y) 和P(Y|X)表示条件概率，X和Y的联合概率和条件概率满足下列关系：贝叶斯定理X 代表属性集 Y 代表类变量训练阶段：对 X 和 Y 的每一种组合学习后验概率 P( Y | X ) 预测阶段：找出使后验概率P( Y '| X') 最大的类Y'，对测试记录进行分类。例如：上

2017-05-07 14:33:27 322

原创 C4.5算法

C4.5是另一个分类决策树算法，基于ID3算法进行改进，相比于ID3算法有如下几个要点：用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，ID3使用的是熵（entropy，熵是一种不纯度度量准则），也就是熵的变化值，而C4.5用的是信息增益率。在决策树构造过程中进行剪枝，因为某些具有很少元素的结点可能会使构造的决策树过适应（Overfitting），如果不考虑这些结点可能会

2017-05-07 13:44:45 2025

原创决策树ID3算法

经典的决策树算法• ID3 • C4.5 • CART都采用了贪心方法，决策树以自顶向下递归的分治方式构造。决策树算法：1. 树以单个节点 N开始，N代表D中的训练元组如果样本都在同一个类，则该节点 N 成为树叶，并用该类标记它 / 候选集合属性为空2. 否则，算法调用属性选择方法确定分裂准则选择能够最好的将样本分类的属性，该属性成为节点的“测试”或“

2017-04-14 14:37:05 634

原创数据挖掘算法

数据挖掘算法有很多，其中不乏有一些经典的算法，最近正在研究，后续准备关于每个算法写一些自己的想法。算法简介（如有雷同，纯属缘分）：1.ID3算法经典的决策树算法之一。2. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了

2017-04-01 14:39:43 710

原创 Apriori算法

Apriori算法的基本思想：过程分为两个步骤：第一步通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；第二步利用频繁项集构造出满足用户最小信任度的规则。具体做法就是：首先找出频繁1-项集，记为L1；然后利用L1来产生候选项集C2，对C2中的项进行判定挖掘出L2，即频繁2-项集；不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数

2017-04-01 13:13:29 997

原创关联规则挖掘

数据挖掘——关联规则，频繁项集挖掘方法搞数据分析数据挖掘相关的人都知道：啤酒和尿布这个“梗”，下面以购物篮为例：TId项集1{面包，牛奶}2{面包，尿布，啤酒，鸡蛋}3{牛奶，尿布，啤酒，可乐}4{面包，牛奶，尿布，啤酒}K项集：包含0个或多个项的集合（一般只查找项集多的集合，

2017-04-01 12:22:11 445

原创关于Ubuntu中设置环境变量错误，不能重新登录系统

Shell变量有局部变量、环境变量之分。局部变量就是指在某个Shell中生效的变量，只在此次登录中有效。环境变量通常又称“全局变量”，虽然在Shell中变量默认就是全局的，但是为了让子Shall继承当前Shell的变量，需要使用export内建命令将其导出为环境变量。1、Linux的变量种类按变量的生存周期划分：永久的：需要修改配置文件，变量永久生效。临时的：使用e

2016-12-08 20:02:50 442

原创大数据时代数据并非越多越好

大数据好像没有大量的数据就不能叫大数据，数据越多越好吗？并非如此，大数据时代数据可用性至关重要。http://www.doc88.com/p-6774187282770.html

2016-11-30 21:00:04 1057

原创 python从txt到csv,从csv到txt

读txt到新的txt/csvimport osretval = os.getcwd()print retvalos.chdir('D:') if not os.path.exists('test.txt'): # 看一下这个文件是否存在 exit(-1) #不存在就退出lines = open('test.txt').readlines() #打开文件，

2016-11-30 20:50:21 970

原创 python简单的读写csv文件

import csvimport osos.chdir('D:') # 跳转到D盘 if not os.path.exists('test1.csv'): # 看一下这个文件是否存在 exit(-1) #不存在就退出lines = csv.reader(open('test1.csv', "rb"))fp = open('test2.csv','w') fo

2016-11-30 20:39:08 421

原创 python实现txt/csv的读取和写入txt/csv！

import os retval = os.getcwd()#查看当前路径 print retval os.chdir(‘D:’) #跳到D盘 if not os.path.exists(‘test.txt’): # 看一下这个文件是否存在 exit(-1) #不存在就退出 lines = open(‘test_new.txt’).readlines()

2016-11-26 16:48:13 2951

amour_yue的博客