leexurui-CSDN博客

原创深度学习keras程序失败的解决办法

首先，不要用pip install keras。因为那个版本太老，经常各种bug。如果说使用了pip installkeras，那么就会自动引用安装到python27下面lib文件里面的库了，这样不管怎么改下载下来的文件都没有用。所以直接到https://github.com/ogrisel/keras 上面下载下来。然后运行example文件夹下面的例子。比如要使用imdb_l

2016-08-29 12:51:51 6692

原创 Weka 分类 注意点

注意点：1、格式最好是weka默认的arff格式。不过weka也可以打开csv格式的文件（csv格式可以用空格、tab或者逗号隔开都行，但是一定要统一才可以。），然后可以点save，保存成为arff格式。2、若是打开csv格式文件的话，第一行要一定要定义如图命名每一列的属性名称（随便命名比如图中的1 2 3 4 5 6 7 89或者a b c d e f g之类的，但列之间不能重复）。分

2016-08-29 12:51:48 664

原创 scikitlearn/theano多分类问题详解

入门先看下面两个网址二分类：http://python.jobbole.com/82208/多分类：http://blog.csdn.net/han_xiaoyang/article/details/50521072下面说说改进及注意点：上述博客的数据例子都是根据自己的意思随机生成的。这边用iris数据进行扩展由于iris数据是像下面这样的：5.1,3.5,1.4,0.2,

2016-08-29 12:51:46 1430 1

转载数据挖掘技术（四）——聚类

原文地址：数据挖掘技术（四）——聚类作者：人生的悲哀4、聚类聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外，一些聚类技术使用簇原型（即代表簇中其他对象的数据对象）来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意：簇的定义是不精确的，而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习（也

2016-08-29 12:51:43 8077

转载评分卡模型剖析之一（woe、I…

原文地址：评分卡模型剖析之一（woe、IV、ROC、信息熵）作者：数据挖掘工人信用评分卡模型在国外是一种成熟的预测方法，尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用，其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。本文重点介绍模型变量WOE以及IV原理，为表述方便，本文将模型目标标量为1记为违约用户，对于目

2016-08-29 12:51:41 4475 2

转载读书笔记之三十二----《信用…

原文地址：读书笔记之三十二----《信用评分模型技术与应用》（一）作者：zhaoxq第一章信用评分模型在消费信贷管理中的应用从数理分析技术发展的层次上讲，信用评分模型的发展经历了3个历史阶段： 1、以客户分类为核心的信用分析。使用一些描述性统计方法来对客户资信信息进行简单分析、分类。 2、以预测模型为核心的信用评分模型。至今是欧美消费信贷管理中使用最广泛、发展最完善的技术。

2016-08-29 12:51:38 1620

原创 Spark的最短路径详解

import org.apache.spark.graphx._ import org.apache.spark.SparkContext import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.rdd.RDD// I

2016-08-29 12:51:35 3275

原创 Spark mlib FPGrowth&nb…

MLlib’s FP-growth implementation takes the following(hyper-)parameters:minSupport: the minimum support for an itemset to beidentified as frequent. For example, if an item appears 3 out of 5trans

2016-08-29 12:51:33 513

原创 Spark SQL重点

Spark SQL允许Spark执行用SQL,HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。 1、使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时，当你已经知道了模式，这种基于反射的方法可以使代码更简洁并且程序工作得更好。例如sc.textFile("examples/src/main/

2016-08-29 12:51:30 412

原创 Spark Stream 教程

import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{Seconds,StreamingContext}import org.apache.log4j.{Level, Logger}import java.util.co

2016-08-29 12:51:27 1148

原创 Spark map 处理表格数据

map 处理表格数据" TITLE="Spark map 处理表格数据" />总结：- Spark 中 map函数会对每一条输入进行指定的操作，然后为每一条输入返回一个对象；- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”：操作1：同map函数一样：对每一条输入进行指定的操作，然后为每一条输入返回一个对象操作2：最后将所有对象合并为一个对象使用ma

2016-08-29 12:51:25 513

转载社交网络分析：网络中心性

原文地址：社交网络分析：网络中心性作者：酸嘢本文为Social NetworkAnalysis学习笔记，课程地址为https://www.coursera.org/course/sna。对于中心性(centrality)的不同观点在下面每一个网络中，X都相对Y具有更高的中心性。定量度中心性在每个节点上标注节点度。例如，拥有朋友越多的节点其中心性越高。其标准化就是用节点度除以最大

2016-08-29 12:51:22 12914

转载如何利用Nodexl画图——以绘制…

原文地址：如何利用Nodexl画图——以绘制文献作者关系图为例作者：starfire Nodexl是Network Overview,Discovery and Exploration forEXCEL的英文缩写，用以进行社会网络分析，由于其学习上手快，后期又具有丰富的功能和灵活的定制，应用较为广泛。笔者在大致阅览相关论文和软件说明后，有了一些入门级别的思考，记录仅供学习交流。下面就具体介

2016-08-29 12:51:20 5888

原创关于Hadoop的GenericOptionsParser…

由于集群为hadoop配置了执行队列，所以如果我们程序写成下面这样的话： Configuration conf = newConfiguration(); String[] otherArgs = newGenericOptionsParser(conf, args).getRemainingArgs(); ........... File

2016-08-29 12:51:18 5799

原创 scala 重点语法总结

Scala 有两种变量， val 和var 其中val不可变，var可变val msg: String="Hello yet again,world!"或者类型推断val msg = "Hello,world!"重点语法总结" TITLE="scala 重点语法总结" />如果函数仅由一个句子组成，你可以可选地不写大括号。def max2(x: Int, y: In

2016-08-29 12:51:15 4206

原创 python将句子中两个子串位置互换的…

想要将文中所有的类似AA。\cite{JAP77,Solid3439}BB。\cite{JAP89,Solid3439}CC替换为AA\cite{JAP77, Solid3439}。BB\cite{JAP89, Solid3439}。CC即。与 \cite{....} 互换位置采用非贪婪匹配，边界条件都用*?来匹配即可。import sys import os impo

2016-08-29 12:51:13 3472

原创 python 连接mysql

首先下载 mysqldb，最好是一个exe（对应python2.7或者3.。。要选对版本，例如我随便下了一个http://www.cr173.com/soft/22957.html），直接双击安装就行了。先执行import MySQLdb，然后>>> db =MySQLdb.connect("localhost","root","1234567","bookmanage" )

2016-08-29 12:51:11 506

原创 Linux screen

系统管理员经常需要SSH 或者telent 远程登录到Linux 服务器，经常运行一些需要很长时间才能完成的任务，比如系统备份、ftp 传输等等。通常情况下我们都是为每一个这样的任务开一个远程终端窗口，因为它们执行的时间太长了。必须等待它们执行完毕，在此期间不能关掉窗口或者断开连接，否则这个任务就会被杀掉，一切半途而废了。用screen解决这个问题先安装 yum install s

2016-08-29 12:51:08 354

原创 Python的Nltk包安装使用

Python的Nltk包安装方法http://www.nltk.org/install.html使用>>> import nltk >>> nltk.download() nltk.download() 太慢了，所以我先手动下载好，解压，放到/usr/local/share/nltk_data目录下[root@10-10-198-186 nl

2016-08-29 12:51:05 3824 2

转载 Large Scale Dist…

原文地址：Scale Distributed Deep Networks 中译文">Large Scale Distributed Deep Networks 中译文作者：DeepLearner大规模分布式深度网络（Large Scale Distributed DeepNetworks）Jeffrey Dean, Greg S. Corrado,Rajat Monga,

2016-08-29 12:51:03 641

原创安卓 Bitmap类抓某个像素点的RGB

先截屏抓个图（ScreenCapture是我自己定义的一个截屏函数）String PicDictory1 = ScreenCapture.CaptureScreen("File1",true);然后用工厂函数： Bitmap bm1 =BitmapFactory.decodeFile(PicDictory1); int pixel =bm1.getP

2016-08-29 12:51:00 1455

原创 Monkeyrunner

android开发免不了要用到android sdk tools下的一些开发工具，你可以在系统环境变量里面配置一个ANDROID_HOME变量，把你的android SDK 安装路径加进去。比如我的路径是：C:\Users\curryl\adt-bundle-windows-x86_64-20140702\sdk。如果你已经配过了ANDROID_HOME变量，你现在只需要在你的系统变量的PAT

2016-08-29 12:50:58 439

原创 C++ 排列组合

从n个数中取m个的随机组合。看起来很简单的东西，实现起来真烦。。。。。。搞了一个多小时才想明白。#includeusing namespace std;void combine(int a[], int n,int m , int b[], int M){ int i, j; for (i = n; i >= m; i--) { b[m - 1] = i - 1;

2016-08-29 12:50:56 696

原创安卓 在任意地方启动另一个AP…

首先使用 dumpsys 查看另一个App 的名称（1）首先启动要查看的程序，到该程序上；（2）命令行输入：adb shell dumpsys window w |findstr\/ |findstr name=就能得到类似下面这样的信息 mSurface=Surface(name=com.nvidia.tegrazone3/com.nvidia.tegrazone.Ma

2016-08-29 12:50:53 755

原创从STL容器的使用对比，研究hashmap…

java和C++里面都有hashmap。C++ 中容器的一些对比1、你的百万级的数据放到vector不大合适。因为vector需要连续的内存空间，显然在初始化这个容器的时候会花费很大的容量。（vector就相当于下面说的数组，寻址很容易）2、如果你需要在数据中间进行插入，list是最好的选择，vector 的插入效率会让你痛苦得想死。Llist类型的使链式关系（l

2016-08-29 12:50:51 1512

原创 C++ 结构体 内存分配

C/C++类/结构体内存遵循三个原则： c++中结构跟类几乎相同，除了默认成员的访问控制不同。以下结构体的内存对齐在类class中也是一样的。 1) 结构体变量的首地址能够被其最宽基本类型成员的大小所整除；2)结构体每个成员相对于结构体首地址的偏移量（offset）都是成员自身大小的整数倍，如有需要编译器会在成员之间加上填充字节（internaladding）；3)

2016-08-29 12:50:48 798

原创 java spring框架学习总结

使用方法见我的CSDN博客http://blog.csdn.net/leexurui/article/details/46967067重点基础反射-->Spring IoC 控制反转，即不直接在对象内部new类，而是有专门一个容器来创建这些对象，我们可直接调用动态代理-->SpringAOP 面向切面编程，1、JDK（仅面向接口）的动态代理；2、基于CGLib的动态代理

2016-08-29 12:50:46 1201

原创手写数字识别的机器学习方法讨论

KNN算法：好多样本（比如500个），每个样本存了一个0和1描述的矩阵（一般的数字图片可经过预处理（二值化，平滑去噪归一化）等方式变成类似的存储结构），类似下图，并告诉该样本是数字几。然后我们在程序中，把这个矩阵变成一行向量，然后把这500个样本的行向量存到一个矩阵或者哈希表中。然后我们取一个需要判别数字的样本，把它的矩阵也变成行，然后循环分别求它跟上面500个样本行的欧式距离

2016-08-29 12:50:43 2047

原创二维数组的指针

int main(){int aa[4][5]={ {1,2,3,4,5}, {6,7,8,9,0}, {11,12,13,14,15},{16,17,18,19,20} };int (*p)[5]=aa; //或者 coutcout }会打印2和17.为啥记住一个万能公式就行了：*(p + i) =p[i]inta[2][3]={{1,2,3}

2016-08-29 12:50:41 433

什么是pagerank，不说了，机器学习10大算法之一，网上搜一堆。谷歌发明的网页搜索方法。简单说就是原来N个网页，有一个初始概率向量，然后有一个转移矩阵，跟原始概率向量相乘（一般还要考虑陷阱问题，所以一般每一步是个乘加）（其实就是一个马尔可夫过程），得到一个新的概率向量。然后反复乘加。由于网页实在太多，所以可能计算量相当大。可以说谷歌发明分布式mapreduce（hadoop）最初就是用来解决p

2016-08-29 12:50:38 445

原创 Kmeans 的MapReduce实现原理

1、由InputDriver对原始数据集的一个预处理，输入目录是：testdata，输出目录是：output/data2、由CanopyDriver发起的对data的初始划分，输入目录是：output/data，输出目录是：output/clusters-0。这里我们假设样本被划分为了500份小样本文件，分散在cluster中。3、由KmeansDriver发起的构建Cluster的第一

2016-08-29 12:50:36 772

原创 Linux(ubuntu) 下安装Boost 库

随便在哪个文件夹。首先确保安装的依赖关系解决库#sudo apt-get install build-essential然后#apt-cache search boost可以看看跟boost有关的有哪些，一般现在都是libboost这样的。#sudo apt-getinstall libboost 按tab键，查看所有可用版本，我们这里选择1.54版本的。最后执行安装#sud

2016-08-29 12:50:34 430

转载贪心算法经典例子

原文地址：贪心算法经典例子作者：baddb65imf一、定义什么是贪心算法呢？所谓贪心算法是指，在对问题求解时，总是做出在当前看来最好的选择。也就是说，不从整体最优解出发来考虑，它所做出的仅是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解，但对范围相当广泛的许多问题都能产生整体最优解或整体最优解的近似解。贪心算法的基本思路如下：1.建立数学模型来描述问题。2.把求

2016-08-29 12:50:31 651

原创 CUDA 共享内存的bank co…

上面两个概念不要搞混了，两个不同的概念大部分转自http://www.cnblogs.com/waytofall/archive/2013/02/19/2916996.htmlhttp://www.cnblogs.com/dwdxdy/p/3215187.html个人感觉shared memory可能是CUDA优化编程中最经常考虑的东西了。在编程过程中，有静态的shared

2016-08-29 12:50:29 548

原创 python 集合操作 set

发现在用python进行机器学习数据挖掘的时候经常用到set，在网上收了一些资料。http://blog.csdn.net/business122/article/details/7541486http://www.cnblogs.com/xiaoit/p/4045547.htmlset的内部结构和dict很像，主要区别是不存储value，因此，判断一个元素是否在

2016-08-29 12:50:26 776

原创柔性数组

结构中最后一个元素允许是未知大小的数组，这个数组就是柔性数组。但结构中的柔性数组前面必须至少一个其他成员,柔性数组成员允许结构中包含一个大小可变的数组。sizeof返回的这种结构大小不包括柔性数组的内存。包含柔数组成员的结构用malloc函数进行内存的动态分配,且分配的内存应该大于结构的大小以适应柔性数组的预期大小。柔性数组到底如何使用例子：点击(此处)折叠或打开typ

2016-08-29 12:50:24 286

转载 C++创建对象的两种方法

跟java还是不太一样啊， java新建对象直接Student s1=new Student("张雪洁");s1.introduce(); 就行了原文地址：C++创建对象的两种方法作者：Valsun在C++里，有两种方法创建对象：方法一：ClassNameobject(param);这样就声明了一个ClassName类型的object对象，C++会为它分配足够的存放对象所有成员的存储空间。

2016-08-29 12:50:21 420

原创从SQL到HiveQL

从SQL到HiveQL应转变的习惯HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准,如HiveQL不支持更新操作（行级别）, 也不支持事务, 它的索引，子查询和join操作也很局限,这是因其底层依赖于Hadoop云平台这一特性决定的,但其有些特点是SQL所无法企及的。例如多表查询、和集成MapReduce脚本等,也支持creat

2016-08-29 12:50:19 679

原创关于Python中的yield

http://www.cnblogs.com/tqsummer/archive/2010/12/27/1917927.html关于Python中的yield在介绍yield前有必要先说明下Python中的迭代器(iterator)和生成器(constructor)。一、迭代器(iterator)在Python中，for循环可以用于Python中的任何类型，包括列表、元祖等

2016-08-29 12:50:16 404

原创一些mapreduce程序分析

wordcount 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器，无论这个数据出现多少次，只要在最终结果中输出一次就可以了。具体就是reduce的输入应该以数据作为key，而对value-list则没有要求。当reduce接收到一个时就直接将key复制到输出的key中，并将valu

2016-08-29 12:50:14 405