linluyisb-CSDN博客

原创 probit模型

probit模型@(机器学习)[probit|logit] 今天看计算广告学，谈到最大熵与指数簇的一些关系，网上查资料，期间发现这个probit模型的概念，以前竟然完全没听过。因此花点时间来搞懂，网上的资料并不是很详细，因此形成一篇博客，分享给大家。probitprobit：多元概率比回归模型。学习一定要和logit regression进行对比，都是一种广义线性模型，事件发生的概率依赖于解释变量

2015-11-06 22:45:10 54340 2

原创量化交易-4-zipline回测例子

量化交易-4-zipline回测例子@(金融)上一篇讲到，自己有了一个策略，两根线，上穿买入，下穿，卖出。因此需要一个回测工具，评判策略优劣。在网上寻找了一下，初步打算使用zipline来进行回测。由于zipline的demo使用是美股，我稍作修改，使用了自己A股，并且对demo进行了分析，然后将demo的策略换做自己的demo进行分析。替换美股为A股替换美股为A股，稍微需要修改一些地方 1

2015-10-31 20:27:02 17831 3

原创量化交易-K线图

量化交易-K线图@(金融)K线图在股票的分析中，图占了很大一席。因此首先来学习画K线图。def draw_tianbijun(stock): ''' 先画田碧君的趋势图片 K线以及公式图片一起画 ''' dl = DownLoad() raw_data = dl.load_data(stock) #raw_data.index = raw_da

2015-10-30 12:16:19 5769

原创量化交易-2-数据获取

量化交易-2@(金融)数据获取，加载通过tushare获取数据，不能每次都去请求，一般可以加载到本地存储，我选择存储到mysql,以后获取的时候，可以去mysql加载。然后每天更新数据就好了。数据存储模块如下 def down_history(self, stock): ''' 下载历史至今天的数据,可以用于下载新股票 date,open,hig

2015-10-30 12:05:36 3507

原创量化交易-1

量化交易-1@(金融)前言自从换工作以来，浪费了不少时间。最近股市不是大热嘛，在利益的驱动下，入了股市，在什么都不懂的情况下，就在股市高点入场，然后韭菜就被割了。痛定思痛，在研究一些金融知识的情况下，结合自己的长处，逐渐对量化交易产生了兴趣。在做了初步的了解学习后，打算进行深入的学习。在此重新开始博客，记录学习过程，一步一步前行。环境搭建目前配置的环境 windows 7 数据获取:tushar

2015-10-30 11:56:59 2393 1

原创文本特征提取

前言@(NLP)[IG,X2,CE] TF-IDF可以有效的评估一个字词对于一个文件集或一个语料库的重要程度。但在文本分类中，它的区分度不够，没有考虑特征词在类间的分布。也就是选择特征应该在某类出现多，而其它类出现少。也没有考虑特征词在类内部文档的分布情况，如果特征词均匀分布在其中，则这个特征词能够很好的代表这个类的特征。特征提取的目的在于降维。卡方特征提取卡方检验最基本的思想是通过观察实际值

2015-03-31 16:34:22 1404

原创 python 装饰器

装饰器研究装饰器种类装饰器分为两类，一种是不需要参数的装饰器，另一种需要带参数。下面展示一个不带参数的装饰器，实现简单的类似AOP功能，记录函数运行时间，或者记录日志等。def running_time(func): @functools.wraps(func) #备注 def wrapper(*args, **kw): start_time = time.ti

2015-03-26 15:34:25 626

原创奇异值分解(SVD)应用简介

一：前言千里之行，始于足下，新的一年开始了，努力提升自己，从点滴做起。总结一下过去半年的工作。二：SVD在短文本相似度的应用文本相似度计算中比较有名的算法Latent Semantic Analysis(LSI/LSA)，就是用的SVD技术，将文档—词语矩阵（bag of words方法，或者TF，TF-IDF等）进行分解，构造低维的语义空间。用过的开源工具

2015-02-28 18:26:56 4424

原创文本分类小结

一：特征提取文本分类中一个重要的工作部分就是特征提取。常见的特征词提取方法有卡方，信息增益，信息增益比，期望KL距离等。链接http://blog.csdn.net/fighting_one_piece/article/details/37912051，这篇博客讲的十分详细，就不重复写了。不同的特征提取方法，会有自己的特点，用不同的分类的方法，效果也不一样，不能一概而论（遇到过数据集特征提

2015-02-13 11:25:10 1613

原创最大熵与逻辑回归的等价性

一：前言大概了解过逻辑回归与最大熵模型有些关系，但是一直没有理清楚。这次稍微深入理解了一下。逻辑回归是最大熵对应类别为两类时的特殊情况，也就是当逻辑回归类别扩展到多类别时，就是最大熵。下面会详细的进行证明。本文只是一个copy版本，内容源自：首先我们引入一些符号。假定输入是一个n维空间的实数向量。（考虑到公式在这里展示不好看，以图片的格式呈现）

2015-01-31 17:41:12 11223

原创奇异值分解SVD原理探讨

一:前言写在前面，因为涉及到公式，选择了以图片的方式发。内容都是个人的一些理解，借鉴了网上的很多资料，因为太多，而且是几个月前写下的，这里实在没法一一列举参考文献了。理解SVD的一些要点知识。1）矩阵本身的意义 2）矩阵乘法的意义

2015-01-15 18:20:36 1654

原创 Spark存储与读取文件方法小结

一：Spark中常常面临这RDD的存储问题，记录一下常常面临的几种情况。saveAsObjectFile, SequenceFile, mapFile, textFile我就不说了。首先：在写文件的时候，经常输出的目录以及存在，需要一个删掉目录以及存在的情况。大致功能如下 def checkDirExist(sc:SparkContext,outpath:String) = {

2015-01-05 16:23:32 12904

原创 python 常用小技巧

最近一直在使用python 进行编程，因为几乎都是边学边用，感慨新知识太多，记忆跟不上，因此，打算把自己觉得比较重要的东西记下来，以后就不用找了。一：关于python 时间方面的知识二：python 时间的比较三：卡方检验，信息增益用于文本特征提取上面

2014-10-30 19:55:56 629

原创 Mysql存储，查询过程编码问题小结

最近遇到的一些问题整理： 1：千万级条目中查找记录，花费时间比较长，因此自己把文件写到数据库。 2：写数据库，最容易出的问题是，编码乱掉，自己也是出了这个问题，花了很长的时间才解决掉这个问题。分为写入数据库和读取数据库部分。写入数据库部分：我的数据库是mysql,默认的配置，都是latin1编码格式，也就是”ISO-8859-1”的

2013-12-13 14:57:05 954

原创 Hadoop学习之莎士比亚文档倒排索引

一：题目莎士比亚文档倒排索引二：简单的实现 1）map类这其中定义一下map类的输出格式 public static class InvertedMapper extends Mapper{ //默认的这里不是longWritable的key么，怎么回事,应该要设置把 @Override protected void map(Long

2013-08-21 16:01:16 1584

原创 Hadoop学习之莎士比亚文档词频统计

一：前一段时间学习了Hadoop，快要找工作了。虽然学习的不深，还是稍微回顾一下，做点准备。多看看代码，及过程吧。题目：就是统计每个单词出现的频率，很简单的。二：简要过程 1）编写map类class TokenizerMapper extends Mapper { //这些均是封装的数据类型，可视为int,long,String private f

2013-08-21 15:31:37 1794

原创决策树算法解析---ID3，C4.5

一：虽然网上已经有了很多的关于决策树的文章，自己也反复的看了不少遍，但是过了一段时间又觉得比较模糊，因此自己打算来写一篇，自己着重强调物理意义，增加自己的理解。文章末尾会给出参考链接二：决策树首先是基于信息论的，信息熵的增益来作为决策。因此首先我来描述一些信息论中的知识。1）自信息量：在收到ai之前，接受者对信源发出ai的不确定性定义为信息符号ai的自信息量

2013-07-16 17:18:27 1725

原创设计模式--代理模式

一：代理模式。interface Methods{some methods}class Porxy implements Methods{Methods instance;实现接口的方法，具体就与instance的实现相关} 基本的代理原理，被代理的类实现某了接口，具有一些方法，然后再代理里面用到代理对象的接口，然后调用方法。基本上代理的用处在于，提供额外或

2013-07-11 06:51:53 661

原创分治法的应用-排队购票，餐盘放苹果问题

一：问题描述，一场球赛开始前，售票正在进行。每张球票的价格为50元，现在有30个人排队等待购票，其中有20个人手持50元的钞票，另外10个人手持100元的钞票。假设开始售票时售票处没有零钱，求出这30人排队购票，使售票处不会出现找不开钱的局面的不同排队方案。特别要说的是：拿着同样面值的钞票的人对换位置后为同一排队方案。二：分析额，这题目貌似容易陷入排列组合中去考虑一般情形，有m

2013-06-03 15:29:26 1547

原创 JAVA 序列化Serializable

一：玩了好多了天，找实习也大受打击。终于静下心来了，准备开启学霸模式，好好学习几个月。5月初就准备好好看java基础，中间玩了不少时间，进度没有达到预期，接下来开组马力，前进。看了一些java序列化，准备几点笔记二：参考书《Thingking in java》《Effective java》，以及许多网上的博客，文章的末尾我会给出主要的连接。声明：虽然看了不少说明，但是感觉还

2013-05-30 18:21:56 808

原创 JAVA形参值传递，引用传递分析。

一：最近准备好好看看java基础知识，好家伙，刚上来，就碰见了这个问题，String类到底是什么传递方式？二：先声明我的结论（欢迎李菊福喷） java中参数都是值传递方式（String也不例外，我理解的值传递，都是传递实参的副本，但是要弄清楚，这里的拷贝，拷贝的是实参变量地址（栈），而不是实参变量指向的对象），其实质是传递实参副本，分析过程如下。首先你要弄清

2013-05-08 09:39:28 797

转载 java基础面试题目

基础知识：1.C++或Java中的异常处理机制的简单原理和应用。当JAVA 程序违反了JAVA的语义规则时，JAVA虚拟机就会将发生的错误表示为一个异常。违反语义规则包括2种情况。一种是JAVA类库内置的语义检查。例如数组下标越界,会引发IndexOutOfBoundsException;访问null的对象时会引发NullPointerException。另一种情况就是JAVA

2013-04-01 23:07:42 884

原创 POJ题目之1007号

纸上得来终觉浅，绝知此事要躬行，越来越觉得自己的动手能力有点差了，因此决定动手写写画画了，开始从POJ开始做起，做一道，贴出来一道。自己监督自己，加强动手能力。一：这是一道求逆序的问题，方法是用归并排序，求的给定字符串的逆序是多少。花了至少5个小时,然而还不是好的解决方法package problem;import java.util.ArrayList;i

2013-03-25 23:56:57 703

原创编程之美2.5求最大的k个数

人一停下来，就懒了，吼吼，活跃起来。最近看编程之美，看到2.5求最大的k个数，我看书上介绍很多，网上讨论也很多，感觉有点乱，也许没找到他们探讨的核心吧。我自己看了看，好像没有我想的这个方法。思路：用partion算法，求出第k大的数（O(n）），然后遍历一遍数组，求出最大的k个数(O(n)),整个算法的复杂度就是O(n).实现也很简单。个人觉得比较方便，简单，和编程之美上方法二，比

2013-03-15 15:36:20 810

转载如何获取系统时间

c++ 如何获取系统时间2008-04-28 15:34//方案— 优点：仅使用C标准库；缺点：只能精确到秒级 #include #include int main( void ) { time_t t = time(0); char tmp[64]; strftime( tmp, sizeof(tmp), "%Y/%m/%d %X %A 本年第%j

2013-03-14 09:16:31 765

原创 Builder（构建器，生成器）模式

一：其实前几天就已经看过了这个模式，当时没什么感觉，纸上谈兵，今晚去图书馆看《Effective Java》，突然有了一点新的领悟，写下此文。参考书《设计模式-java》结城浩著，博硕文化译《Effective Java》中文版，美Joshua Bloch著，杨春花俞黎敏译。强烈推荐，虽然才选看了一两节，绝对好书。二：

2012-12-03 21:08:03 1316

原创设计模式--模版方法模式

一：楔子最近一直在看设计模式，但是考虑到设计模式这个东西，没有很多的应用很容易忘记，因此希望结合实际已有的应用来强化自己对设计模式的理解。先把我映像比较深的几个模式写出来。第一期就是模版方法设计模式，也算笃行我对自己的要求。参考书目《设计模式-java》结城浩著，博硕文化译二：模版方法设计模式（Template Method Pattern)概要

2012-11-30 14:31:44 431

原创主成分分析法

写在开头：古有张溥七录斋，所读书必手抄，抄已朗诵一过，即焚之，又抄，如是者六七始已。学习东西，虽不能到达这样的地步，心向往之，故以后多把学的东西写出来，这样其实又会收获很多。主要文献：网络博客，《数据挖掘与数学建模》廖芹等编著一：概述在处理多元样本数据时，首先遇到的问题就是观测数据很多，如果有p个对象，每个对象观测了n个数据，则共有p*n个数据。如何从这些数据中提取出主要的规

2012-10-29 12:39:45 1900

原创使用SAX和dom4j解析XML文档

声明：类容为学习传智播客方立勋教学视频，总结。一： SAX采用事件处理方式解析XML文档：解析器和事件处理器（有多个处理器） a:解析器可以使用JAXP的API创建，创建出SAX解析器后，就可以指定解析器去解析某个文档了。 b:解析器只要解析到xml文档的一个组成部分，就会调用时间处理器的一个方法，同时把当前解析到的内容作为方法的参数传递给事件处理器。得

2012-10-02 20:11:12 605

原创使用jaxp对XML文档的CRUD

声明：本文是观看传智播客方立勋视频的学习过程，非常详细，做一点总结。一：在解析xml文档对象以前，需要获得文档对象。这部分是模版代码。 //1：创建工厂，使应用程序能够从 XML 文档获取生成 DOM 对象树的解析器 DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); //2：得到d

2012-10-02 16:56:32 568

原创编程珠玑-第二章旋转算法篇

编程珠玑第二章比较精髓，开篇三个题目1：给定一个包含32位整数的顺序文件，它至多包含40亿个这样的整数，并且整数的次序是随机的，请查找一下此文件中不存在的32位整数（至少必有一个遗漏，为什么？）。在有足够的主存的情况下，你会如何解决这个问题？如果可以使用若干外部临时文件但主存却只有上百个字节，你会如何解决这个问题？2：请将一个具有n个元素的一维向量向左旋转i个位置。例如，假设n=8,i=3

2012-05-10 21:26:32 1076

原创编程珠玑-第一章--位图篇

文章开篇提到了：位图结构，在很多情况下，很巧妙的解决了问题。在c++中有bitset类，可以直接拿来用，比较方便。但是在习题后面有这么一道题目：如何使用位逻辑运算实现位向量？#define BITSPERWORD 32#define SHIFT 5#define MASK 0x1f#define N 10000000int a[1+N/BITSPERWORD];

2012-05-08 23:36:05 481

linluyisb的专栏