自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (3)
  • 收藏
  • 关注

原创 probit模型

probit模型@(机器学习)[probit|logit] 今天看计算广告学,谈到最大熵与指数簇的一些关系,网上查资料,期间发现这个probit模型的概念,以前竟然完全没听过。因此花点时间来搞懂,网上的资料并不是很详细,因此形成一篇博客,分享给大家。probitprobit:多元概率比回归模型。学习一定要和logit regression进行对比,都是一种广义线性模型,事件发生的概率依赖于解释变量

2015-11-06 22:45:10 54340 2

原创 量化交易-4-zipline回测例子

量化交易-4-zipline回测例子@(金融)上一篇讲到,自己有了一个策略,两根线,上穿买入,下穿,卖出。因此需要一个回测工具,评判策略优劣。在网上寻找了一下, 初步打算使用zipline来进行回测。 由于zipline的demo使用是美股,我稍作修改,使用了自己A股,并且对demo进行了分析,然后将demo的策略换做自己的demo进行分析。替换美股为A股替换美股为A股,稍微需要修改一些地方 1

2015-10-31 20:27:02 17831 3

原创 量化交易-K线图

量化交易-K线图@(金融)K线图在股票的分析中,图占了很大一席。因此首先来学习画K线图。def draw_tianbijun(stock): ''' 先画田碧君的趋势图片 K线以及公式图片一起画 ''' dl = DownLoad() raw_data = dl.load_data(stock) #raw_data.index = raw_da

2015-10-30 12:16:19 5769

原创 量化交易-2-数据获取

量化交易-2@(金融)数据获取,加载通过tushare获取数据,不能每次都去请求,一般可以加载到本地存储,我选择存储到mysql,以后获取的时候,可以去mysql加载。然后每天更新数据就好了。数据存储模块如下 def down_history(self, stock): ''' 下载历史至今天的数据,可以用于下载新股票 date,open,hig

2015-10-30 12:05:36 3507

原创 量化交易-1

量化交易-1@(金融)前言自从换工作以来,浪费了不少时间。最近股市不是大热嘛,在利益的驱动下,入了股市,在什么都不懂的情况下,就在股市高点入场,然后韭菜就被割了。痛定思痛,在研究一些金融知识的情况下,结合自己的长处,逐渐对量化交易产生了兴趣。在做了初步的了解学习后,打算进行深入的学习。在此重新开始博客,记录学习过程,一步一步前行。环境搭建目前配置的环境 windows 7 数据获取:tushar

2015-10-30 11:56:59 2393 1

原创 文本特征提取

前言@(NLP)[IG,X2,CE] TF-IDF可以有效的评估一个字词对于一个文件集或一个语料库的重要程度。但在文本分类中,它的区分度不够,没有考虑特征词在类间的分布。也就是选择特征应该在某类出现多,而其它类出现少。也没有考虑特征词在类内部文档的分布情况,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征。 特征提取的目的在于降维。卡方特征提取卡方检验最基本的思想是通过观察实际值

2015-03-31 16:34:22 1404

原创 python 装饰器

装饰器研究装饰器种类装饰器分为两类,一种是不需要参数的装饰器,另一种需要带参数。 下面展示一个不带参数的装饰器,实现简单的类似AOP功能,记录函数运行时间,或者记录日志等。def running_time(func): @functools.wraps(func) #备注 def wrapper(*args, **kw): start_time = time.ti

2015-03-26 15:34:25 626

原创 奇异值分解(SVD)应用简介

一:前言       千里之行,始于足下,新的一年开始了,努力提升自己,从点滴做起。总结一下过去半年的工作。二:SVD在短文本相似度的应用       文本相似度计算中比较有名的算法Latent Semantic Analysis(LSI/LSA),就是用的SVD技术,将文档—词语矩阵(bag of words方法,或者TF,TF-IDF等)进行分解,构造低维的语义空间。用过的开源工具

2015-02-28 18:26:56 4424

原创 文本分类小结

一:特征提取文本分类中一个重要的工作部分就是特征提取。常见的特征词提取方法有卡方,信息增益,信息增益比,期望KL距离等。链接http://blog.csdn.net/fighting_one_piece/article/details/37912051,这篇博客讲的十分详细,就不重复写了。不同的特征提取方法,会有自己的特点,用不同的分类的方法,效果也不一样,不能一概而论(遇到过数据集特征提

2015-02-13 11:25:10 1613

原创 最大熵与逻辑回归的等价性

一:前言大概了解过逻辑回归与最大熵模型有些关系,但是一直没有理清楚。这次稍微深入理解了一下。逻辑回归是最大熵对应类别为两类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵。下面会详细的进行证明。本文只是一个copy版本,内容源自:首先我们引入一些符号。假定输入是一个n维空间的实数向量。(考虑到公式在这里展示不好看,以图片的格式呈现)

2015-01-31 17:41:12 11223

原创 奇异值分解SVD原理探讨

一:前言 写在前面,因为涉及到公式,选择了以图片的方式发。内容都是个人的一些理解,借鉴了网上的很多资料,因为太多,而且是几个月前写下的,这里实在没法一一列举参考文献了。 理解SVD的一些要点知识。1)矩阵本身的意义 2)矩阵乘法的意义

2015-01-15 18:20:36 1654

原创 Spark存储与读取文件方法小结

一:Spark中常常面临这RDD的存储问题,记录一下常常面临的几种情况。saveAsObjectFile, SequenceFile, mapFile, textFile我就不说了。首先:在写文件的时候,经常输出的目录以及存在,需要一个删掉目录以及存在的情况。大致功能如下 def checkDirExist(sc:SparkContext,outpath:String) = {

2015-01-05 16:23:32 12904

原创 python 常用小技巧

最近一直在使用python 进行编程,因为几乎都是边学边用,感慨新知识太多,记忆跟不上,因此,打算把自己觉得比较重要的东西记下来,以后就不用找了。一:关于python 时间方面的知识二:python 时间的比较三:卡方检验,信息增益 用于文本特征提取上面

2014-10-30 19:55:56 629

原创 Mysql存储,查询过程编码问题小结

最近遇到的一些问题整理:         1:千万级条目中查找记录,花费时间比较长,因此自己把文件写到数据库。         2:写数据库,最容易出的问题是,编码乱掉,自己也是出了这个问题,花了很长的时间才解决掉这个问题。分为写入数据库和读取数据库部分。写入数据库部分:         我的数据库是mysql,默认的配置,都是latin1编码格式,也就是”ISO-8859-1”的

2013-12-13 14:57:05 954

原创 Hadoop学习之莎士比亚文档倒排索引

一:题目  莎士比亚文档倒排索引二:简单的实现        1)map类  这其中定义一下map类的输出格式 public static class InvertedMapper extends Mapper{ //默认的这里不是longWritable的key么,怎么回事,应该要设置把 @Override protected void map(Long

2013-08-21 16:01:16 1584

原创 Hadoop学习之莎士比亚文档词频统计

一:前一段时间学习了Hadoop,快要找工作了。虽然学习的不深,还是稍微回顾一下,做点准备。多看看代码,及过程吧。       题目:就是统计每个单词出现的频率,很简单的。二:简要过程       1)编写map类class TokenizerMapper extends Mapper { //这些均是封装的数据类型,可视为int,long,String private f

2013-08-21 15:31:37 1794

原创 决策树算法解析---ID3,C4.5

一:虽然网上已经有了很多的关于决策树的文章,自己也反复的看了不少遍,但是过了一段时间又觉得比较模糊,因此自己打算来写一篇,自己着重强调物理意义,增加自己的理解。文章末尾会给出参考链接二:决策树首先是基于信息论的,信息熵的增益来作为决策。因此首先我来描述一些信息论中的知识。1)自信息量:在收到ai之前,接受者对信源发出ai的不确定性定义为信息符号ai的自信息量

2013-07-16 17:18:27 1725

原创 设计模式--代理模式

一:代理模式。interface Methods{some methods}class Porxy implements Methods{Methods instance;实现接口的方法,具体就与instance的实现相关}   基本的代理原理,被代理的类实现某了接口,具有一些方法,然后再代理里面用到代理对象的接口,然后调用方法。基本上代理的用处在于,提供额外或

2013-07-11 06:51:53 661

原创 分治法的应用-排队购票,餐盘放苹果问题

一:问题描述,一场球赛开始前,售票正在进行。每张球票的价格为50元,现在有30个人排队等待购票,其中有20个人手持50元的钞票,另外10个人手持100元的钞票。假设开始售票时售票处没有零钱,求出这30人排队购票,使售票处不会出现找不开钱的局面的不同排队方案。特别要说的是:拿着同样面值的钞票的人对换位置后为同一排队方案。二:分析额,这题目貌似容易陷入排列组合中去考虑一般情形,有m

2013-06-03 15:29:26 1547

原创 JAVA 序列化Serializable

一:玩了好多了天,找实习也大受打击。终于静下心来了,准备开启学霸模式,好好学习几个月。5月初就准备好好看java基础,中间玩了不少时间,进度没有达到预期,接下来开组马力,前进。看了一些java序列化,准备几点笔记二:参考书《Thingking in java》 《Effective java》,以及许多网上的博客,文章的末尾我会给出主要的连接。    声明:虽然看了不少说明,但是感觉还

2013-05-30 18:21:56 808

原创 JAVA形参值传递,引用传递分析。

一:最近准备好好看看java基础知识,好家伙,刚上来,就碰见了这个问题,String类到底是什么传递方式?二:      先声明我的结论(欢迎李菊福喷)       java中参数都是值传递方式(String也不例外,我理解的值传递,都是传递实参的副本,但是要弄清楚,这里的拷贝,拷贝的是实参变量地址(栈),而不是实参变量指向的对象),其实质是传递实参副本,分析过程如下。首先你要弄清

2013-05-08 09:39:28 797

转载 java基础面试题目

基础知识:1.C++或Java中的异常处理机制的简单原理和应用。当JAVA 程序违反了JAVA的语义规则时,JAVA虚拟机就会将发生的错误表示为一个异常。违反语义规则包括2种情况。一种是JAVA类库内置的语义检查。例如数 组下标越界,会引发IndexOutOfBoundsException;访问null的对象时会引发NullPointerException。另一种 情况就是JAVA

2013-04-01 23:07:42 884

原创 POJ题目之1007号

纸上得来终觉浅,绝知此事要躬行,越来越觉得自己的动手能力有点差了,因此决定动手写写画画了,开始从POJ开始做起,做一道,贴出来一道。自己监督自己,加强动手能力。一:    这是一道求逆序的问题,方法是用归并排序,求的给定字符串的逆序是多少。   花了至少5个小时,然而还不是好的解决方法package problem;import java.util.ArrayList;i

2013-03-25 23:56:57 703

原创 编程之美2.5求最大的k个数

人一停下来,就懒了,吼吼,活跃起来。最近看编程之美,看到2.5求最大的k个数,我看书上介绍很多,网上讨论也很多,感觉有点乱,也许没找到他们探讨的核心吧。我自己看了看,好像没有我想的这个方法。思路:用partion算法,求出第k大的数(O(n)),然后遍历一遍数组,求出最大的k个数(O(n)),整个算法的复杂度就是O(n).实现也很简单。个人觉得比较方便,简单,和编程之美上方法二,比

2013-03-15 15:36:20 810

转载 如何获取系统时间

c++ 如何获取系统时间2008-04-28 15:34//方案— 优点:仅使用C标准库;缺点:只能精确到秒级 #include  #include  int main( void ) { time_t t = time(0); char tmp[64]; strftime( tmp, sizeof(tmp), "%Y/%m/%d %X %A 本年第%j

2013-03-14 09:16:31 765

原创 Builder(构建器,生成器)模式

一: 其实前几天就已经看过了这个模式,当时没什么感觉,纸上谈兵,今晚去图书馆看《Effective Java》,突然有了一点新的领悟,写下此文。        参考书《设计模式-java》结城浩  著,博硕文化  译                  《Effective Java》中文版,美Joshua Bloch著,杨春花  俞黎敏 译。强烈推荐,虽然才选看了一两节,绝对好书。二:

2012-12-03 21:08:03 1316

原创 设计模式--模版方法模式

一:楔子       最近一直在看设计模式,但是考虑到设计模式这个东西,没有很多的应用很容易忘记,因此希望结合实际已有的应用来强化自己对设计模式的理解。先把我映像比较深的几个模式写出来。第一期就是模版方法设计模式,也算笃行我对自己的要求。       参考书目《设计模式-java》结城浩 著,博硕文化  译二:模版方法设计模式(Template Method Pattern)概要

2012-11-30 14:31:44 431

原创 主成分分析法

写在开头:古有张溥七录斋,所读书必手抄,抄已朗诵一过,即焚之,又抄,如是者六七始已。学习东西,虽不能到达这样的地步,心向往之,故以后多把学的东西写出来,这样其实又会收获很多。主要文献:网络博客,《数据挖掘与数学建模》廖芹等编著一:概述    在处理多元样本数据时,首先 遇到的问题就是观测数据很多,如果有p个对象,每个对象观测了n个数据,则共有p*n个数据。如何从这些数据中提取出主要的规

2012-10-29 12:39:45 1900

原创 使用SAX和dom4j解析XML文档

声明:类容为学习传智播客方立勋教学视频,总结。一:    SAX采用事件处理方式解析XML文档:解析器和事件处理器(有多个处理器)    a:解析器可以使用JAXP的API创建,创建出SAX解析器后,就可以指定解析器去解析某个文档了。    b:解析器只要解析到xml文档的一个组成部分,就会调用时间处理器的一个方法,同时把当前解析到的内容作为方法的参数传递给事件处理器。   得

2012-10-02 20:11:12 605

原创 使用jaxp对XML文档的CRUD

声明:本文是观看传智播客方立勋视频的学习过程,非常详细,做一点总结。一:在解析xml文档对象以前,需要获得文档对象。这部分是模版代码。 //1:创建工厂,使应用程序能够从 XML 文档获取生成 DOM 对象树的解析器 DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); //2:得到d

2012-10-02 16:56:32 568

原创 编程珠玑-第二章旋转算法篇

编程珠玑第二章比较精髓,开篇三个题目1:给定一个包含32位整数的顺序文件,它至多包含40亿个这样的整数,并且整数的次序是随机的,请查找一下此文件中不存在的32位整数(至少必有一个遗漏,为什么?)。在有足够的主存的情况下,你会如何解决这个问题?如果可以使用若干外部临时文件但主存却只有上百个字节,你会如何解决这个问题?2:请将一个具有n个元素的一维向量向左旋转i个位置。例如,假设n=8,i=3

2012-05-10 21:26:32 1076

原创 编程珠玑-第一章--位图篇

文章开篇提到了:位图结构,在很多情况下,很巧妙的解决了问题。在c++中有bitset类,可以直接拿来用,比较方便。但是在习题后面有这么一道题目:如何使用位逻辑运算实现位向量?#define BITSPERWORD 32#define SHIFT 5#define MASK 0x1f#define N 10000000int a[1+N/BITSPERWORD];

2012-05-08 23:36:05 481

算法导论答案

算法导论啊,亲,答案啊,亲,但是不是很全,也可以做一点参考,只要一分而已。

2012-11-27

servletAPI

index文档,够用了,常用的Cookie,ServletContext ,等等对象的API

2012-11-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除