littlely_ll-CSDN博客

原创向量误差修正（VECM）模型案例分析

向量误差修正模型案例分析生成数据set.seed(12345) u1<-rnorm(500) u2<-arima.sim(list(ar=0.6),n=500) #生成模拟的一阶自回归模型 u3<-arima.sim(list(ar=.4),n=500) y1<-cumsum(u1) #生成随机游走序列 y1 y2<-0.4*y1+u2 y3<...

2017-02-04 21:26:45 41750 1

原创 GARCH模型案例分析

read datalibrary(quantmod) # 加载包getSymbols('^HSI', from='1989-12-01',to='2013-11-30') # 从Yahoo网站下载恒生指数日价格数据dim(HSI) # 数据规模names(HSI) # 数据变量名称chartSeries(HSI,theme='white') # 画出价格与交易的时...

2017-02-04 21:26:34 44466 10

原创 ray dataset与spark2.x dataframe数据之间转换

今天写一个比较常用的数据转换操作——与spark之间的数据转换。ray中已经有读取和写入spark的接口，不过它只支持spark3.x，不支持spark2.x的版本，因此我根据源码修改了部分内容以适应spark2.x dataframe与ray dataset之间的转换。ray分布式计算框架可以读取许多类型的文件，比如。等，也可以从不同的系统中读取数据，比如。

2023-04-19 18:37:23 281 1

estimator是tensorflow的一个高级API，它的好处就是不用关注底层的物理设备，在cpu，tpu、gpu下运行或者使用分布式训练都不用修改代码。本文档旨在走通estimator的整个流程，其中一些数据处理和图的构建可能不太合理，可根据自己实际情况进行改进。tensorflow：1.14.0python: 3.6.5构建input_fnimport tensorflow as tf# 设置log级别tf.compat.v1.logging.set_verbosity(tf.logg

2020-10-13 16:31:35 4031 1

原创 Flink教程

这是一部讲解Flink的通俗教程，语言可能不够优雅，但力争讲的明白，如果您在浏览的时候有什么迷惑的地方，您可以大胆的提出issue，这样我可以及时修改，但是您不要指望讲解的有多么深入，因为这只是一个入门的Flink教程，不过我会尽量讲清楚重要的知识点，并以通俗易懂的形式展现出来。另外欢迎大家能够贡献内容！本教程使用Scala语言进行讲解，使用的Flink版本为1.10.0。内容逐步更新！Summary前言第一章 Apache Flink简介1.1 Flink介绍1.2 Flink编程模型

2020-06-25 19:12:24 437 1

原创 spark streaming参数调优

应用spark streaming的时候，可以在spark UI页面监控spark streaming的运行，UI页面有一个Streaming选项卡，展示如下：里面有四个选项，分别是input rate,，scheduling delay，processing time和total delay，其中input rate下有一个该应用所使用的输入流的方法，这里是使用的kafkaUtil的dire...

2020-04-30 17:56:36 1843

原创 pyspark streaming与Kafka的应用及offset的手动设置

spark streaming现在主要分为两个部分，一个是DStreams，另一个就是Structured Streaming，前一个是基于RDD进行编程，后一个是基于DataFrame或Dataset编程的。现在官方推荐的是使用Structured Streaming，因此可以根据需要自己选择使用哪一个。这里主要说明pyspark streaming连接Kafka的方式及解决无法使用group ...

2020-01-11 17:15:12 1908

原创 pyspark应用技巧

1. spark sdf和pandas pdf相互转化一般spark sdf转化为pandas pdf使用sdf.toPandas(), pdf转化为sdf使用spark.createDataFrame(pdf)，但是直接转化中间的序列化和反序列化耗时很长，所以在执行转化的时候使用apache arrow进行加速pyarrow版本 >= 0.8.0spark-defaults.conf...

2019-12-03 18:01:10 974

原创 Docker基础

Docker安装(1) yum包更新到最新sudo yum update(2) 安装需要的软件包，yum-util提供yum-config-manager功能，另外两个是devicemapper驱动依赖的sudo yum install -y yum-utils device-mapper-persistent-data lvm2(3) 设置yum源为阿里云sudo yum-con...

2019-10-05 22:37:49 210

原创 pyspark RDD数据的读取与保存

数据读取hadoopFileParameters:path – path to Hadoop fileinputFormatClass – fully qualified classname of Hadoop InputFormat (e.g. “org.apache.hadoop.mapred.TextInputFormat”)keyClass – fully qualified ...

2019-10-03 18:18:48 5127

原创非平衡数据处理几个观点

1.使用正确的评价准则对于非平衡数据，准确率这种评价准则可能不能用了，比如1000个样本中，只有10个为正样本，如果全预测为负样本，则准确率为99%，但这种模型根本就没用。这种情况，可以使用其他准则：PrecisionRecallF1 scoreMCC: 观察和预测类别之间的相关系数AUC2.训练集重抽样2.1 欠采样2.2 过采样3.合理使用k折交叉验证需要注意在使...

2019-03-24 15:26:50 1675

原创 Cython基础

cdefcdef是告诉编译器这条语句是C类型的语句，例如：#pysum.pyxcdef int Csum(int a, int b)： return a + b它和真正的C语言定义的函数有一些区别，例如c用{}包裹函数体，而cdef用:定义。python中不能直接调用cdef定义的函数(直接调用cdef定义的函数会出现ImportError:cannot import nam...

2018-12-23 14:45:38 3622 1

原创 pandas DataFrame的使用

DataFrame使用apply函数df = pd.DataFrame({'x':[1,2,3,4,5],'y':['a','a','b','b','c']})df x y0 1 a1 2 a2 3 b3 4 b4 5 c要使得df的x和y值拼接起来，增加为一列，可以使用apply函数：def f(df): return str(df.x...

2018-10-23 20:56:03 1759

原创使用sqlalchemy ORM创建表及数据的插入

1.载入库import timeimport datetimeimport pandas as pdimport sqlalchemyfrom sqlalchemy import create_enginefrom sqlalchemy.sql import text, funcfrom sqlalchemy.orm import sessionmaker,relationsh...

2018-09-14 17:58:38 15216

原创 MySQL表分区

mysql分区优点：和单个磁盘或文件系统分区相比，可以存储更多数据优化查询对于过期或不需要保存的数据，通过删除与数据有关的分区来提高效率跨多个磁盘分散数据查询，以获得更大的查询吞吐量 mysql支持的存储引擎： MyISAM, InnoDB, Memory 同一个分区表的所有分区必须使用同一个存储引擎，但是可以在同一个mysql服...

2018-09-09 11:06:29 482

原创 spyder快捷键

spyder快捷键

2018-08-28 17:38:30 506

原创 networkx包初探

networkx是python的一个包，它是用来复杂网络结构的创建、操作和学习。官网上给它设定的目标为： tools for the study of the structure and dynamics of social, biological, and infrastructure networks, a standard programming interface and...

2018-08-16 22:23:18 4454

原创深度学习在多标签分类中的应用

多类分类与多标签分类多类分类(multi-class classification)：有多个类别需要分类，但一个样本只属于一个类别多标签分类(multi-label classificaton)：每个样本有多个标签区别：对于多类分类，最后一层使用softmax函数进行预测，训练阶段使用categorical_crossentropy作为损失函数对于多标签分...

2018-08-12 15:28:31 14957 4

原创 MySQL存储引擎与数据类型的选择

存储引擎MyISAMMyISAM不支持事物，不支持外键，但是访问速度快，对事物完整性没有要求或只以SELECT和INSERT为主的应用可以使用MyISAM来创建表。 MyISAM的表支持3种不同存储格式，分别是：静态（固定长度）表动态表压缩表静态表是默认存储格式，静态表中字段都是非变长字段，每个记录都是固定长度，优点是存储迅速，容易缓存，出现故...

2018-07-28 15:36:48 205

原创 MongoDB安装配置及其出现问题的解决

MongoDB安装还是很容易的，但是在配置的时候出现了很多问题，浪费了不少时间，所以在此记录下来出现的问题及解决办法。1. MongoDB安装去官网下载安装包，我使用的是windows系统的。下载后一步一步安装，当然可以自定义安装：安装的时候一般不会出现什么问题，余下主要在配置上。我的安装位置为d:\program files\MongoDB2. MongoDB配置...

2018-05-28 11:31:36 7466 1

原创如何把本地文件夹上传到github

由于自己不经常上传github，上传的时候老是忘记命令或步骤，所以在这记录一下github上传步骤。 1. 在github上新建一个仓库，创建时有一个https地址，记录此地址，后面用 2. 打开git bash，转到你所要上传的文件夹目录下，并输入git init 3. 将项目添加到仓库中去：git add .，如果添加某个文件，可以使用git add xxx 4. 将添加的文件提交到仓...

2018-04-23 18:42:26 6237

原创 K-Prototypes聚类的Python实现

k-prototypes聚类前一篇讲述了K-Prototypes聚类的原理以及它的伪代码，本篇根据上一篇内容编写了实现K-Prototypes的Python代码。# -*- coding: utf-8 -*-import numpy as npimport randomfrom collections import Counterdef dist(x, y): retu...

2018-04-22 21:04:15 14121 21

原创 k-prototypes聚类

聚类有多种方法，常见的有k-means，DBSCAN，分层聚类等，但这些都是处理数值型数据的，而k-modes只是处理分类变量数据，但更多的数据是既含有数值型数据也含有分类数据，因此需要有一种能同时处理两种不同类型数据的聚类方法，而k-prototypes就是这样的一种方法。损失函数k-prototypes聚类的准则就是使用一个合适的损失函数去度量数值型和分类变量对原型的距离。假设X={X...

2018-04-17 22:26:40 9652 2

原创 tensorflow常用RNN函数

tensorlfow常用RNN函数tf.nn.rnn_cell.BasicLSTMCell：__init__( num_units, forget_bias=1.0, state_is_tuple=True, activation=None, reuse=None, name=None ) num_units:in...

2018-03-23 18:53:17 2316 1

原创 RNN文本分类——从原始数据处理到预测类别标签

这两天做了一个小项目，是一个文因互联文本分类的竞赛题目，但已经过期了，只是使用它的数据做一下。本次使用的RNN+LSTM模型，最终训练的正确率为87%，不过每次训练正确率有些差别，并且还有很多可调参数没有调整，只是当一个练手的了。由于训练时间很长，完整的代码以及持久化的模型和字典在我的github上可以下载，当然也可以自己重新训练。本文的RNN结构主要使用了finch的结构，并在此稍微做了修改...

2018-02-19 20:02:47 11759 1

原创数据挖掘资源汇总

文献库Cornell University Library citeseerxNIPS Proceedings数据挖掘个人网站Jiawei HanZhi-Hua ZhouJian PeiShirin’s playgRound, 她的新网站Shirin’s playgRoundMohammed J. ZakiTREVOR HASTIEPhilip S. Yu...

2018-02-14 22:30:14 428

原创图像的预处理——tensorflow实践

图像预处理import matplotlib.pyplot as pltimport tensorflow as tf#tf.gfile.FastGFile读取或保存图像文件image_raw_data = tf.gfile.FastGFile(".../input_data/cat.jpeg",'r').read()with tf.Session() as sess:

2018-02-05 22:34:05 1320

原创噪音对比估计（NCE）

噪音对比估计（NCE, Noise Contrastive Estimation）是一种新的统计模型估计方法，由Gutmann和Hyv¨arinen提出来，能够用来解决神经网络的复杂计算问题，因此在图像处理和自然语言处理中得到广泛应用。在介绍NCE之前，首先复习一些基础知识。全概率公式设实验E" role="presentation" style="position: relative

2018-02-04 12:52:40 20411 7

原创神经网络在文本分类中的应用

在自然语言的文本分类中，主要使用两类模型，一类是使用传统的机器学习模型，如朴素贝叶斯，最大熵，支持向量机等，第二类就是使用神经网络模型，包括CNN和RNN。传统的机器模型在分类前首先要做特征工程，例如把文本转换成词袋，并转化为TF-IDF矩阵，然后再做分类。而使用神经网络模型可以使它自己提取特征并进行文本分类，并能获得优于传统机器学习模型的能力。CNN模型的文本分类CNN原来是用于对图

2018-01-24 15:26:48 5808

原创指针、指针常量与常量指针的理解

#includeusing namespace std;int main(){ int i = 1; const int j = 2; const int k = 3; int l = 4; /*========================普通指针，指针常量，常量指针========================*/ int *p = &i;//普通指针 cout <

2018-01-19 14:13:27 224

原创最大熵模型实现文本分类

最大熵模型的理论部分可以参考李航的《统计学习方法》或皮果提的最大熵学习笔记，本次使用的训练算法为GIS（Generalized Iterative Scaling），这个Python代码主要是作为理解最大熵模型而用。# -*- coding: utf-8 -*-from collections import defaultdictimport mathclass MaxEnt(o

2018-01-17 10:57:10 3062 1

原创神经网络机器翻译总结

神经网络机器翻译(Neural Machine Translation, NMT)是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译（SMT）而言，NMT能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列，这在翻译、对话和文字概括方面能够获得非常好的表现。NMT其实是一个encoder-decoder系统，encoder把源语言序列进行编码，并提取源语言中信

2018-01-13 10:14:30 32927 2

原创基于转换的神经网络依存句法分析器

依存句法分析是自然语言处理中一个关键的问题，一是判断给定的句子是否合乎语法，再是为合乎语法的句子给出句法结构。为了准确做出句子的依存关系，不少学者提出了一些方法，如基于图的方法，基于转换的方法等。基于转换的依存句法分析Yamada和Matsumoto提出了使用SVM来训练基于转换的依存分析算法。他们根据三种分析行为（shift, right, left）对输入的句子进行从左到右顺序构建

2018-01-06 17:41:55 5244

原创神经网络自然语言模型的一般化结构形式

一个神经网络自然语言模型当然需要神经网络的结构层次，但是在进入神经网络之前，怎么把单词表示成要输入的词向量，这也是一个非常重要的问题。其实，神经网络语言模型主要分两大部分，第一，输入词向量的表示问题，第二，神经网络结构的选择问题。只要处理好这两方面的问题，剩下的就交给训练了，当然其中还有一些细节。本文所描述的是一个一般化的多层神经网络结构，首先要说明一些标记记号：假设一个神经网络函数为fθ(⋅)

2018-01-01 17:28:25 674

原创 word2vec以及GloVe总结

词向量词向量，顾名思义，就是把一个单词或词语表示成一个向量的形式，这是因为在计算机中无法直接处理自然语言，需要把它转化为机器能够理解的语言，比如数值等。最简单的方式是把一个个单词表示成one-hot的形式。例如有三个句子：我/喜欢/小狗/喜欢/喝咖啡我/不喜欢/喝咖啡你/喜欢/什么/东西词汇表为:我、你、喜欢、不喜欢、小狗、喝咖啡、什么、东西然后对每一个词做one-hot编码： “我”就是[1

2017-12-31 12:46:55 12791

原创深度学习基础总结

深度学习基本技巧选择合适的损失函数平方损失交叉熵损失 … 小批量样本（mini-batch）首先打乱数据，然后选择合适的小批量样本，重复epoch次。例如样本量100，小批量mini-batch样本为20，epoch为10。则先打乱这100个样本，顺序选取20个样本，更新一次参数，然后再选取下20个样本，再更新一次参数，直到把100个样本选取完，这样重复epoch（10

2017-11-21 20:57:24 1104 4

原创 pyspark.linalg模块学习

class pyspark.ml.linalg.Vector方法toArray(): 把vector转换为numpy.ndarrayclass pyspark.ml.linalg.DenseVector(ar)v = Vectors.dense([1.0, 2.0])u = Vectors.dense([3.0, 4.0])#可以进行加减乘除v + u #DenseVector([4.0,

2017-10-05 15:55:29 2679

原创使用pyspark进行机器学习（回归问题）

DecisionTreeRegressorclass pyspark.ml.regression.DecisionTreeRegressor(self, featuresCol="features", labelCol="label", predictionCol="prediction", maxDepth=5, maxBins=32, minInstancesPerNode=1, minInfo

2017-10-05 15:47:13 5971 1

原创使用pyspark进行机器学习（聚类问题）

BisectingKMeansclass pyspark.ml.clustering.BisectingKMeans(self, featuresCol="features", predictionCol="prediction", maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0)参数解释maxIter: 最大迭代次数K：聚类簇数m

2017-10-03 16:25:36 6519

原创使用pyspark进行机器学习（分类问题）

LogisticRegressionclass pyspark.ml.classification.LogisticRegression(self, featuresCol="features", labelCol="label", predictionCol="prediction", maxIter=100, regParam=0.0, elasticNetParam=0.0, tol=1e-6

2017-10-02 18:31:03 9794 3

big data(大数据）

OpenCV_with_Python_By_Example

Data Structures and Algorithms with Python

Likelihood Bayesian and MCMC Methods in Quantitative Genetics

Data Mining. Practical Machine Learning Tools and Techniques

c语言控制台输出中文乱码问题

非法类型开始与标识符