一路前行1-CSDN博客

原创 Tensorflow版本问题的一系列报错解决方案

一下的报错均是由于将tensorflow1版本的代码迁移到tensorflow2上产生的错误，主要是一些api的改动。 File "D:\python\paperRecurrence\CasRel\CasRel-master\model.py", line 23, in E2EModel tokens_in = Input(shape=(None,),dtype=tf.int32) File "E:\environment\python\lib\site-packages\keras\e

2020-07-01 15:55:05 9452

原创 pytorch报错RuntimeError: DataLoader worker (pid(s) 7872, 15356, 19144, 16296) exited unexpectedly

Traceback (most recent call last): File "D:/python/Dive into DL/pytorch/CH3/softmax.py", line 42, in <module> print(evaluate_accuracy(test_iter, net)) File "D:/python/Dive into DL/pytor...

2020-01-18 17:46:29 10296 6

原创 kaggle Santander Customer Transaction Prediction总结

记一次失败的竞赛经历数据分析1.样本不均衡。在20万训练数据集中，正样本（y=1）为2万，负样本（y=0）为18万。2.所有原始特征之间相关性很小。这一点很奇怪，很少有数据集所有特征之间相关性都很小的。3.所有特征的分布都类似。这一点也是挺奇怪，应该是主办方对数据做了某种变换。特征工程1.由于这个赛题所有特征均为匿名特征且特征之间没有什么关联，所以可以考虑对数据进行重新洗牌...

2019-04-27 21:24:02 2150 1

原创天池津南数字制造算法【赛场一】第32名比赛总结

一、数据预处理由于所给数据“脏”数据比较多，所以首先需要做大量的预处理，包括：1.处理类型错误的数据。如‘A25’列中数据应该为数值型却混入了一个‘1900/3/10 0:00’时间数据。2.处理时间数据的异常。3.处理明显的数值异常。4.使用中位数填充缺失值二、特征工程特征工程是决定一个比赛的关键，因此在特征上我们做了大量处理，包括：1...

2019-03-25 21:17:31 1042 5

原创引入lightgbm报错：OSError: [WinError 126] 找不到指定的模块。

import lightgbm as lgb File "D:\Python\Python36-32\lib\site-packages\lightgbm\__init__.py", line 8, in <module> from .basic import Booster, Dataset File "D:\Python\Python36-32\lib\si...

2019-02-15 12:44:28 4179 7

原创 python3下如何使Word2Vec每次运行结果一致

最近在使用Word2Vec时发现一个奇怪的问题，那就是每次运行出来的结果不一致，这就是得程序复现带来了很多麻烦。多方查阅资料后终于解决了这个难题，下面说一下我的解决方案。查阅Word2Vec的官方文档，在seed参数哪里可以发现这样的解释：seed (int) – Seed for the random number generator. Initial vectors for ...

2018-05-09 08:46:34 2463

转载 keras中call_back的设置

keras训练fit( self, x, y, batch_size=32, nb_epoch=10, verbose=1, callbacks=[], validation_split=0.0, validation_data=None, shuffle=True, class_weight

2018-02-21 14:50:32 9195

原创神经网络调参技巧

对于神经网络的调试，如何找到一组合适的超参数呢，下面分享一些神经网络调参的方法与技巧。在使用神经网络时有许多参数需要调整，比如学习速率、Momentum（动量梯度下降法）的参数beta，Adam优化算法的参数，beta1，beta2，神经网络层数，不同层中隐藏单元数量，学习率衰减等。这些参数的调整也是有优先级顺序的，其中的一些应该优先调整，而另一些可能完全不用调整。首先应该调整的是学

2018-02-19 17:22:18 11301 1

转载特征工程

一、特征工程是什么有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：　　特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理，特征选择，降维

2018-01-23 10:50:27 2841 1

转载 Isolation Forest算法原理

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理，实际的代码实现详解请参照我的另一篇博客：Isolation Forest算法实现详解。或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码（源代码程序是基于maven构建）： https://github.com/JeemyJohn/AnomalyDetection。前言随着机器学习

2017-11-28 21:35:58 1958

转载 python使用pandas处理大数据节省内存技巧

一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。当然，像Spark这类的工具能够胜任处理100G至几个T的大数据集，但要想充分发挥这些工具的优势，通常需要比较贵的硬件设备。而且，这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据，我们的愿望是尽

2017-11-10 12:49:20 38335 9

原创 LightGBM参数介绍

Xgboost和LightGBM部分参数对照：Xgboots LightGbm booster(default=gbtree)boosting(default=gbdt)eta(default=0.3)learning_rate(default=0.1)max_depth(default=6)

2017-11-09 21:53:13 61529 1

转载 LeetCode-25. Reverse Nodes in k-Group

Given a linked list, reverse the nodes of a linked list k at a time and return its modified list.If the number of nodes is not a multiple of k then left-out nodes in the end should remain as it is.You

2017-11-07 21:56:55 951

转载 Box-Cox变换

Box－Cox变换 1 Box－Cox变换在回归模型号中，Box－Cox变换是对因变量Y作如下变换：　　　　　　　　　　　　（1.1）这里是一个待定变换参数。对不同的，所做的变换自然就不同，所以是一个变换族。它包括了对数变换（＝0），平方根变换（）和倒数变换（＝-１）等常用变换。图１.　变换前变量的分布图２.变换后变量分布对因变量的n个观测值，应用上

2017-11-06 20:31:44 13320

转载 XGBoost python调参示例

2017-10-27 09:11:38 14305 2

转载 GridSearchCV调参方法

Python 2.7IDE Pychrm 5.0.3sci-kit learn 0.18.1前言抖了个机灵，不要来打我，这是没有理论依据证明的，只是模型测试出来的确有效，并且等待时间下降(约)为原来的十分之一！！刺不刺激，哈哈哈。原理基本思想：先找重点在细分，再细分，伸缩Flexible你怕不怕。以下简称这种方法为FCV不知道CV的请看@MrLevo520–总结：Bias(偏差)，Error(

2017-10-26 11:16:22 20862 3

原创 MIT算法导论公开课第八讲全域哈希和完全哈希

全域哈希对于任意哈希函数而言，都存在一个不好的健集，使得所有的健都会哈希到同一个槽里去，那么如何解决这种情况呢？如何防止对某个键集永远有较差的表现？如何防止竞争对手使用这个键集来降低你的性能表现？一个词解决这个问题 —— 随机！全域哈希的方法就是随机选择一个哈希函数H（当然不是每次操作都选择一个哈希函数，而是构建一个哈希表的时候随机选一个，选定之后这个

2017-10-25 15:04:29 1911

原创 MIT算法导论公开课第七讲哈希表

哈希表又称散列表，其定义是根据一个哈希函数将集合S中的关键字映射到一个表中，这个表就称为哈希表，而这种方法就称为Hashing。从作用上来讲，构建哈希表的目的是把搜索的时间复杂度降低到O（1），考虑到一个长度为n的序列，如果依次去比较进行搜索的话，时间复杂度是θ（n），或者对其先进行排序然后再搜索会更快一些，但这两种方法都不是最快的方法。一、直接寻址表直接寻址表

2017-10-22 20:06:48 598

转载提高深度学习和机器学习性能的方法

20个你可以用来避免过拟合和得到更好的泛化的技巧

2017-10-21 11:30:42 1517 1

转载 Gradient Boosting Machine(GBM）调参方法详解

<div class="markdown_views"><p>原文地址：<a href="https://www.analyticsvidhya.com/blog/2016/02/complete-guide-parameter-tuning-gradient-boosting-gbm-python/" target="_blank">Complete Guide to Parameter Tuni

2017-10-21 10:42:48 7271

原创可汗学院金融学（二）

卖空卖空是指股票市场的一种行为。通过对当前的情况判断，一些精明的投资者或许会预感到股票价格将会下跌，这时，他们可能会从股票经纪人那里借一些股票。经纪人那里有许多客户的股票，客户和其经纪人都可以买卖这些股票。我从股票经纪人那里借一些股票，我会付给他利息，并且过一段时间就会还给他。这样我就借得了一些股票，我会将这些股票卖出去，这是这些股票每股或许价值100元，过一段时间后，股票价格开始下跌

2017-10-17 10:54:08 721

原创机器学习性能指标精确率、召回率、F1值、ROC、PRC与AUC

精确率、召回率、F1、AUC和ROC曲线都是评价模型好坏的指标,那么它们之间有什么不同，又有什么联系呢。下面让我们分别来看一下这几个指标分别是什么意思。针对一个二分类问题，将实例分成正类(postive)或者负类(negative)。但是实际中分类时，会出现四种情况.(1)若一个实例是正类并且被预测为正类，即为真正类(True Postive TP)(2)若一个实例是正类，但是被预

2017-10-15 16:47:21 11465 1

转载 kaggle比赛模型融合指南

介绍集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中，我会分享我在Kaggle比赛中的集成方法。在第一部分中，我们会讨论从提交文件中建立集成。主要包括：投票集成平均排名平均第二部分我们会讨论通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法，包括它们的结果以及代码以供你自己去尝

2017-10-13 16:29:32 11053

转载 DataFrame数据合并

merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下[python] view plain copy print?merge(left, right, how=‘inner’, on=None, left_on=None, right_on=N

2017-10-12 16:33:49 5587

原创机器学习中的正则化技术L0,L1与L2范数

使用机器学习算法过程中，如果太过于追求准确率，就可能会造成过拟合。使用正则化技术可以在一定程度上防止过拟合。首先来回顾一下过拟合的概念。过拟合简单来说就是对于当前的训练数据拟合程度过高以至于模型失去了泛化能力。下面是一个房屋预测的例子：左侧的图是欠拟合，即对于当前数据集的拟合程度不够，欠拟合的特征是在训练集和测试集上的准确率都不好。右边的为过拟合状态，过拟合对于当前数据拟合得太好了

2017-10-05 15:32:16 15523 4

原创神经网络训练细节（二）

一、神经网络优化 SGD的问题随机梯度下降可能是在机器学习和深度学习中应用最为广泛的优化算法，但其有时学习会非常慢，特别是当梯度在水平和竖直方向上不均衡时，如下图所示：在竖直方向上，梯度下降很快，而在水平方向上，梯度下降比较慢。这样，当采用随机梯度下降时，它会在竖直方向上下降的快而在水平方向上收敛的慢，这样优化路线就会如上如所示在窄轴上来回震荡。动量因为随机梯度下降算法所存

2017-10-03 09:29:08 2673

原创神经网络训练细节（一）

一、激励函数的选取常见的激励层函数有sigmoid、tanh、Relu、Leaky Relu、ELU、Maxoutsigmoid函数如下所示：sigmoid函数是早期用的比较多的激励函数，但现在已经不常用了。主要是当输入特别大或者特别小时，sigmoid函数的偏导数趋于0，这样在使用反向传播算法时将会出现问题,并且sigmoid函数不是关于原点对称的，这样在进行反向传

2017-10-02 09:05:05 4172

原创可汗学院金融学（一）

利息计算公式p：本金，y：年数，r：利率单利计算公式：p(1+r*y)复利计算公式：p(1+r)^y现值（Present Value）:假设我现在可以给你100美元或者1年后给你110美元，你应该如何选择（假设是在没有风险的情况下，即如果你选择了一年后给你110美元，无论如何我都会给你，同时假定银行利息为5%）？这样即比较一年后的110美元和现在的100美元哪个更值钱。

2017-10-01 21:27:54 1720

原创 CNN卷积神经网络层级结构

一、卷积神经网络层级结构卷积神经网络层次结构包括：数据输入层/ Input layer 卷积计算层/ CONV layer 激励层 / ReLU layer 池化层 / Pooling layer 全连接层 / FC layer 卷积计算层如上图图所示，左边为数据集，右边为一个神经网络窗口：卷积计算层会在数据集上选定一个窗口，从窗口内选择数据

2017-09-25 19:38:38 22552

转载 Python3下使用matplotlib画图添加中文注释乱码解决

Matplotlib是Python的一个很好的绘图包，但是其本身并不支持中文（貌似其默认配置中没有中文字体），所以如果绘图中出现了中文，就会出现乱码。在《用Python作科学计算》一书中，有一个最小二乘拟合的例子，我用Python 3.3重写的代码如下：# 最小二乘拟合示例import numpy as npfrom scipy.optimize import leastsqimport ma

2017-09-20 15:04:03 2630 1

转载 kaggle Titanic泰坦尼克

作者：寒小阳出处：http://blog.csdn.net/han_xiaoyang/article/details/49797143 1.引言先说一句，年末双十一什么的一来，真是非(mang)常(cheng)欢(gou)乐(le)！然后push自己抽出时间来写这篇blog的原因也非常简单：写完前两篇逻辑回归的介绍和各个角度理解之后，我们讨论群(戳我入群)的小伙伴们纷纷表示『好像很高级的

2017-09-20 10:58:03 2471 1

原创贝叶斯网络

贝叶斯网络是一种概率网络，它是基于概率推理的图形化网络，而贝叶斯公式则是这个概率网络的基础。一个贝叶斯网络是一个有向无环图(Directed Acyclic Graph,DAG),由代表变量节点及连接这些节点有向边构成。节点代表随机变量，节点间的有向边代表了节点间的互相关系(由父节点指向其子节点)，用条件概率进行表达关系强度，没有父节点的用先验概率进行信息表达。一个简单的贝叶斯网络如下：

2017-09-19 21:10:13 4945 1

转载从最大似然到EM算法

机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世界上，还吸引了那么多世人的目光。我希望自己能通俗地把它理解或者说明白，但是，EM这个问题感觉真的不太好用通俗的语言去说明白，因为它

2017-09-18 15:57:02 903

原创聚类算法之层次聚类与密度聚类

一、层次聚类层次聚类方法对给定的数据集进行层次的分解，知道某种条件满足为止。层次聚类又可分为：凝聚的层次聚类：AGNES算法一种自底向上的策略，首先将每个对象做为一个簇，然后合并这些原子簇为越来愈大的簇，直到达到某个终结条件。AGNES算法最初将每个对象做为一个簇，然后这些簇根据某些准则被一步步地合并。两个簇间的距离由这两个不同簇中距离最近的数据点对的相似度来确定；聚类的合

2017-09-15 20:29:57 3368

转载 DataFrame删除行和列

本文通过一个csv实例文件来展示如何删除Pandas.DataFrame的行和列数据文件名为:example.csv内容为：datespringsummerautumnwinter200012.233880916.9073011315.6923831314.08596223200112.8474805716.7504687314.5140663713.503745620

2017-09-14 19:51:11 99556 4

转载 Python matplotlib库scatter函数参数详解

最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python] view plain copy #导入必要的模块 import numpy as np import matplotlib.pyplot as p

2017-09-13 19:29:33 6932

原创聚类算法之K-means算法与聚类算法衡量指标

聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。聚类算法属于无监督学习，即事先不会给出标记信息，通过对无标记样本的学习来解释数据的内在性质及规律，为进一步的数据分析提供基础。一、K-means（k均值）算法 k-m

2017-09-10 20:54:27 25160

转载 XGBoost python调参指南

在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost in Python>,写的很好。因此打算翻译一下这篇文章，也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见：http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tun

2017-09-10 17:58:56 1283

原创机器学习提升算法之Adaboost、GB、GBDT与XGBoost算法

一、Gradient boosting(GB) 梯度提升提升是一个机器学习技术，可以用于回归和分类问题，它每一步产生一个弱预测模型（如决策树），并加权累加到总模型中。如果每一步的弱预测模型生成都是一句损失函数的梯度方向，则称之为梯度提升（Gradient boosting）。梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的若函数集合（基函数）；提升算法通过迭代的选择一个负梯

2017-09-09 22:11:11 9721

原创 Bagging与随机森林

一、Bagging算法Bagging是并行集成学习方法最著名的代表，可以用来提高学习算法准确度的方法，这种方法通过构造一个预测函数系列，然后以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”（不稳定是指数据集的小的变动能够使得分类结果的显著的变动）的分类方法。比如：决策树，神经网络算法。Bagging的基本流程为：1、首先采取随机采样(bootsrap)，也

2017-09-04 22:20:58 2301

mysql-connector-java-5.1.31-bin.jar

空空如也