Lzj000lzj-CSDN博客

原创 STL C++

vectorpush_back(data)//在尾部添加一个数据pop_back() 　 //弹出数组的最后一个数据(void)at(idx) //得到编号位置的数据begin() //返回指向容器第一个元素的迭代器end() //返回指向容器最后一个元素的迭代器front() //返回容器中最开始的元素back() ...

2019-09-01 22:01:22 213

原创特征选取

当某个特征只有很少类型的取值，而且99%都是其中一类的取值时，这种特征可以删除

2019-07-31 15:53:52 589

转载 FE离群点分析+分布分析

离群点单变量分析首先用标准化（标准化不会改变数据相对分布的特性）把数据转变成正态分布，分别查看最大和最小的十个值saleprice_scaled = StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]);low_range = saleprice_scaled[saleprice_scaled[:,0].ar...

2019-07-30 12:35:52 563

转载 kaggle数据分析的学习经验

由于大多数机器学习模型对非正态分布的数据的效果不佳，因此，我们对数据进行变换，修正倾斜：log(1+x)删除离群点train.drop(train[(train['OverallQual']<5) & (train['SalePrice']>200000)].index, inplace=True)train.drop(train[(train['GrLivArea'...

2019-07-19 21:33:57 937

原创 IEEE Fraud Detection Competition思路探索

训练集和测试集的数据分在两个不同的表里。通过统计发现只有少部分train_transaction中的TransactionID可以在train_identity中找到对应# Here we confirm that all of the transactions in `train_identity`print(np.sum(train_transaction['TransactionID...

2019-07-18 19:52:35 1230

原创 tencent_ad_compeition

复赛与竞争量有关计算每个旧广告在每天每个广告位的曝光量和竞争量，曝光量除以竞争量=曝光率，得到每天的曝光率。旧广告规则：100-22号的广告语23号的广告有重叠，24号旧广告的exp=0.75exp23+0.25*exp10-22旧广告建模：特征：10号到22号的竞争量曝光率，将18号作为validdata，用18号之前的数据对18号曝光量进行预测再将旧广告的规则与旧广告建模的结果进行融...

2019-07-18 19:51:41 278

原创线性回归+逻辑回归+softmax回归

线性回归线性回归模型的均方差损失函数是一个凸函数，这意味着如果你选择曲线上的任意两点，它们的连线段不会与曲线发生交叉（译者注：该线段不会与曲线有第三个交点）。这意味着这个损失函数没有局部最小值，仅仅只有一个全局最小值。同时它也是一个斜率不能突变的连续函数。这两个因素导致了一个好的结果：梯度下降可以无限接近全局最小值。（只要你训练时间足够长，同时学习率不是太大）。训练模型意味着找到一...

2019-07-14 20:24:48 271

原创 NLP的特征工程及数据预处理的分类

cleaning大小写同一解码去特殊符号修剪单词内部的错误符号tokenizingtokenizeN-Gramsskip-gramschar-gramsremove清除停用词，稀有单词roots修剪单词的前几个字符修正单词回词根...

2019-07-13 16:14:33 348 1

原创特征工程（PPT）

数据决定上限，模型逼近上限类别特征类别特征的特点：当类别基数较大时在处理后会产生非常稀疏的特征，难以处理缺失值。onehot encodingonehot之前要去掉NAN值label encoding对非线性树算法有用不增加维度count encoding将类别名替换为这一类别出现的次数对离群点很敏感可以尝试加入 log平滑可能会引入共线性LabelCoun...

2019-07-13 16:03:34 916

原创用keras使用glove预训练的词向量来构建实验的embedding矩阵-以Jigsaw Unintended Bias in Toxicity Classification比赛baseline为例

数据加载import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import os# print(os.listdir("../input"))# print(os.listdir("../input/crawl300d2m"))...

2019-07-11 16:27:37 1407 1

转载 keras使用word2cev在imdb数据集上做词嵌入，构建embedding矩阵

数据加载import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrixf...

2019-07-10 18:28:55 1035

原创机器学习基础

批量学习（batch learning）和在线学习（online learning）批量学习当模型训练之后就不再train，只用于test，当有新数据加入时，需要重新训练整个模型，这样的学习方式比较浪费时间和计算资源在线学习将训练数据分为多个mini-batch ，每一步的训练代价较小在线学习涉及到一个学习率的选取。学习率过大会导致模型忘记之前的训练数据，学习率过小会导致学习太慢，对新数据...

2019-07-09 14:02:03 288

转载 pytorch RNN处理文本

数据预处理见 NLP数据预处理词的编码以及取batchimport torchimport torch.nn as nnimport numpy as npfrom torch.nn.utils import clip_grad_norm_from data_utils import Dictionary, Corpus# Device configurationdevice...

2019-07-07 19:29:57 869

转载 NLP数据预处理

词的编码以及取batchimport torchimport osclass Dictionary(object): def __init__(self): self.word2idx = {} self.idx2word = {} self.idx = 0 def add_word(self, word): ...

2019-07-07 18:09:45 652

转载 pytorch Sequential卷积神经网络（padding）

数据准备import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms# Device configurationdevice = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')...

2019-07-07 15:52:16 1359

转载 pytorch LSTM图像分类

一个问题：pytorch官方文档对LSTM的输入参数的格式是input of shape (seq_len, batch, input_size)，但是本例中images.reshape(-1, sequence_length, input_size)的输入格式为batch,seq_len, input_size，是不是官文写错了？import torch import torch.nn...

2019-07-07 14:05:52 7648 13

转载 pytorch简单的全连接网络

定义device，方便在所有机器上运行。将模型变量和模型的输入变量转为to devicewith torch.no_grad()开始test模式import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms# Device configurationd...

2019-07-07 10:36:40 3522

转载 pytorch简单的逻辑回归

import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms# Hyper-parameters input_size = 784num_classes = 10num_epochs = 5batch_size = 100learning_rate ...

2019-07-07 10:33:13 163

转载 pytorch简单的线性回归

import torchimport torch.nn as nnimport numpy as npimport matplotlib.pyplot as plt# Hyper-parametersinput_size = 1output_size = 1num_epochs = 60learning_rate = 0.001# 拟合一个线性回归，y=w*x+bx_tr...

2019-07-06 18:21:38 157

转载 pytorch迁移学习，使用预训练模型

# Download and load the pretrained ResNet-18.resnet = torchvision.models.resnet18(pretrained=True)# 将参数设置为不可修改for param in resnet.parameters(): param.requires_grad = False# 替换网络的顶层resnet.fc...

2019-07-06 18:14:05 2340

原创 pytorch常用的数据预处理

DataLoader使用dataloader方便数据取出。定义CustomDataset类方便对接dataloader类型class CustomDataset(torch.utils.data.Dataset): def __init__(self): # TODO # 1. Initialize file paths or a list of f...

2019-07-06 17:42:31 827

原创 pytorch梯度

tensor梯度的相关性若一个节点requires_grad被设置为True，那么所有依赖它的节点的requires_grad都为True。0 import torch1 x=torch.ones(1)2 w=torch.ones(1,requires_grad=True)3 y=x*w4 x.requires_grad,w.requires_grad,y.requ...

2019-07-06 17:02:12 2327

原创 pytorch RNN实现分类

数据加载(简单看)from __future__ import unicode_literals, print_function, divisionfrom io import openimport globimport osimport torchdef findFiles(path): return glob.glob(path)#print(findFiles('data/n...

2019-07-06 15:56:34 3884 1

转载 pytorch RNN（构建多个相似结构的模型）

加载数据(简单看)from __future__ import unicode_literals, print_function, divisionfrom io import openimport globimport osimport unicodedataimport stringall_letters = string.ascii_letters + " .,;'-"n_...

2019-07-05 17:16:50 832

转载 pytorch保存加载模型

state_dictstate_dict结构通过层去匹配参数张量Define model class TheModelClass(nn.Module): def __init__(self): super(TheModelClass, self).__init__() self.conv1 = nn.Conv2d(3, 6, 5)...

2019-07-04 20:29:34 217

转载 pytorch之GPU数据并行

使模型在gpu上运行在原来的代码上修改了两处，如代码标注所示device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")net.to(device)#1.网络参数数据要是GPU格式for epoch in range(2): # loop over the dataset multiple times ...

2019-07-04 18:57:01 588

转载 pytorch之简单的卷积神经网络

网络样例import torchimport torch.nn as nnimport torch.nn.functional as F#输入图片的格式是32*32class Net(nn.Module): def __init__(self):#只是定义网络中需要用到的方法 super(Net, self).__init__() # 1 in...

2019-07-04 17:14:00 1651

转载 pytorch 张量基本操作

张量初始化构造一个未初始化的张量torch.empty(5,3)构造一个随机初始化的张量 torch.rand(5,3)构造一个指定数据类型的全0张量torch.zeros(5,2,dtype=torch.long)通过以读取的数据构建张量 torch.tensor([5,5,5,5,5])借助已有张量的size构造新的张量 y=torch.randn_like(x,dtype=tor...

2019-07-04 14:12:02 2823

转载卷积参数详解

当输入的数据为32*32*3，卷积核大小为5*5*3且slide=1时，得到(32-5+1)*(32-5+1)*(3-3+1)=28*28*1，同时如果我们有6个卷积核，那么得到的是28*28*6大小的输出

2019-07-04 11:41:39 1084 1

原创 linux上tensorflow2-gpu的环境配置及安装过程

安装tf2的cpu运行版本使用pip安装几个包即可，但是tf2-gpu需要一定的cuda等环境，所以这里使用anaconda来安装tf2-gpu的虚拟环境，简化安装过程。安装anaconda下载Anaconda3-5.0.1-Linux-x86_64.sh，下载地址为： https://repo.continuum.io/archive/index.html，需要将anaconda加入到环境...

2019-07-02 14:22:00 3618

转载 tensorflow做简单的词嵌入

加载数据vocab_size = 10000(train_x, train_y), (test_x, text_y) = keras.datasets.imdb.load_data(num_words=vocab_size)print(train_x[0])print(train_x[1])数据预处理word_index = keras.datasets.imdb.get_word_...

2019-07-01 17:37:39 404

转载 tensorflow文本卷积

卷积例子：inputs = tf.placeholder(‘float’, shape=[None, 6, 8])out = tf.layers.conv1d(inputs, 5, 3)说明：对于一个样本而言，句子有6个词，词向量的维度为8，filters=5（输出维度为5）, kernel_size=3（卷积核大小为3），所以卷积核的维度为38，那么输入68经过38的卷积核卷积后得到的...

2019-07-01 15:22:58 317

转载 tensorflow之模型集成

from tensorflow.keras import layersimport numpy as npfrom tensorflow.keras.wrappers.scikit_learn import KerasClassifierfrom sklearn.ensemble import VotingClassifierfrom sklearn.metrics import acc...

2019-06-30 20:45:14 898

转载 keras之权重初始化

在神经网络训练中，好的权重初始化会加速训练过程。下面说一下kernel_initializer 权重初始化的方法。不同的层可能使用不同的关键字来传递初始化方法，一般来说指定初始化方法的关键字是kernel_initializer 和 bias_initializermodel.add(Dense(64, kernel_initializer=initializers.random_norma...

2019-06-30 20:34:16 11426

转载 tensorflow最简单的回归与分类例子

回归数据准备# 导入数据(x_train, y_train), (x_test, y_test) = keras.datasets.boston_housing.load_data()print(x_train.shape, ' ', y_train.shape)print(x_test.shape, ' ', y_test.shape)模型# 构建模型model = kera...

2019-06-30 18:21:44 472

原创 tesnorflow回归

数据加载dataset_path = keras.utils.get_file('auto-mpg.data', 'https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data') ...

2019-06-30 17:00:07 182

转载 tensorflow 特征工程

https://blog.csdn.net/u014021893/article/details/80423112https://blog.csdn.net/u014061630/article/details/82937333https://blog.csdn.net/qq_22238533/article/details/78980319https://blog.csdn.net/cjo...

2019-06-29 20:16:33 1026

原创 python的循环同一处理

features = {key:np.array(value) for key,value in dict(features).items()}

2019-06-29 17:08:32 197

转载 keras处理欠拟合和过拟合

baselineimport tensorflow.keras.layers as layersbaseline_model = keras.Sequential([ layers.Dense(16, activation='relu', input_shape=(NUM_WORDS,)), layers.Dense(16, activation='relu'), l...

2019-06-29 10:58:15 1707

转载 keras.Sequential 实现简单的文本分类

IMDB数据imdb=keras.datasets.imdb(train_x, train_y), (test_x, text_y)=keras.datasets.imdb.load_data(num_words=10000)#参数num_words=10000表示数据集保留了最常出现的10,000个单词。为了保持数据大小的可处理性，罕见的单词会被丢弃。print(type(train_x...

2019-06-29 10:01:32 517