changreal-CSDN博客

原创【数据分析报告】携程客户分析与流失预测

目录一、项目背景与目的二、探索性分析2.1 数据指标预览2.2 数据概况2.3 数据分布2.3.1 数据分布总览2.3.2 预定日期和入住日期2.3.3 访问时间段2.3.4 客户价值2.3.5 消费能力指数2.3.6 价格敏感指数分布2.3.6 入住酒店平均价格2.3.7 酒店星级偏好2.3.8 订单取消率2.3.9 用户年订单数分布2.3.10 新老客户流失率三、数据预处理3.1 去除不需要的字段与重复字段3.2 数据类型转换3.3 异常值处理3.3.1负数处理3.3.2 极值处理3.4 缺失值处理3.

2021-08-11 21:32:02 64347 7

原创京东用户行为数据分析报告(python)

1. 背景与目的该重构项目对京东的运营数据集的用户购买行为进行分析，研究用户过程中的行为特点、购物偏好、以及在购物过程中的转化率和流失情况，为精准营销提供高质量的目标群体。2. 分析思路用户行为分析目的（根据目的拆解）：促进用户购买商品、精准营销。根据第3节数据集特点，从以下五个角度分析：1）京东用户整体行为信息2）用户行为漏斗分析3）留存分析4）用户购物行为偏好5）用户价值分析3 数据概述3.1 数据来源数据集来源：https://jdata.jd.com/html/de

2021-07-26 16:10:11 14548 51

原创【阅读笔记】机器阅读理解（中）——架构篇

文章目录一、MRC模型架构总体架构编码层词表向量字符编码上下文编码交互层互注意力自注意力上下文编码输出层多项式选择答案生成区间式答案自由式答案生成注意力机制的应用拷贝生成机制二、常见MRC模型BiDAFR-net融合网络单词历史全关注注意力总体架构关键词检索与阅读模型（ET-RR）检索器阅读器三、预训练模型与迁移学习基于翻译的PTM——CoVe基于语言模型的ELMo生成式PTM——GPTtransformer多头注意力位置编码残差网络GPT本身划时代的BERT双向语言模型NSP具体任务BERT的改进措施【重

2020-05-29 17:21:57 1625

原创【总结向】MRC 经典模型与技术

MRC 经典模型与技术目录MRC 经典模型与技术预备知识文章和问题表示文档表示模型一：RNN表示模型二：基于注意力的文档的表示问题的表示模型一：RNN表示模型二：基于注意力的问题表示（同上文文档表示）模型三：双向RNN头尾部隐层节点的表示经典AttentionSeg2SegRNN Seg2Seg卷积Seg2SegPositional EncodingNormalizationBatch norm...

2020-03-24 16:20:42 4699 1

原创理财入门1

相关基础知识世界各国基本上都用消费者价格指数（CPI）来反映通货膨胀的程度。通货膨胀侵蚀财富最明显的例子是养老：如果你现在40岁，希望在60岁退休后安享30年退休生活，每月消费水平相当于目前3 000元人民币的购买力，假如不考虑通货膨胀因素，则需要在退休时准备108万元的现金。假设年通胀率为3%，意味着20年后，每月5 418元才能抵当下3 000元的购买力，也意味着你20年后需要为未来30年准备的现金总数为309.3万元。如果你现在30岁，退休时需要准备的现金则为415.7万元生命周期收支

2021-11-22 21:37:00 745

原创数据库基础

##概念DDL：DDL（Data Definition Languages）语句：数据定义语言，这些语句定义了不同的数据段、数据库、表、列、索引等数据库对象。常用的语句关键字主要包括create、drop、alter等。DML（Data Manipulation Language）语句：数据操纵语句，用于添加、删除、更新和查询数据库记录，并检查数据完整性。常用的语句关键字主要包括 insert、delete、update和select等。DCL（Data Control Language）语句：数据控

2021-09-29 13:20:15 351

原创机器学习基础总结

目录文章目录分类模型指标数据预处理非数值型重复值、缺失值、异常值处理多重共线性问题样本不平衡过拟合正则化PCA主成分分析介绍应用优缺点决策树决策树的生成过程决策树优缺点应用场景不同的决策树算法辨析树的集成算法Bagging和boosting随机森林介绍构建步骤应用场景优势劣势逻辑回归介绍优缺点应用朴素贝叶斯介绍条件独立性假设应用场景优缺点常见类型的贝叶斯支向量机SVM介绍优缺点KNN算法介绍k值选择优缺点K-means分类模型指标ROC, AUCaccuracy, precision, recall

2021-08-31 23:15:45 1697 1

转载深度学习模型复现——随机数种子设置相关

来源：https://blog.csdn.net/weixin_40400177/article/details/105625873

2021-03-04 16:02:13 1741 1

原创记录python常用操作

记录python常用操作基本操作*args与**kwargs基本操作*args与**kwargs参考：https://blog.csdn.net/yilovexing/article/details/80577510使用场景是：预先并不知道, 函数使用者会传递多少个参数给你, 所以在这个场景下使用这两个关键字。*args 表示任何多个无名参数，它本质是一个 tuple*kwargs 表示关键字参数，它本质上是一个 dict如果同时使用 *args 和 **kwargs 时，必须 *args

2020-08-07 16:39:18 186

原创记录pytorch常用操作

文章目录数据格式基本用法格式转换张量操作mask相关数据格式dtype: tensor的数据类型，总共有八种数据类型。其中默认的类型是torch.FloatTensor,而且这种类型的别名也可以写作torch.Tensor基本用法格式转换典型的tensor构建方法：torch.tensor(data, dtype=None, device=None, requires_grad=False)从其他形式转换而来：torch.as_tensor(data, dtype=None, devic

2020-08-04 19:54:04 1278

原创记录一些深度学习基础知识

batch normalization与layer normalization索引：NLP中 batch normalization与 layer normalization

2020-08-03 15:43:18 193

原创记录配置环境相关坑与trick

惹pycharm配置相关cuda问题国内源shellpycharm配置相关Tools-Development-Configuration配置服务器连接与mappings这里mapping到了所需的目录SSH Terminal配置到服务器python从而调用服务器的所需环境的终端project interpreter可配置为服务器interpreter选择所需环境的python可以在SSH configurations配置远程服务器账号开始SSH会话，在线调试远

2020-07-30 17:17:10 199

原创【阅读笔记】机器阅读理解书阅读（上）——基础篇

机器阅读理解书阅读（上）——基础篇书本来自朱晨光的《机器阅读理解：算法与时间》文章目录机器阅读理解书阅读（上）——基础篇数据集设计高质量的数据集自然语言处理基础分词中文分词英文分词字节对编码BPE词向量命名实体、词性标注命名实体识别词性标注语言模型NLP中的深度学习词向量到文本向量自然语言理解自然语言生成（NLG)注意力机制数据集设计高质量的数据集区分基于理解和匹配的模型SQuAD也基本是依赖文章和问题中文字匹配的，并非基于真正理解文章和问题的意思。所以SQuAD每篇文章后添加依据包含问题

2020-05-21 22:48:24 910

原创【总结向】从CMRC2019头部排名看中文MRC

文章目录0 预备知识数据集中文MRC任务要点（融合CMRC2018-2019）任务类型数据增强与扩充数据处理文本向量化表达特征融合训练方法预测目标其他：trick & 问题实用工具应用1 冠军：平安金融纲要策略核心连贯性学习SiBert负样本的连贯性非独立性的预测方式文本长度与分词领域迁移消融实验总结2 亚军：顺丰 Mojito System预处理预训练模型预测策略实验结果错误分析3 季军...

2020-04-07 14:40:56 1652 3

原创【中文MRC】2019_IEEE_R-Trans: RNN Transformer Network for Chinese Machine Reading Comprehension

1 概述动机中文MRC任务需要分词，但是分词的话利用现有分词工具不可避免地会产生分词错误，从而对下游任务产生影响。而分词问题，可以通过结合local and global context信息来解决（也就是说中文短语在不同的上下文中会有不同的意思），但由于已知的词嵌入比如GloVe、Word2vec是在英语语料上训练的，因此无法根context来产生一个单词的不同分布表示向量。因此，当务之急就...

2020-03-18 21:59:47 495

原创【总结向】预训练模型小结

大纲1 语言模型2 XLNetXLNET好处XLNet 创新点应用3 Transformer-xl3.1 segment-level recurrence mechanism3.2 relative positional encoding4 Bert阶段1：语言模型阶段2：fine-tune5 GPT6 ELMo7 其他7.1 迁移的2种方法7.2 零碎7.3关于MASK1 语言模型1.1 ...

2020-03-03 23:09:33 1897

原创【论博文笔记】XLNet总结

结合XLNet结合了Bert、GPT 2.0和Transformer XL它通过PLM预训练目标，吸收了Bert(AE)的双向语言模型；GPT2.0更多更高质量的预训练数据，这也被XLNet吸收进来；引入Transformer XL来解决Transformer对于长文档应用不好的问题XLNet 四个好处结合AE优点，PLM获取双向语义信息（对token级别的任务如RC\QA很重要...

2020-03-03 21:15:18 532

原创【源码阅读】BERT pytorch源码结构关系图

如图，模型基本结构是BERT，是model，而BERTLM集成了Bert,NSP,MLM，是模型结构的核心。在数据的处理中，核心是BERTDataset训练或者评估的时候，调用了BERTTrainer，他使用了BertDataset的数据来进行训练与迭代...

2020-03-01 22:50:55 888

原创【兼容调试】pytorch出现RuntimeError: CUDA out of memory时的一些解决方法

代码方面要适当删除没用的中间变量（虽然效果不大）比如：del outputtrain的时候，累加loss 一定要+=loss.item()，不然会把loss的history也加进去，又占显存了同理2，及时detach()比如rnn decoder的输出中把上一个时间步的输出作为下一个时间步的输入，那么这个输入完全就可以.detach()valid or test的时候，一...

2020-02-12 00:00:46 5338

原创【博文笔记】AoA Reader_Attention-over-Attention Neural Networks for Reading Comprehension

介绍论文地址：Attention-over-Attention Neural Networks for Reading Comprehension参考博文：https://www.imooc.com/article/29985https://www.cnblogs.com/sandwichnlp/p/11811396.html#model-4-aoa-reader数据集：CNN&...

2019-12-30 10:32:41 564

转载【博文笔记】Attentive Reader\Impatient Reader：机器阅读理解之开山之作Teaching Machines to Read and Comprehend

来源参考博客：机器阅读理解（看经典MRC模型与花式Attention）CNN&Dailymail：Teaching Machines to Read and Comprehend论文： Teaching Machines to Read and Comprehend简介数据库：CNN&Dailymail任务类型：完型填空神经网络模型：Attentive Rea...

2019-12-29 21:00:52 1048

原创【论文笔记】Enhancing Pre-Trained Language Representations with Rich Knowledge for MRC

KT-NET——Knowledge and Text fusion NETKBs ：WrodNet + NELL ; distrubuted representations of KBs(KB embeddings).WordNet:记录了lexical relations, 比如(organism, hypernym of, animal)NELL:stores belief...

2019-12-24 23:06:37 1400

原创【论文笔记】AS Reader vs Stanford Attentive Reader

Attention Sum Reader Network数据集CNN&DailyMail每篇文章作为一个文档（document），在文档的summary中剔除一个实体类单词，并作为问题（question），剔除的实体类单词即作为答案（answer），该文档中所有的实体类单词均可为候选答案（candidate answers）。其中每个样本将文本中所有的命名实体用类似“...

2019-12-23 15:45:22 562

原创【论文笔记】Knowledgeable Reader_ Enhancing Cloze-Style Reading Comprehension with External Commonsense Kg

Abstract和介绍论文特点：引入了external commonsense knowledge, encode as key-value memory，并把知识和context representation(document-to-question)来answer；数据集是Common Nouns dataset；CBT(common and named entities)知...

2019-12-23 11:02:54 1043

原创【论文笔记】QANET：Combining Local Convolution With Global Self-attention for Reading Comprehension

1. 简要介绍模型创新点：（一）移除了RNN，核心就是卷积 + self-attention。这样使得训练更快，相应地模型能使用更多的训练数据。Convolution capture the local structure of context(local interactions), self-attention models global interactions。两者相辅相成，不可替...

2019-12-02 15:16:41 522

原创【论文翻译+笔记】Neural Machine Reading Comprehension: Methods and Trends

1 Introduction过去的MRC技术的特点：hand-crafted rules or features缺点Incapable of generalizationperformance may degrade due to large-scale datasets of myriad types of articlesignore long-range dependencies...

2019-11-30 21:33:52 3798

原创【论文笔记】ULMFiT——Universal Language Model Fine-tuning for Text Classification

0 一些术语tranductive transfer 直推迁移学习inductive transfer 归纳迁移学习sample transfer learning 样本迁移学习1 Introduction对于归纳迁移学习：(2013)年的fine-tuning pre-trained word embeddings 迁移技术只针对模型第一层，但是有很大的影响，大多先进模型都用了它。...

2019-11-25 09:57:35 889 2

原创【论文笔记】Bi-DAF（待修）——BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION

0 摘要represents the context at different levels of granularityuses bi-directional attention flow mechanism to obtain a query-aware context representation without early summarization1 introduce先前工...

2019-11-17 12:07:33 280

原创【论文笔记】GPT-1：Improving Language Understanding by Generative Pre-Training

Abstract核心思想： generative pre-training + discriminative fine-tuning1 Introduction为了获取更多annotation，利用linguistic info从unlabeled data中学习，这很有价值，减轻了对NLP中监督学习的依赖，毕竟许多domains缺乏annotated resources，并且用无监督学习学...

2019-11-10 20:48:54 1692

原创【论文笔记】ELMo：Deep contextualized word representations

Abstract介绍一种新型的深度语境化(deep contextualized)词表示：模拟了复杂的词特征的使用(例如，语法和语义)模拟了词在不同语境中的使用（use vary across linguistic contexts）其他要点：这个词向量是一个深度双向语言模型(biLM)内部状态的学习函数(vectors are learned functions of the i...

2019-11-04 13:58:36 656

原创【论文笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

http://naotu.baidu.com/file/d071cf1eb5b25bf39b66bc239bc3d735?token=8b4f732e6e75fe05

2019-11-01 11:26:13 139

原创【论文笔记】Attention is all you need

在阅读本文之前，关于self-attention的详细介绍，比较全面的transformer总结之前copy的这篇文章，有了self-attention的基础之后再看这篇文，感觉就容易了。这篇总结主要基于论文。文章目录1 Introduction2 Background3 Model Architecture3.1 Encoder and Decoder Stacks3.2 Attention...

2019-10-18 20:38:11 553

转载【论文笔记copy】Attention总结三：self-attention与transformer

self-attention与transformer讲解论文：attention is all you need.参考1.完全参考这篇博客，讲的非常好！本总结只是复述。2.还参考了知乎的这篇文章，作为补充文章目录参考1 self-attention具体1.1 过程1.2 矩阵的self-attention1.3 Scaled Dot-Product Attention2 transf...

2019-10-18 14:22:07 1064

原创【算法学习】分组背包问题

有N件物品和一个容量为V的背包，第i件物品的重量为w[i]，价值为v[i],这些物品被划分成了若干组，每组中的物品互相冲突，最多选一件问将哪些物品放入背包中可以使背包获得最大的价值对于每一组的物品，都可以看成是一个01背包问题，对每组的物品都处理一遍即可。输入格式：第一行：三个整数，V(背包容量，V<=200)，N(物品数量，N<=30)和T(最大组号，T<=10)；第...

2019-10-16 12:29:55 876

原创【算法学习】01背包问题

01背包问题相当于还是求n个物品的组合！暴力解法：每一件物品，都可以放进背包，也可以不放进。复杂度是O( (2^n) * n )，对于每一个组合，还要看看对应的总重是多少，看看是不是超过了容量C，从而看价值。组合方式都可以用递归的方式来求解。只是是能不能找到重叠子问题、最优子结构，从而转换为DP。设计：状态：之前状态都使用一个参数就解决了问题，通常问题中参数的个数意味着要解决问题需...

2019-10-14 21:30:38 1285

原创【算法学习】动态规划Leetcode习题

动态规划开始比较绕，所以思考的时候先同自顶向下的方式思考清楚问题的结构，然后再反向自底向上+双重循环，动态规划的推导。343. Integer Break递归+计划化搜索方法自顶向下的方式// 递归+记忆化搜索 class Solution {private: vector<int> memo; int max3(int a, int b, int c){...

2019-10-14 11:16:26 224

原创【论文笔记】Attention总结二：Attention本质思想 + Hard/Soft/Global/Local形式Attention

Attention总结二：涉及论文：Show, Attend and Tell: Neural Image Caption Generation with Visual Attentio（用了hard\soft attention attention）Effective Approaches to Attention-based Neural Machine Translation（提出...

2019-10-12 13:36:42 3387 1

原创【论文笔记】Attention总结一：基于论文Neural Machine Translation by Jointly Learning to Align and Translate

0 Attention背景知识总结encoder-decoder这part的背景来源于这篇：https://blog.csdn.net/u012968002/article/details/78867203 这篇attention文章讲解的很好。encoder-decoder中，将输入句子通过非线性变换转化为中间语义表示C，对于解码器Decoder来说，其任务是根据句子Source的中间语义...

2019-09-30 15:38:24 826 2

原创【论文笔记】MRC综述论文+神经阅读理解与超越基础部分总结

Machine Reading Comprehension(主要是NRC)MRC：数据集与技术——主要是神经阅读理解数据集（详细数据集见论文 or 笔记图）抽取答案数据集: triviaQA\ SQUAD1.0/2.0; triviaQA; WIKIHOP(multi-hop reasoning)描述性 descriptive：NarrativeQA\unanswerable ques...

2019-09-30 13:04:42 1707

原创【兼容调试】anaconda创建环境后与jupyter notebook的kernel

anaconda创建一个新环境后，比如python3.6, or用于pytorch or 用于tensorfow的新环境后，用Jupyter notebook要以当前环境的kernel运行编译，需要安装ipykernel，否则无法误测到jupyter notebook中，以新建pytorch的anaconda环境后的步骤如下：#安装ipykernelconda install ipyker...

2019-07-23 14:13:35 482

WEKA中文教程.ppt

福州大学863考研初试资料

沉稳Word简历模板

线代41题 题目+答案

小丸工具箱

C++语言程序设计期末复习题(含答案)(

pxcook_v3.4.4

flappybirld h5代码

sublime_text_3_language_cn.zip中文包

空空如也

线代41题题目+答案