吴彦蛆-CSDN博客

原创 Some TRICKS about PySpark

1. DataFrame中如果存在某列类型为vector，如何提取vector中的元素pyspark > 3.0.0from pyspark.ml.functions import vector_to_array(df.withColumn("xs", vector_to_array("vector"))) .select(["word"] + [col("xs")[i] for i in range(3)]))## +-------+-----+-----+-----+#.

2020-08-10 11:19:15 203 1

原创 python记录-一些tricks

python2和python3的区别 python2中str类型可以和int类型直接比较，python3中不同类型的变量不能直接比较编码问题在服务器中传输的字符很多都是unicode编码，dump到本地后无法正常显示原文，可以先进行如下转码：s = s.encode('utf-8').decode("unicode_escape")tuple的坑 ()不是tuple的关键词，逗号','才是tuple的关键词。因此('s')并不是tuple，而是str-----------

2020-06-29 10:48:12 148

原创逻辑回归到底在回归什么？

最开始接触逻辑回归(logistic regression, LR)时，第一印象就是LR在线性回归的基础上加了一个sigmoid函数，将一个没有上下界的回归值约束到[0,1]内，让这个数据有概率的性质，从而进行分类。之后接触GBDT后，对LR产生了疑惑：为什么在线性回归的基础上使用sigmoid函数就能将回归值约束至[0,1]之间并在很多文献中称之为概率？为啥要用sigmoid函数不是别的函数？之前的学习，我只知道了LR是这么用的，但是究竟是怎么来的还不够了解。基于此，我查了很多资料，总结一下LR的

2020-06-11 12:57:31 493 1

原创 XGBoost: A Scalable Tree Boosting System 笔记

刚开始接触xgboost是在解决一个二分类问题时学长介绍。在没有接触这篇论文前，我以为xgboost一个很厉害的algorithm，但是从论文title来看，xgboost实际是一个system，论文重点介绍了xgb整个系统是如何搭建以及实现的，在模型算法的公式改进上只做了一点微小的工作。论文的major contribution：We design and build a highly ...

2020-05-06 11:46:45 383

原创词嵌入模型之GloVe

GloVe全称Global Vectors for Word Representation，是一个基于全局词频统计的word representation工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似度。通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两个单词之间的语义相似性。GloVe的非严谨公式推导我们先定义一...

2019-12-27 16:43:46 1155

原创树模型为什么不需要对数据进行归一化？

因为数值缩放不影响分裂节点位置，对树模型的结构不造成影响。树模型是按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。而且，树模型是不能进行梯度下降的，因为构建树模型（回归树）寻找最优点时是通过寻找最优分裂点完成的，因此树模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。既然树形结构不需要归一化，那为何非树形结构比如线性模型则需要归一化呢？对...

2019-12-09 15:21:41 1793

原创文本中的对抗学习 + pytorch实现

最近，微软的FreeLB-Roberta [1] 靠着对抗训练 (Adversarial Training)在GLUE榜上超越了Facebook原生的Roberta，追一科技也用到了这个方法仅凭单模型 [2] 就在CoQA榜单中超过了人类，似乎“对抗训练”一下子变成了NLP任务的一把利器。最近博主正好在参加了基于Adversarial Attack的问题等价性判别比赛，所以记录一下在NLP中的对...

2019-12-06 17:00:09 3685 5

原创 KMP算法中next数组的理解-python

KMP算法解决了在字符串匹配过程中模式串指针回溯的问题，从而提高了字符串匹配效率。KMP具体细节在这里不展开讲，主要是梳理一下对KMP核心next数组的理解，要注意的是：目前网上有很多种版本的KMP算法，其next数组的定义也完全不同，因此，在学习KMP算法的时候，要先明确next数组的定义。在本文中next[j]存放的是模式串P中P[0]到P[j-1]这个子串中，最长公共前缀和后缀的长度。...

2019-12-01 19:38:43 1126 1

tangyaruo的博客