自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Some TRICKS about PySpark

1. DataFrame中如果存在某列类型为vector,如何提取vector中的元素pyspark > 3.0.0from pyspark.ml.functions import vector_to_array(df.withColumn("xs", vector_to_array("vector"))) .select(["word"] + [col("xs")[i] for i in range(3)]))## +-------+-----+-----+-----+#.

2020-08-10 11:19:15 203 1

原创 python记录-一些tricks

python2和python3的区别 python2中str类型可以和int类型直接比较,python3中不同类型的变量不能直接比较 编码问题在服务器中传输的字符很多都是unicode编码,dump到本地后无法正常显示原文,可以先进行如下转码:s = s.encode('utf-8').decode("unicode_escape")tuple的坑 ()不是tuple的关键词,逗号','才是tuple的关键词。因此('s')并不是tuple,而是str-----------

2020-06-29 10:48:12 148

原创 逻辑回归到底在回归什么?

最开始接触逻辑回归(logistic regression, LR)时,第一印象就是LR在线性回归的基础上加了一个sigmoid函数,将一个没有上下界的回归值约束到[0,1]内,让这个数据有概率的性质,从而进行分类。之后接触GBDT后,对LR产生了疑惑:为什么在线性回归的基础上使用sigmoid函数就能将回归值约束至[0,1]之间并在很多文献中称之为概率?为啥要用sigmoid函数不是别的函数?之前的学习,我只知道了LR是这么用的,但是究竟是怎么来的还不够了解。基于此,我查了很多资料,总结一下LR的

2020-06-11 12:57:31 493 1

原创 XGBoost: A Scalable Tree Boosting System 笔记

刚开始接触xgboost是在解决一个二分类问题时学长介绍。在没有接触这篇论文前,我以为xgboost一个很厉害的algorithm,但是从论文title来看,xgboost实际是一个system,论文重点介绍了xgb整个系统是如何搭建以及实现的,在模型算法的公式改进上只做了一点微小的工作。论文的major contribution:We design and build a highly ...

2020-05-06 11:46:45 383

原创 词嵌入模型之GloVe

GloVe全称Global Vectors for Word Representation,是一个基于全局词频统计的word representation工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似度。通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。GloVe的非严谨公式推导我们先定义一...

2019-12-27 16:43:46 1155

原创 树模型为什么不需要对数据进行归一化?

因为数值缩放不影响分裂节点位置,对树模型的结构不造成影响。树模型是按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。既然树形结构不需要归一化,那为何非树形结构比如线性模型则需要归一化呢?对...

2019-12-09 15:21:41 1793

原创 文本中的对抗学习 + pytorch实现

最近,微软的FreeLB-Roberta [1] 靠着对抗训练 (Adversarial Training)在GLUE榜上超越了Facebook原生的Roberta,追一科技也用到了这个方法仅凭单模型 [2] 就在CoQA榜单中超过了人类,似乎“对抗训练”一下子变成了NLP任务的一把利器。最近博主正好在参加了基于Adversarial Attack的问题等价性判别比赛,所以记录一下在NLP中的对...

2019-12-06 17:00:09 3685 5

原创 KMP算法中next数组的理解-python

KMP算法解决了在字符串匹配过程中模式串指针回溯的问题,从而提高了字符串匹配效率。KMP具体细节在这里不展开讲,主要是梳理一下对KMP核心next数组的理解,要注意的是:目前网上有很多种版本的KMP算法,其next数组的定义也完全不同,因此,在学习KMP算法的时候,要先明确next数组的定义。在本文中next[j]存放的是模式串P中P[0]到P[j-1]这个子串中,最长公共前缀和后缀的长度。...

2019-12-01 19:38:43 1126 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除