自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涛涛不绝蕾蕾于冬

https://github.com/xlniu

  • 博客(27)
  • 收藏
  • 关注

原创 spark学习

1、windows下安装sparkhttps://www.cnblogs.com/cuiocean/p/7630529.html其中需要安装Scala、JDK、Spark、hadoop;2、在Intellij中配置sparkhttps://www.cnblogs.com/lemonqin/p/4186782.html安装scala插件,导入jdk、scala sdk、spark jar包...

2019-07-24 14:22:51 199

转载 jupyter相关技巧

jupyter notebook ——print,plot,InteractiveShell

2019-07-19 13:04:14 197

原创 tensorflow中crf模块函数解析

        这篇博客主要想解释一下tensorflow中crf模块的几个函数的输入输出是什么意思。作为预备知识,建议英文好的同学先看下这篇博客,这篇博客有8个小节,前5个小节比较通俗易懂,后3个小节感觉不太理解。当然我也会先讲一下bilstm+crf的基本原理,主要讲一下模型的损失函数。一、预备知识 ...

2019-06-28 17:47:02 4941

原创 Find First and Last Position of Element in Sorted Array

leetcode34Given an array of integers nums sorted in ascending order, find the starting and ending position of a given target value.Your algorithm’s runtime complexity must be in the order of O(log n...

2019-06-24 21:29:32 113

原创 中序遍历二叉树,将树结构转为双向链表结构

示例:中序遍历上图中的二叉树,转换后的双向链表为:4⇆6⇆8⇆10⇆12⇆14⇆16。代码:class Solution {public: TreeNode* inorderTraversal(TreeNode* root) { stack<TreeNode*> s; //p为当前遍历结点,prev为当前结点的前一个结点 ...

2019-06-20 15:14:43 550

原创 中序遍历二叉树,统计遍历的每个节点的层次

代码是在中序遍历二叉树的非递归算法上修改的。class Solution {public: vector<vector<int>> inorderTraversal(TreeNode* root) { vector<vector<int>> res; //存储结果 stack<TreeNode*&gt...

2019-06-20 14:32:56 542

原创 文本聚类demo

由于工作需要,使用了聚类方法在文本语料中挖掘类别信息,下面是一个demo,供大家参考。实验数据由于公司原因不便公开。实验步骤:1、 排序去重,经过排序去重后数据从10万条变为3万条。2、 结巴分词。3、 特征提取,使用平滑后的tf-idf作为特征,为每个用户问题构建特征向量,采用了scikit-learn 中的类 TfidfVectorizer。4、 采用了两种聚类方法K-means 。...

2019-05-14 15:44:21 550

原创 由word2vec、ELMo、OpenAI GPT、BERT 得到预训练词向量

前言        最近预训练模型大火,ELMo、OpenAI GPT、BERT等等。我们对于这些模型的应用大概有两种:1、 直接使用它们输出的词向量或者叫context vector;2、 在这些模型后面接一个简单浅层模型进行fine-tuning;     ...

2019-04-12 18:33:08 3199 4

原创 如何解决sigmoid函数饱和区问题

1、sigmoid函数及其应用                     图1:sigmoid 函数       &...

2019-03-30 19:09:50 9326 1

原创 Quality-Estimation1 (翻译质量评价-复现 WMT2018 阿里论文结果)

简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...

2019-03-12 16:28:50 1720

原创 Quality-Estimation2 (翻译质量评价-在BERT模型后面加上Bi-LSTM进行fine-tuning)

简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...

2019-03-12 16:18:46 1983

原创 Quality-Estimation0 (翻译质量评价-使用 BERT 特征训练 QE 模型)

简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...

2019-02-01 10:38:44 2090 8

原创 端到端任务中目标词表过大问题

前言在端到端任务(如机器翻译、对话、摘要抽取等)中存在一个有待解决但没有引起研究者足够重视的问题:目标词表过大问题。这个问题不仅影响 training 和 decoding 的速度,也会影响生成句子的质量(引入不必要的噪声)。下面介绍两篇解决这个问题的论文,第一篇着眼于对话任务,第二篇着眼于机器翻译任务。Neural Response Generation with Dynamic Vocab...

2018-12-12 18:39:40 520

原创 python 实现倒排索引

代码如下:#encoding:utf-8fin = open('1.txt', 'r')'''建立正向索引: “文档1”的ID &gt; 单词1:出现位置列表;单词2:出现位置列表;………… “文档2”的ID &gt; 此文档出现的关键词列表。'''forward_index = {}for line in fin: line = line.strip().spli...

2018-05-08 17:29:40 9205

原创 scikit-learn之降维之LDA

线性判别分析LDA原理总结LDA 既可以用于分类又可以用于降维,应用场景最多的还是降维。和 PCA 类似,LDA 降维基本也不用调参,只需要指定降维到的维数即可。class sklearn.discriminant_analysis.LinearDiscriminantAnalysissolver=’svd’:即求LDA超平面特征矩阵使用的方法。可以选择的方法有奇异值分解”svd”,最...

2018-04-28 15:39:23 1274

原创 scikit-learn之分类算法

1、逻辑回归class sklearn.linear_model.LogisticRegressionpenalty=’l2’:‘l1’ or ‘l2’,正则项,‘newton-cg’, ‘sag’ and ‘lbfgs’ 只支持 ‘l2’;dual=False: bool,默认值就可以;tol=0.0001:停止准则容忍度;C=1.0: positive float,正则化强...

2018-04-27 17:22:30 542

原创 scikit-learn之聚类性能度量

1、调整兰德系数sklearn.metrics.adjusted_rand_score数学公式Rand index(兰德系数):RI=a+bCnsamples2RI=a+bC2nsamplesRI=\frac{a+b}{C_{2}^{n_{samples}}} 1、a:应该在一类,最后聚到一类的数量; 2、b:不应该在一类 ,最后聚类结果也没把他们聚在一起的数量; 3、数量是...

2018-04-24 09:08:57 2636 1

转载 scikit-learn之聚类算法之Birch

算法流程BIRCH聚类算法原理sklearn中的参数用scikit-learn学习BIRCH聚类

2018-04-23 15:10:33 964

原创 scikit-learn之聚类算法之DBSCAN

算法流程DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)算法将聚类视为被低密度区域分隔的高密度区域。 核心样本:数据集中的一个样本,至少存在 min_samples 个其他样本在 eps 距离范围内,这些样本被定为核心样本的邻居 neighbors; 1、计算出所有的核心样...

2018-04-23 12:42:35 2388

原创 scikit-learn之聚类算法之Hierarchical clustering(层次聚类)

算法流程层次聚类分为分裂法和凝聚法,分裂法由上向下把大的类别(cluster)分割,凝聚法由下向上对小的类别进行聚合,但是一般用的比较多的是由下向上的凝聚法。 下面只介绍凝聚法,分裂法和凝聚法类似: 1、将样本集中的所有的样本点都当做一个独立的类簇; 2、计算两两类簇之间的距离(对应下面的 linkage 和 affinity 参数),找到距离最小的两个类簇 c1 和 c2; 3、合并...

2018-04-22 17:53:25 4383

转载 scikit-learn之聚类算法之Spectral clustering(谱聚类)

下面链接中的文章总结的太好了,就偷懒不自己写了。算法流程谱聚类原理总结sklearn中的参数scikit-learn学习谱聚类

2018-04-21 11:24:17 1630

原创 scikit-learn之聚类算法之Mean Shift

Mean Shift 算法通过更新质心的候选位置为 所选定区域 的偏移均值。 然后,这些候选者在后处理阶段被过滤以消除近似重复,从而形成最终质心集合。算法流程1、在指定的区域内计算偏移均值(如下图的黄色的圈); 2、移动该点到偏移均值点处; 重复上述的过程(计算新的偏移均值,移动),直到满足了最终的条件,退出;均值偏移向量 其中,SkSkS_{k} 为上面图中的蓝...

2018-04-20 16:10:12 3362 2

原创 scikit-learn之聚类算法之Affinity Propagation

基本概念exemplar:聚类的中心点; s(i,k):样本 i 和样本 k 之间的相似度,初始化时会有一个相似度矩阵; preference:偏好参数,相似度矩阵中横轴纵轴索引相同的点,如s(i,i),表示数据点 i 作为聚类中心的程度。迭代开始前假设所有点成为聚类中心的能力相同,因此参考度一般设为相似度矩阵中所有值得最小值或者中位数,但是参考度越大则说明各数据点成为聚类中心的能力越强,...

2018-04-19 16:52:01 5413 1

原创 scikit-learn之聚类算法之K-Means

K-means算法步骤: 1、给定类别个数 k,在数据集 X 中选择 k 个点作为初始的图心; 重复进行2、3步骤直到更新前后的图心之间的距离小于设定的阈值; 2、将数据集 X 中的点分配给离它最近的图心; 3、根据属于每个图心的所有点,重新计算新的图心; 上面的算法涉及两个问题: 1、输入问题;将输入的文本、图像向量化,这属于特征选择问题; 2、初始图心选择问题:可以使用k-m...

2018-04-18 11:22:08 1170

原创 结巴分词和哈工大ltp词性标注结合使用

根据自己的语料,发现使用结巴分词的粒度更适合,并且在使用外部词典进行分词时,哈工大的分词模块对于外部词典中的词会有不识别的现象。 对于词性标注而言,经过调研,各种分词工具都专注于做分词,词性标注做的都不是太好,结合语料比较之后决定使用哈工大ltp的词性标注模块。代码如下:import jiebafrom pyltp import Postaggerimport osMODEL...

2018-04-04 11:29:08 3001 2

原创 基于HMM的拼音转汉字程序

本文将讲述怎样利用HMM进行拼音转汉字。准备阶段 python 2.7; 安装 python 工具包 ChineseTone,直接使用 pip install 安装; 运行程序的过程中,可能还会用到其他工具包,自行使用 pip install 安装即可; 下载拼音转汉字程序,https://github.com/letiantian/Pinyin2Hanzi;原理讲述 HMM涉及...

2018-04-02 15:44:36 4387

转载 ROUGE评价指标

1、Ubuntu安装ROUGE教程2、在Ubuntu下配置pyrouge3、学习笔记———《自动文档摘要评价方法---Edmundson和ROUGE》4、pyrouge0.1.3官方教程5、pyrouge在Ubuntu下的使用

2018-03-28 21:18:03 5315

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除