涛涛不绝蕾蕾于冬-CSDN博客

原创 spark学习

1、windows下安装sparkhttps://www.cnblogs.com/cuiocean/p/7630529.html其中需要安装Scala、JDK、Spark、hadoop；2、在Intellij中配置sparkhttps://www.cnblogs.com/lemonqin/p/4186782.html安装scala插件，导入jdk、scala sdk、spark jar包...

2019-07-24 14:22:51 199

转载 jupyter相关技巧

jupyter notebook ——print，plot，InteractiveShell

2019-07-19 13:04:14 197

原创 tensorflow中crf模块函数解析

这篇博客主要想解释一下tensorflow中crf模块的几个函数的输入输出是什么意思。作为预备知识，建议英文好的同学先看下这篇博客，这篇博客有8个小节，前5个小节比较通俗易懂，后3个小节感觉不太理解。当然我也会先讲一下bilstm+crf的基本原理，主要讲一下模型的损失函数。一、预备知识 ...

2019-06-28 17:47:02 4941

原创 Find First and Last Position of Element in Sorted Array

leetcode34Given an array of integers nums sorted in ascending order, find the starting and ending position of a given target value.Your algorithm’s runtime complexity must be in the order of O(log n...

2019-06-24 21:29:32 113

原创中序遍历二叉树，将树结构转为双向链表结构

示例：中序遍历上图中的二叉树，转换后的双向链表为：4⇆6⇆8⇆10⇆12⇆14⇆16。代码：class Solution {public: TreeNode* inorderTraversal(TreeNode* root) { stack<TreeNode*> s; //p为当前遍历结点，prev为当前结点的前一个结点 ...

2019-06-20 15:14:43 550

原创中序遍历二叉树，统计遍历的每个节点的层次

代码是在中序遍历二叉树的非递归算法上修改的。class Solution {public: vector<vector<int>> inorderTraversal(TreeNode* root) { vector<vector<int>> res; //存储结果 stack<TreeNode*&gt...

2019-06-20 14:32:56 542

原创文本聚类demo

由于工作需要，使用了聚类方法在文本语料中挖掘类别信息，下面是一个demo，供大家参考。实验数据由于公司原因不便公开。实验步骤：1、排序去重，经过排序去重后数据从10万条变为3万条。2、结巴分词。3、特征提取，使用平滑后的tf-idf作为特征，为每个用户问题构建特征向量，采用了scikit-learn 中的类 TfidfVectorizer。4、采用了两种聚类方法K-means 。...

2019-05-14 15:44:21 550

原创由word2vec、ELMo、OpenAI GPT、BERT 得到预训练词向量

前言最近预训练模型大火，ELMo、OpenAI GPT、BERT等等。我们对于这些模型的应用大概有两种：1、直接使用它们输出的词向量或者叫context vector;2、在这些模型后面接一个简单浅层模型进行fine-tuning; ...

2019-04-12 18:33:08 3199 4

原创如何解决sigmoid函数饱和区问题

1、sigmoid函数及其应用图1：sigmoid 函数 &...

2019-03-30 19:09:50 9326 1

原创 Quality-Estimation1 (翻译质量评价-复现 WMT2018 阿里论文结果)

简介翻译质量评价（Quality Estimation,QE）是机器翻译领域中的一个子任务，大致可分为 Sentence-level QE，Word-level QE，Phrase-level QE，详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...

2019-03-12 16:28:50 1720

原创 Quality-Estimation2 (翻译质量评价-在BERT模型后面加上Bi-LSTM进行fine-tuning)

简介翻译质量评价（Quality Estimation,QE）是机器翻译领域中的一个子任务，大致可分为 Sentence-level QE，Word-level QE，Phrase-level QE，详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...

2019-03-12 16:18:46 1983

原创 Quality-Estimation0 (翻译质量评价-使用 BERT 特征训练 QE 模型)

简介翻译质量评价（Quality Estimation,QE）是机器翻译领域中的一个子任务，大致可分为 Sentence-level QE，Word-level QE，Phrase-level QE，详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...

2019-02-01 10:38:44 2090 8

原创端到端任务中目标词表过大问题

前言在端到端任务（如机器翻译、对话、摘要抽取等）中存在一个有待解决但没有引起研究者足够重视的问题：目标词表过大问题。这个问题不仅影响 training 和 decoding 的速度，也会影响生成句子的质量（引入不必要的噪声）。下面介绍两篇解决这个问题的论文，第一篇着眼于对话任务，第二篇着眼于机器翻译任务。Neural Response Generation with Dynamic Vocab...

2018-12-12 18:39:40 520

原创 python 实现倒排索引

代码如下：#encoding:utf-8fin = open('1.txt', 'r')'''建立正向索引: “文档1”的ID > 单词1：出现位置列表；单词2：出现位置列表；………… “文档2”的ID > 此文档出现的关键词列表。'''forward_index = {}for line in fin: line = line.strip().spli...

2018-05-08 17:29:40 9205

原创 scikit-learn之降维之LDA

线性判别分析LDA原理总结LDA 既可以用于分类又可以用于降维，应用场景最多的还是降维。和 PCA 类似，LDA 降维基本也不用调参，只需要指定降维到的维数即可。class sklearn.discriminant_analysis.LinearDiscriminantAnalysissolver=’svd’：即求LDA超平面特征矩阵使用的方法。可以选择的方法有奇异值分解”svd”，最...

2018-04-28 15:39:23 1274

原创 scikit-learn之分类算法

1、逻辑回归class sklearn.linear_model.LogisticRegressionpenalty=’l2’：‘l1’ or ‘l2’，正则项，‘newton-cg’, ‘sag’ and ‘lbfgs’ 只支持 ‘l2’；dual=False： bool，默认值就可以；tol=0.0001：停止准则容忍度；C=1.0： positive float，正则化强...

2018-04-27 17:22:30 542

原创 scikit-learn之聚类性能度量

1、调整兰德系数sklearn.metrics.adjusted_rand_score数学公式Rand index（兰德系数）：RI=a+bCnsamples2RI=a+bC2nsamplesRI=\frac{a+b}{C_{2}^{n_{samples}}} 1、a：应该在一类，最后聚到一类的数量； 2、b：不应该在一类，最后聚类结果也没把他们聚在一起的数量； 3、数量是...

2018-04-24 09:08:57 2636 1

转载 scikit-learn之聚类算法之Birch

算法流程BIRCH聚类算法原理sklearn中的参数用scikit-learn学习BIRCH聚类

2018-04-23 15:10:33 964

原创 scikit-learn之聚类算法之DBSCAN

算法流程DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）算法将聚类视为被低密度区域分隔的高密度区域。核心样本：数据集中的一个样本，至少存在 min_samples 个其他样本在 eps 距离范围内，这些样本被定为核心样本的邻居 neighbors； 1、计算出所有的核心样...

2018-04-23 12:42:35 2388

原创 scikit-learn之聚类算法之Hierarchical clustering(层次聚类)

算法流程层次聚类分为分裂法和凝聚法，分裂法由上向下把大的类别（cluster）分割，凝聚法由下向上对小的类别进行聚合，但是一般用的比较多的是由下向上的凝聚法。下面只介绍凝聚法，分裂法和凝聚法类似： 1、将样本集中的所有的样本点都当做一个独立的类簇； 2、计算两两类簇之间的距离（对应下面的 linkage 和 affinity 参数），找到距离最小的两个类簇 c1 和 c2； 3、合并...

2018-04-22 17:53:25 4383

转载 scikit-learn之聚类算法之Spectral clustering(谱聚类)

下面链接中的文章总结的太好了，就偷懒不自己写了。算法流程谱聚类原理总结sklearn中的参数scikit-learn学习谱聚类

2018-04-21 11:24:17 1630

原创 scikit-learn之聚类算法之Mean Shift

Mean Shift 算法通过更新质心的候选位置为所选定区域的偏移均值。然后，这些候选者在后处理阶段被过滤以消除近似重复，从而形成最终质心集合。算法流程1、在指定的区域内计算偏移均值(如下图的黄色的圈)； 2、移动该点到偏移均值点处；重复上述的过程(计算新的偏移均值，移动)，直到满足了最终的条件，退出；均值偏移向量其中，SkSkS_{k} 为上面图中的蓝...

2018-04-20 16:10:12 3362 2

原创 scikit-learn之聚类算法之Affinity Propagation

基本概念exemplar：聚类的中心点； s(i,k)：样本 i 和样本 k 之间的相似度，初始化时会有一个相似度矩阵； preference：偏好参数，相似度矩阵中横轴纵轴索引相同的点，如s(i,i)，表示数据点 i 作为聚类中心的程度。迭代开始前假设所有点成为聚类中心的能力相同，因此参考度一般设为相似度矩阵中所有值得最小值或者中位数，但是参考度越大则说明各数据点成为聚类中心的能力越强，...

2018-04-19 16:52:01 5413 1

原创 scikit-learn之聚类算法之K-Means

K-means算法步骤： 1、给定类别个数 k，在数据集 X 中选择 k 个点作为初始的图心；重复进行2、3步骤直到更新前后的图心之间的距离小于设定的阈值； 2、将数据集 X 中的点分配给离它最近的图心； 3、根据属于每个图心的所有点，重新计算新的图心；上面的算法涉及两个问题： 1、输入问题；将输入的文本、图像向量化，这属于特征选择问题； 2、初始图心选择问题：可以使用k-m...

2018-04-18 11:22:08 1170

原创结巴分词和哈工大ltp词性标注结合使用

根据自己的语料，发现使用结巴分词的粒度更适合，并且在使用外部词典进行分词时，哈工大的分词模块对于外部词典中的词会有不识别的现象。对于词性标注而言，经过调研，各种分词工具都专注于做分词，词性标注做的都不是太好，结合语料比较之后决定使用哈工大ltp的词性标注模块。代码如下：import jiebafrom pyltp import Postaggerimport osMODEL...

2018-04-04 11:29:08 3001 2

原创基于HMM的拼音转汉字程序

本文将讲述怎样利用HMM进行拼音转汉字。准备阶段 python 2.7；安装 python 工具包 ChineseTone，直接使用 pip install 安装；运行程序的过程中，可能还会用到其他工具包，自行使用 pip install 安装即可；下载拼音转汉字程序，https://github.com/letiantian/Pinyin2Hanzi；原理讲述 HMM涉及...

2018-04-02 15:44:36 4387

转载 ROUGE评价指标

1、Ubuntu安装ROUGE教程2、在Ubuntu下配置pyrouge3、学习笔记———《自动文档摘要评价方法---Edmundson和ROUGE》4、pyrouge0.1.3官方教程5、pyrouge在Ubuntu下的使用

2018-03-28 21:18:03 5315

涛涛不绝蕾蕾于冬

原创 spark学习

转载 jupyter相关技巧

原创 tensorflow中crf模块函数解析

原创 Find First and Last Position of Element in Sorted Array

原创中序遍历二叉树，将树结构转为双向链表结构

原创中序遍历二叉树，统计遍历的每个节点的层次

原创文本聚类demo

原创由word2vec、ELMo、OpenAI GPT、BERT 得到预训练词向量

原创如何解决sigmoid函数饱和区问题

原创 Quality-Estimation1 (翻译质量评价-复现 WMT2018 阿里论文结果)

原创 Quality-Estimation2 (翻译质量评价-在BERT模型后面加上Bi-LSTM进行fine-tuning)

原创 Quality-Estimation0 (翻译质量评价-使用 BERT 特征训练 QE 模型)

原创端到端任务中目标词表过大问题

原创 python 实现倒排索引

原创 scikit-learn之降维之LDA

原创 scikit-learn之分类算法

原创 scikit-learn之聚类性能度量

转载 scikit-learn之聚类算法之Birch

原创 scikit-learn之聚类算法之DBSCAN

原创 scikit-learn之聚类算法之Hierarchical clustering(层次聚类)

转载 scikit-learn之聚类算法之Spectral clustering(谱聚类)

原创 scikit-learn之聚类算法之Mean Shift

原创 scikit-learn之聚类算法之Affinity Propagation

原创 scikit-learn之聚类算法之K-Means

原创结巴分词和哈工大ltp词性标注结合使用

原创基于HMM的拼音转汉字程序

转载 ROUGE评价指标

空空如也

空空如也