自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 资源 (3)
  • 收藏
  • 关注

原创 Windos环境下快速简便配置pyltp以及调用哈工大语言云

一、Windos环境下快速简便配置pyltp在windows环境下配置pyltp一直是一件很蛋疼的事,涉及到VS2008,cmake等等东西,还总TM蜜汁安装失败。。。最近发现了一位大神发布的资源,可以很简单的实现pyltp在windows环境下的安装,下面把资源共享给大家: pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp3...

2018-04-25 21:52:57 1947 3

原创 IDEA运行Stanford CoreNLP 出现error "java.lang.OutOfMemoryError: GC overhead limit exceeded"

前段时间在使用CoreNLP工作的时候出现了一个小问题,就是在运行这篇文章Stanford CoreNLP 3.6.0 使用入门 的中文例子的时候,IDEA报错error “java.lang.OutOfMemoryError: GC overhead limit exceeded”显示内存溢出,通过在网上找资料得知是虚拟机内存设置的不够大。但是按照网上的资料修改IDEA的安装目录中的配置文件之后...

2018-03-23 10:27:01 2900 2

原创 JSON格式

1. 简介JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。 可以理解为是一种跨语言的文本格式(即与具体语言无关),方便数据传输与协作,易于人阅读和编写,同时也易于机器解析和生成。2. 结构与规则JSON格式很简单,下面举一个例子来说明:{ "seed": "QQQ" "id": 1, "n_vali

2018-01-06 16:19:34 7544

原创 Sublime Text 3 配置java程序运行环境

在下载好jdk之后,首先要设置环境变量。Win10设置环境与之前的方式有些不同,这里写下来备忘。 1. 在系统的环境变量中,分为用户变量和系统变量,这里的操作都是在系统变量中进行的 2. 点击“新建”,变量名为“JAVA_HOME”,变量值为jdk所在的地址,我这里为 C:\Program Files\Java\jdk1.8.0_121 3. 再次点击“新建”,变量名为“CLASSPATH”,

2017-12-18 20:18:53 1890

原创 TensorBoard 出现 No scalar data was found

前段时间在学习使用Tensorboard的时候,发现无法显示,提示No scalar data was found。多次检查代码后发现无异常,日志文件也正常生成,这就很奇怪了。在这里,列出网上查到的几种解决方案:是否使用了谷歌浏览器?经实验,360浏览器是不能显示的,需要切换到Chrome浏览器日志文件目录是否包含中文字符?包含中文字符的路径是不能够被识别的,要转化为全英文路径将cmd的默认路

2017-12-10 14:49:13 2977 3

原创 Tensorflow1.4.0实现条件随机场(CRF)

关于TensorFlow实现CRF的方法我在网上找了很久也没有找到很合适的,目前最多关注的是自己写出来的CRF,比较复杂。在翻阅TensorFlow文档的时候偶然间发现TensorFlow1.4.0版本已经实现了CRF,并找到了官方例程,实现简单,在这里跟大家分享一下import numpy as npimport tensorflow as tf# 参数设置num_examples = 10

2017-11-30 15:11:25 4676 4

原创 TensorFlow实现用于图像分类的卷积神经网络(代码详细注释)

这里我们采用cifar10作为我们的实验数据库。 首先下载TensorFlow Models库,以便使用其中提供的CIFAR-10数据的类。git clone https://github.com/tensorflow/models.gitcd models/tutorials/image/cifar10下面开始构建CNN网络import cifar10import cifar10_input

2017-11-22 22:10:59 24223 5

转载 tensorflow 中的reduction_indices

在tensorflow的使用中,经常会使用tf.reduce_mean,tf.reduce_sum等函数,在函数中,有一个reduction_indices参数,表示函数的处理维度,直接上图,一目了然: 需要注意的一点,在很多的时候,我们看到别人的代码中并没有reduction_indices这个参数,此时该参数取默认值None,将把input_tensor降到0维,也就是一个数。转载:http:

2017-11-20 19:02:34 593

原创 词法分析之Bi-LSTM-CRF框架

词法分析是NLP的一项重要的基础技术,包括分词、词性标注、实体识别等,其主要算法结构为基于Bi-LSTM-CRF算法体系,下面对Bi-LSTM-CRF算法体系进行介绍。引言首先抛开深层的技术原因,来从宏观上看一下为什么LSTM(Bi-LSTM)后接CRF效果会好。 首先引用一篇英文文献关于这个问题的介绍: For sequence labeling (or general structured

2017-11-17 14:55:38 27122

原创 AliNLP架构

AliNLP 自然语言技术平台阿里AliNLP系统架构图 1. 词法分析(分词、词性、实体): - 算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表 2. 句法分析(依存句法分析、成分句法分析): - 算法:Shift-reduce,graph-based,Bi-LSTM - 应用:资讯搜索、评价情感分析 3. 情感分析(情感对象、情感属性、情感属性关联): - 算法:情

2017-11-16 14:51:54 10751

原创 衡量文档相似性的一种方法-----词移距离 Word Mover's Distance

问题的提出假如现在有一个任务,是判断两段文本之间的相似性,那我们应该怎么做呢?一个很自然的想法是用word2vec对两段文本的词向量化,然后再利用欧氏距离或者余弦相似性进行求解。不过这种方法有着致命的缺陷,即无法从文档整体上来考虑相似性,仅仅是基于词,这就造成了很大的信息缺失问题,下面要介绍的这种方法可以从文档整体上来考虑两个文档之间的相似性,这种技术称为词移距离(WMD)。词移距离(WMD)究竟什

2017-11-12 16:24:18 10469 5

原创 条件随机场(CRF)

本文是结合李航《统计学习方法》以及互联网资料整理得出,感谢各位作者的贡献。 - 是判别模型 - 假设输出随机变量构成马尔科夫随机场 - 标注问题—>线性链条件随机场—>由输入序列对输出序列预测的判别模型—>对数线性模型概率无向图模型概率无向图模型又称马尔科夫随机场,是一个可以由无向图表示的联合概率分布模型定义图:由结点vv的集合VV和边ee的集合EE构成,G=(V,E)G=(V,E)概

2017-10-24 23:05:32 2043

原创 XGBoost原理

本文大量参考雪伦大佬的博客 以及wepon大佬的ppt,在此表示感谢!目标函数XGBoost目标函数的定义:L(ϕ)=∑il(y^i,yi)+∑kΩ(fk)whereΩ(f)=γT+12λ||w||2\mathcal{L}(\phi)=\sum_il(\hat y_i,y_i)+\sum_k\Omega(f_k)\\where\quad\Omega(f)=\gamma T+ \dfrac{1}{

2017-10-09 22:17:25 1992

转载 局部线性嵌入(LLE)

1、介绍本文参考:http://www.cnblogs.com/pinard/p/6266408.html(1)概述LLE属于流形学习(Manifold Learning)的一种,通常流形理解起来比较抽象,在LLE里,我们可以简单的将流形看做一个不闭合的曲面,类似于下图: 而我们的目的就是将其展开到低维,在上图也就是展开到二维,同时数据的结构特征要能够得到最大程度的保持,这个过程就像两个人将流行曲

2017-09-23 17:18:23 11692 3

原创 降维算法(LASSO、PCA、聚类分析、小波分析、线性判别分析、拉普拉斯特征映射、局部线性嵌入)

1、LASSOLASSO全称least absolute shrinkage and selection operator,本身是一种回归方法。与常规回归方法不同的是,LASSO可以对通过参数缩减对参数进行选择,从而达到降维的目的。说到LASSO,就不得不说岭回归,因为LASSO就是针对岭回归不能做参数选择的问题提出来的。关于岭回归的解释,可以参照我的另一篇文章预测数值型数据:回归(二),这里不再赘

2017-09-22 21:13:51 18226 1

原创 拉普拉斯特征映射(Laplacian Eigenmaps)

1、介绍拉普拉斯特征映射(Laplacian Eigenmaps)是一种不太常见的降维算法,它看问题的角度和常见的降维算法不太相同,是从局部的角度去构建数据之间的关系。也许这样讲有些抽象,具体来讲,拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构。 本文参考http://blog.csdn.net/xb

2017-09-22 21:11:18 48110 35

原创 线性判别分析LDA(Linear Discriminant Analysis)

1、简介大家熟知的PCA算法是一种无监督的降维算法,其在工作过程中没有将类别标签考虑进去。当我们想在对原始数据降维后的一些最佳特征(与类标签关系最密切的,即与yy相关),这个时候,基于Fisher准则的线性判别分析LDA就能派上用场了。注意,LDA是一种有监督的算法。本文参考“JerryLead”的文章线性判别分析(Linear Discriminant Analysis)(一)及线性判别分析(Li

2017-09-21 19:51:51 4747 2

原创 常见二叉树基础算法汇总

1、二叉树的深度class Solution {public: int TreeDepth(TreeNode* pRoot) { if(!pRoot){ return 0; } int a = 1+TreeDepth(pRoot->left); int b = 1+TreeDepth(pRoot

2017-09-18 09:38:53 1361

原创 边缘分布初探

最近在调研域自适应学习的时候,接触到了分布假设,即源域与目标域的边缘分布和条件分布均不同。条件分布由于用得比较多,大家应该比较熟知;而边缘分布用的比较少,在这里记录下边缘分布的定义,备忘。边缘分布的定义1、定义 1  设F(x,y)F(x,y)为二维随机变量 (X,Y)(X,Y) 的联合分布函数,F(x,y)=P{X≤x,Y≤y}F(x,y)=P\{X\leq x, Y\leq y\},分别称.........

2017-07-21 13:00:31 11632 2

原创 短时傅里叶变换在EEG信号特征提取中的应用(通俗版)

众所周知,傅里叶变换的快速算法FFT可以用来对信号的频域特征进行分析,然而,FFT仅能用于平稳信号的分析,对于非平稳信号,则需要采用短时傅里叶变换(STFT)进行分析。

2017-05-15 15:46:44 17181 23

原创 基于EEG信号的情绪分析数据库DEAP论文调研

DEAP数据库包含了对于40个实验,32位受试者的32导联脑电数据,情绪标签(Russell二维情绪空间)由受试者给出,可以用来测试情绪分类算法的有效性。以下调研针对的是2016-2017年采用DEAP数据库进行情感分类的论文。 序号 年份 题目 预处理 特征 模型 结果 简介 1 2017 Using Deep and Convoluti...

2017-05-15 14:39:55 20642 57

原创 神经网络中的激活函数(activation function)-Sigmoid, ReLu, TanHyperbolic(tanh), softmax, softplus

  不管是传统的神经网络模型还是时下热门的深度学习,我们都可以在其中看到激活函数的影子。所谓激活函数,就是在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。常见的激活函数包括Sigmoid、TanHyperbolic(tanh)、ReLu、 softplus以及softmax函数。这些函数有一个共同的特点那就是他们都是非线性的函数。那么我们为什么要在神经网络中引入非线性的激活函数呢?...

2017-03-08 22:06:34 48016 4

转载 GBDT要点简介

本文摘取网络上一篇文章的要点进行讲解,更多细节在:http://blog.csdn.net/w28971023/article/details/8240756一、什么是GBDT?  GBDT(Gradient Boosting Decision Tree) 是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来作为最终结果。它在被提出之初就和SVM一起被认为是泛化能力(generali

2016-11-28 10:21:20 887

原创 经验模式分解(EMD)——简介及Matlab工具箱安装

  最近在做脑电信号分析,在导师的建议下学习了一点经验模式分解(下面简称EMD)的皮毛,期间也是遇到了很多问题,在这里整理出来,一是为了自己备忘,二是为了能尽量帮到有需要的朋友。一、EMD简介  经验模态分解(Empirical Mode Decomposition,EMD)法是黄锷(N. E. Huang)在美国国家宇航局与其他人于1998年创造性地提出的一种新型自适应信号时频处理方...

2016-08-15 17:32:14 124786 162

原创 关于Python杂七杂八的小东西(搭建Pycharm+Anaconda、删除文档首行小程序、皮尔逊相关系数小程序)

好久没有回来更新博客了,良心难安啊!最近要做脑电信号的分析,由于导出的数据都是文本格式的,就下定决心放弃Matlab,用Python做分析,确实是挺好用的。下面就把我期间用到的杂七杂八的东西列出来,作为备忘和给需要的朋友的参考吧。一、搭建Pycharm+Anaconda  我之前用的是Anaconda自带的Spyder编译器,界面还是很友好的,与Matlab高度相似。我觉得最实用的功能就是可以看得到

2016-08-07 16:56:29 2293

原创 预测数值型数据:回归(二)

上次我们留了个两个问题没有仔细说明,一个是局部加权线性回归,另一个是岭回归。今天依次对这两种算法进行说明。一、局部加权线性回归  欠拟合这种问题是仅仅凭借一条直线来对数据点进行拟合的线性回归算法所无法避免的,而解决这种欠拟合问题的方法中,有一种最为简便,称之为局部加权线性回归。顾名思义,局部加权线性回归就是指给被预测点周围的数据点赋以不同的权重,让预测更加注重局部上的趋势而不是整体上的趋势,这样的操

2016-04-20 13:49:26 2785 2

原创 预测数值型数据:回归(一)

机器学习算法的基本任务就是预测,预测目标按照数据类型可以分为两类:一种是标称型数据(通常表现为类标签),另一种是连续型数据(例如房价或者销售量等等)。针对标称型数据的预测就是我们常说的分类,针对数值型数据的预测就是回归了。这里有一个特殊的算法需要注意,逻辑回归(logistic regression)是一种用来分类的算法,那为什么又叫“回归”呢?这是因为逻辑回归是通过拟合曲线来进行分类的。也就是说,

2016-04-19 16:47:38 5937

原创 Domain generalization 简介

一、综述  最近由于交流的需要,读了几篇关于Domain adaptation的文章,其中一种名叫Domain generalization的技术引起了我的注意,这种技术可以在target domain未知的情况下训练出分类器而且性能还相当不错,下面就对这种技术进行一下简单的介绍。二、迁移学习  提到Domain adaptation,就不得不提到迁移学习(transfer learning),按照

2016-04-11 11:02:18 9023 3

原创 最大间隔多超平面分类器(多线性SVM分类器)介绍及Matlab实现

一、最大间隔多超平面分类器介绍最近在做论文复现的工作,论文的名称是“Disentangling Disease Heterogeneity with Max-Margin Multiple Hyperplane Classifier”,其目的是利用最大间隔多超平面分类器对疾病的异质性进行研究。所谓的最大间隔多超平面分类器就是多线性SVM分类器的另一种称呼。而多线性SVM也就是用多个线性SVM的组合来

2016-03-30 10:30:24 5371

原创 对反向传播算法(Back-Propagation)的推导与一点理解

最近在对卷积神经网络(CNN)进行学习的过程中,发现自己之前对反向传播算法的理解不够透彻,所以今天专门写篇博客记录一下反向传播算法的推导过程,算是一份备忘录吧,有需要的朋友也可以看一下这篇文章,写的挺不错的:http://www.cnblogs.com/lancelod/p/4164231.html,本文也大量参考了这篇文章。本文在推导过程中忽略了偏置的存在,这样做是为了更简单明晰的阐述BP算法的

2016-03-14 13:35:18 21125 1

原创 多示例学习 multiple instance learning (MIL)

最近看了几篇关于多示例学习的文章,虽然都是医学方面的,但是还是对我很有启发。另外,多示例学习近几年已经逐渐被用于基于机器学习框架的组织病理学图像癌症检测等方面,是计算机辅助诊断这一学科中一种新崛起的方法,下面就按照我在论文和网上学到的知识对多示例学习进行一下简单的介绍。        在介绍多示例学习之前,首先要了解两个概念:包(bags)和示例(instance)。包是由多个示例组成的,举个

2016-03-05 18:34:04 16835 6

原创 MICCAI 2015 partI 论文简单总结

最近有一些调研的任务,就把MICCAI 2015 partI 的88篇论文简单过了一下,总结成了一个表格,方便自己以及有需要的朋友查阅。    顺便介绍一下MICCAI这个会议,它在计算机辅助诊断领域即计算机与医学结合领域的地位无人能及啊,有超过CVPR在机器学习领域的势头,论文的质量很高,很值得一读。序号标题发病部位/疾病 诊疗方法深度学习(1有,

2016-03-01 18:56:44 4913 2

原创 医学图像分析的新机遇

好久没回来博客了,博客上似乎都落了薄薄的一层灰。。。最近有一些想法可惜一直没什么空整理出来,今天就先写一点出来,防止最后忘记了        今天加拿大西安大略大学的 Li Shuo 教授来我们实验室交流,主题是 New Opportunities in Medical Image Analysis。在报告中,Li 教授提到了一些十分新颖的图像分析方向,我将其精髓整理下来,希望对一些从事图像处

2015-12-21 17:48:11 2214 2

原创 ROC(Receiver Operating Characteristic)曲线简介

最近在看一些医学和机器学习结合的论文,这些论文里面评价分类器的分类性能最常用的指标之一就是ROC曲线。同时我也注意到在一些涉及到实际应用的场景中,ROC曲线出现的频率也很高。鉴于以上原因,接下来我就对ROC曲线进行一下简单的介绍。         首先我们先考虑一下平时我们常用的度量分类模型分类能力的标准。现在称霸ML界的标准:分类精度(accuracy)想必大家都不陌生,但是对于一些实际

2015-12-07 19:28:13 15890

原创 多线性主成分分析(MPCA)简介

因为图片和字母较多,直接打上来不方便,就转成PDF再截图贴上来,希望能好看一点

2015-11-06 16:20:05 7733 12

转载 简单易学的机器学习算法——极限学习机(ELM)

转自http://blog.csdn.net/google19890102/article/details/18222103一、极限学习机的概念    极限学习机(Extreme Learning Machine) ELM,是由黄广斌提出来的求解单隐层神经网络的算法。    ELM最大的特点是对于传统的神经网络,尤其是单隐层前馈神经网络(SLFNs),在保证学习精度

2015-11-03 09:31:47 3298 2

原创 小波变换入门知识总结

本文是根据一位前辈上传到百度文库的《小波变换-完美通俗解读》总结而成,考虑到在百度上下载需要下载券,现在我将我下载好的原始文档放在了http://download.csdn.net/detail/qrlhl/9231319这里,有需要的朋友可以自行下载,不要积分的哦~~下面开始正文~~由于最近本人所在的实验室要在转型做医疗,需要看一些和医学有关的paper。读到这一篇《Seizure

2015-11-01 15:20:38 5728 2

原创 终身机器学习(Lifelong Machine Learning)综述

大概有十几天了没有回来更新博客了吧,这期间遇到了大大小小各种事情,最悲伤的事应该是跟我关系最好的一个哥们的父亲去世了,被酒驾的人撞了,希望叔叔在天国安好!再次告诫各位开车一定不能喝酒,不只是对自己负责,也是对他人生命的尊重,在这里谢过大家了!下面说一说我这些天积累的一点东西,是关于终身机器学习(Lifelong Machine Learning)的一些知识。所谓终身机器学习,就是这个模

2015-10-23 17:34:57 19102 41

原创 迁移学习(transfer learning)、多任务学习(multi-task learning)、深度学习(deep learning)概念摘抄

本文在写作过程中参考了诸多前辈的博客、论文、笔记等。由于人数太多,在此不一一列出,若有侵权,敬请告知,方便我进行删改,谢谢!!!迁移学习(Transfer Learning)迁移学习出现的背景如下:在一些新兴领域很难得到我们需要的大量的训练数据,另外,传统的机器学习需要对每个领域都标定大量训练数据,这将会耗费大量的人力与物力。而迁移学习(Transfer Learning)的目标是

2015-10-11 14:36:06 14429 1

原创 机器学习实战-KNN算法实现及遇到的问题总结

最近在看《机器学习实战》这本书,内容充实,重视实践,很不错,也很适合机器学习的入门。下面贴上用python编写的KNN算法代码,放在博客里安全啊~~我的电脑随时都会崩溃的....from numpy import *import operatorfrom os import listdirdef classify0(inx,dataset,labels,k): datasets

2015-10-10 16:26:16 3427

pyltp 3.6 wheel 文件

pyltp 3.6 wheel 文件,亲测可在win10以及win7环境安装成功

2018-04-25

matlab时频工具箱

2017-03-27

IBM Watson Health & Apple researchKit

本人自己做的PPT,内容主要是现在IBM搞得将健康云计算平台Watson Health 和苹果公司的ResearchKit APP开发框架简介,欢迎大家与我进行交流

2015-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除