自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

极客梦的专栏

每天做好自己的事,就是自己的巅峰时刻.

  • 博客(30)
  • 资源 (16)
  • 收藏
  • 关注

原创 centos7 Nvidia P40 安装GPU运行环境

centos7 Nvidia P40 安装GPU运行环境文章描述安装环境显卡驱动安装安装系统编译环境查看linux系统版本对应gcc和centos内核版本验证系统是否安装正确的头文件和开发包禁用nouveau安装驱动命令检验测试查看驱动版本号的命令安装坑安装cuda运行cuda查看cuda版本号添加环境变量,否则后面运行tensorflow报链接库找不到异常验证cuda安装正确如果cuda安装版本...

2020-03-26 16:49:45 4179 4

原创 ubuntu16.04页面崩溃 总结

ubutun 16.04 页面崩溃各种方式都尝试了,还是不能解决最终通过重装解决,一些经验总结一下各种方式都尝试了,还是不能解决本人,NLP领域小学校,最近调试一个 gcc报错,以为gcc出问题,于是重装一下gcc,卸载过程中,凡是和gcc有依赖的包都卸载了,就包括Nvidia 驱动。最终通过重装解决,一些经验总结一下我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Ma...

2019-04-23 19:02:24 641

原创 主题模型在信息提取中体会

最近在探索热点数据摘要生成,应用除seq2seq其他的方法,把一些经验记录一下。总体来说提起的信息不全,流畅度也不好,但可以实现语义表示和语义匹配信息,极力推荐百度开源的Familia。也有其他的开源工具例如lightLDA,笔者没有尝试。文档的主题分布可以用来做优质新闻及劣质新闻的分类,根据主题分布来确认文章的熵值,进一步确定文章的丰富程度。有了文档的稀疏表示可以实现文本的聚类。根据simhas...

2019-03-28 19:08:38 318

转载 史上最全 Python 面向对象编程_转发

史上最全 Python 面向对象编程转自:浪子燕青http://www.langzi.fun/Python面向对象编程.html面向对象编程和函数式编程(面向过程编程)都是程序设计的方法,不过稍有区别。面向过程编程:导入各种外部库设计各种全局变量写一个函数完成某个功能写一个函数完成某个功能写一个函数完成某个功能写一个函数完成某个功能写一个函数完成某...

2019-03-28 18:50:14 208

原创 开源分词系统pkuseg学习

最近优化NER识别过程中,需要分词边界信息,现有的开源分词系统HANLP没有垂直领域词典的支持,效果差强人意。赶上pku开源了pkuseg,利用一些时间学习一下,记录一下个人一点见解。github地址不得不说pku对于开发者非常友好,包括训练、场景模型切换(msra/新闻领域、ctb8/混合领域、weibo/网页领域)、硬编码词典加载、模型支持对文件的处理、支持python多进程处理、提供预训...

2019-01-23 15:20:56 1824

原创 分词难句汇总

分词难句汇总,用于评测向海南方向前进四川人用普通话与川普通电话欢新老师生前来就餐’沿海南方向前进黑天鹅和灰犀牛是两个突发事件统计局局长宁吉喆南京市长江大桥...

2019-01-23 14:37:37 531

转载 随机森林

引入Bagging算法中,通过bootstrapping得到不一样的数据,通过这些数据送到一个基本算法之后,得到不同的g,最后对这些g取平均得到G;决策树算法中,通过递归方式建立子树,最终得到一棵完整的树。 这两种算法都有其鲜明的特点,决策树对于不同的数据相对会敏感一些,即其算法的variance很大,而Bagging的特点是通过投票和平均的方式来降低variance的效果。如果将这两种方法结合

2017-05-22 11:02:35 466

原创 隐马尔科夫模型、三个基本问题、三个训练算法

参考一篇“机器学习研究会”的文章与宗庆后的《统计自然语言模型》,督促自己回顾一下HMM模型知识为面试做准备。这次学习会讲了隐马尔科夫链,这是一个特别常见的模型,在自然语言处理中的应用也非常多。常见的应用比如*分词,词性标注,命名实体识别等问题序列标注问题均可使用隐马尔科夫模型*.下面,我根据自己的理解举例进行讲解一下HMM的基本模型以及三个基本问题,希望对大家理解有帮助~ 隐马尔科夫模型定义隐马

2017-05-18 11:15:28 18059

转载 数据开发常用的几种数据预处理和数据整理方法

原创 2017-04-27 Kai Wähner 翻译|谢旭 审校|张卫滨 本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。 要点 ● 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。

2017-05-16 20:58:49 34630

原创 机器学习过拟合

参照台大机器学习教程 (https://mp.weixin.qq.com/s/vus2mp2RhCL0kPamXVKnAg) - 过拟合的概念:过拟合就是训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象!下图给出例子: 我们将上图第三个模型解释为出现了过拟合现象,过度的拟合了训练数据,而没有考虑到泛化能力。在训练集上的准确率和在开发集上的准确率画在一个图上如下:

2017-05-16 19:36:37 548

转载 假设检验的基本原理和T检验

转载lietal AlgorithmDog AlgorithmDog,督促自己系统学习假设检验原理: T检验介绍: T检验导出 T检验类型 T 检验有多种类型,可以分为只有一组样本的单体检验和有两组样本的双体检验。单体检验用于检验样本的分布期望是否等于某个值。双体检验用于检验两组样本的分布期望是否相等,又分为配对双体检验和非配对双体检验。配对双体检验的两组样本数据是

2017-05-11 15:36:55 12554

原创 自然语言处理当中评价指标汇总

自然语言处理当中评价指标很多,好多专用的术语,本篇旨在对常用的评价指标汇总,督促自己系统学习,大家当做参考不足之处请指出并做交流。文本分类评测指标如下: P-R曲线的比较: 对于A和B曲线,如果需要比较,比较两个曲线的轮廓的面积.宏观和微观评价指标 ROC与AUC曲线 机器翻译当中的评价指标BLEU: 对机器翻译作人工评价时会考量到翻译的许多方面:如机器的充分性、忠实度和流

2017-05-11 15:03:26 11526

原创 极客梦的博客

作为自然语言处理中的小学生,喜欢各种新型深度学习框架,无论转载还是原创,旨在督促自己学习更多的知识。写的好与不好作为参考,大家一起交流上进。作为自己文档的“github”使用,积累,分享,开放。

2017-05-11 09:50:36 425

转载 文本自动摘要

最近人工智能随着AlphaGo战胜李世乭这一事件的高关注度,重新掀起了一波新的关注高潮,有的说人工智能将会如何超越人类,有的说将会威胁到人类的生存和发展,种种声音都在表明人工智能的又一个春天即将到来,但很多学者认为媒体的过度炒作,会引发民众对人工智能不切实际地期待,从而导致人工智能寒冬的又一次到来。Yann Lecun作为上一个人工智能寒冬时期还在坚持做冷门的神经网络研究的人,他对AI有一个非常理性

2017-05-11 09:42:55 33465

原创 win10系统崩溃经验汇总

重装系统之后一定要建立“系统还原点”,具体参照win10系统还原点建立平时,自己文档一定要备份,我用“有道云笔记”,可以轻松收藏微信文章等。win10系统自带“WinRe”工具,自动修复工具,当我们系统意外从启2-3次时候,自动进入修复界面,也可以开机按“F8”,包含还原点还原,系统重置,命令行修复,进入安全模式等。由于自启动修复系统,如果修复不成功的,陷入一个“从启”到“修复”的循环当中,跳

2017-05-10 18:51:58 4756

原创 数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络

主成分分析(PCA)算法描述: 输入样本集: 低维空间 具体过程: 注意:实践当中通常对样本矩阵进行奇异值分解代替协方差矩阵特征值分解. 维数:的选取规则: 自编码神经网络自动编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐含层h,产生编码来表示输入,一个编码器·函数h=f(x)和一个生成重构解码器r=g(h)。

2017-05-09 20:29:14 2393

转载 关于如何解释机器学习的一些方法

关于如何解释机器学习的一些方法 到现在你可能听说过种种奇闻轶事,比如机器学习算法通过利用大数据能够预测某位慈善家是否会捐款给基金会啦,预测一个在新生儿重症病房的婴儿是否会罹患败血症啦,或者预测一位消费者是否会点击一个广告啦,等等。甚至于,机器学习算法还能驾驶汽车,以及预测大选结果!… 呃,等等。它真的能吗?我相信它肯定可以,但是,这些高调的论断应该在数据工作者(无论这些数据是否是『大』数据)以及机

2017-05-09 19:08:46 834

原创 VC维简单介绍

用途:为了研究学习过程的一致收敛和推广性,统计学理论定义的有关函数集学习性能的一个重要指标. 描述:函数集的VC维就是这个函数集能够打散的最大样本数目。 注意事项:目前尚没有通用的任意函数集的VC维计算理论,但N维空间的线性分类器和线性实函数的VC维是N+1.

2017-05-08 10:19:30 724

原创 CRF,HMM,MEMM

CRF相对于HMM,主要优点CRF的条件随机性,只需要考虑当前出现的观察状态的特性,没有严格的要求,CRF具备一切最大熵隐马尔科夫模型的优点.MEMM使用的每一个状态的指数模型来计算给定前一个状态的条件概率,CRF用单个指数模型计算给定观察序列与整个标记列的条件概率.HMM是对联合概率进行建模,CRF和MEMM是对条件概率建模.CRF是全局归一化,二MEMM是局部归一化.模型图对比: HM

2017-05-08 09:33:34 546

转载 条件随机场学习

前戏:一起走进条件随机场作者:白宁超2016年8月2日13:59:46【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做 ,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的相关的相关,最后进行大

2017-05-06 16:19:37 1581

原创 基于隐马尔科夫模型文本相似度问题研究

文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,相似度数值大,说明文本相似度高;反之文件相似程度就低。文本相似度的精确计算问题是进行信息处理的关键。在如今信息技术飞速发展的互联网时代,文本相似度计算的应用比较广泛。数十亿的网页,海量的信息充实着人们的知识库,在给人们带来方便的同时也存在不少的问题。人们在享受这些资源的同时也不得不花大量的时间和精力来对其筛选和辨别,如果没有有效的组织

2017-05-06 16:14:24 2855 1

原创 周志华 机器学习 学习笔记 (1)

前言:机器学习算法都是基于样本数据独立同分布的假设。(王珏教授)第一部分(1-3章节介绍机器学习的基本知识),第二部分(4-10章介绍一些经典的算法),第三部分(11-16章介绍一些进阶知识),除去前三章之外,各部分相互独立,根据需要自行阅读。绪论 在计算机系统中,经验是以数据的形式存在,因此,机器学习所研究的内容是关于在计算机上从数据中产生“模型”的算法。计算机科学是研究关于算法的学问,那么

2016-07-08 10:28:02 2229

原创 windows10 训练word2vec 中文语料

windows10 环境训练word2vec中文语料 参考这篇文章,但有自己体会概述 本人是NLP中的菜鸟,喜欢这个领域,自己论文打算做这方面,训练word2vec是每一项NLP工作的基础内容。形成词向量直接用于神经网络的输入层,也可以作为辅助特征扩展现有模型,提高识别效果。先了解一下word2vec,是google在2013年提出的开源项目,是一个Deep Learning模型,它将ter

2016-03-03 16:01:02 8334 8

转载 数据结构(与算法)可视化

【数据结构(与算法)可视化】《Data Structure Visualizations》http://t.cn/hgLu28

2015-09-13 09:54:28 918

转载 dynamic_cast static_cast reinterpert_cast

点击打开链接

2012-11-25 14:22:10 613

转载 #ifdef #ifndef #endif #define #if #else

点击打开链接

2012-10-16 18:24:29 552

转载 关于qmake以及.pro文件的详细介绍

qmake概念介绍qmakeqmake是用来为不同的平台的开发项目创建makefile的Trolltech开发一个易于使用的工具。qmake简化了makefile的生成,所以为了创建一个makefile只需要一个只有几行信息的文件。qmake可以供任何一个软件项目使用,而不用管它是不是用Qt写的,尽管它包含了为支持Qt开发所拥有的额外的特征。qmake基于一个项目文件这样的信息来生成m

2012-09-17 20:42:05 2086

转载 VS2010中C++项目文件的用处小结(有转载的也有自己写的)

ipch文件夹和.sdf文件是什么?在使用Visual Studio 2010开发C++程序的时候,会发现有一些奇怪的文件被创建出来,比如一个叫ipch的文件夹,和一个与工程同名的.sdf文件,而且ipch下面的文件和.sdf文件都很大,至少有10M,大项目可能超过100M,那这些文件是干什么用的呢?这些文件是Visual Studio用来保存预编译的头文件和Intellise

2012-09-15 13:14:27 1421

翻译 bjsxt 正则表达式 java视频小结

1.[a-z]{3}3个a-z的字符2.[a-z]{m,n}最少m次最多n次3.//d{3}三个数字4.[0-2][3-9]0到2的数字,3到9的数字5.[abc]是指的是abc中的一个字符6.[^abc]去出了abc的一个字符7.[A-Za-z]去大写A-Z或者是小写的a-z8.[A-Z]|[a-z]大写A-Z或者是小写的a-z9.[a-z[A-Z]]大写A-Z或

2012-09-14 10:54:24 521

转载 C++转义字符小结(参考)

转义字符是C语言中表示字符的一种特殊形式。通常使用转义字符表示ASCII码字符集中不可打印的控制字符和特定功能的字符,如用于表示字符常量的单撇号( '),用于表示字符串常量的双撇号( ")和反斜杠( /)等。转义字符用反斜杠/后面跟一个字符或一个八进制或十六进制数表示。 转义字符 意义 ASCII码值(十进制) /a 响铃(BEL) 007 /b 退格(BS) 008 /f 换页(

2012-09-14 10:48:12 555

基于隐马尔科夫模型文本相似度研究

2017-05-06

PCA模型理论和实践

PCA模型理论和实践,结合教材用书和文献简单总结,以及从线性空间角度理解PCA模型

2015-09-25

EF最新教程

EF最新英文教程,供大家参考。值得学习。从别处转载

2015-09-13

C# ASP 最新版本教程

C#编程规范 mvc教程 ASP技术 C#高级编程汇总

2015-09-13

机器学习资料汇总

机器学习资料汇总,个人总结,中英文资料,持续更新

2015-09-13

机器学习 深度学习 matlab

机器学习 深度学习 matlab 一些资源汇总

2015-07-26

AutoCADNET向导

AutoCAD2014 VS2010 NET 开发向导

2014-10-31

Visual Hg 插件

在VS中, 设置VisualHG为当前使用的Source Control Plugin. ”Tools”->”Options”->”Source Control”->”Current Source Control plug-in”->”VisualHG”

2014-10-27

Goolge 快捷键

google 搜索 快捷键 有点模糊,自己加载的图片分享给大家,在搜索中跟简单

2012-12-27

SQL 2005 数据库 安全性

对于初学者,这个文档非常详细,解决了登录名、用户名、数据库权限、安全身份验证等对于安全性模糊的概念,一共31也。

2012-11-09

SQL Select 语句大全

SQL 语句 select 实例总结希望对大家有用

2012-10-18

shapefiles

QT 软件必备,shapefile资料。

2012-10-10

QGIS软件的应用介绍

QGIS的应用工具,简单易懂,结合帮助文档一起呀

2012-10-10

StarUML文档

PPT格式的,简便易懂,来自于别的网站呀

2012-10-10

Qgis官网编译过程

这是我学长分享给我,博客还有我的心得,大家可以看看,我经过了4天的编译才成功呀。

2012-09-08

java类库,最新版

最新版,学好java重要的是学会查类库,不要懒呀。

2012-08-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除