自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 Python NLTK结合stanford NLP工具包进行文本处理

【NLP】干货!Python NLTK结合stanford NLP工具包进行文本处理阅读目录目录1 NLTK和StandfordNLP简介2 安装配置过程中注意事项3 StandfordNLP必要工具包下载4 StandfordNLP相关核心操作5 参考文献和知识扩展干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超

2017-11-28 09:06:15 3068 2

转载 朴素贝叶斯方法进行文本分类

1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)而它其实是由以下的联合概率公式推导出来:P(

2017-10-11 17:02:42 4191 1

转载 Bagging与随机森林算法原理小结

在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。    随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力

2017-09-28 09:54:50 519

转载 机器学习中的交叉验证

交叉验证(Cross validation),交叉验证用于防止模型过于复杂而引起的过拟合.有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize

2017-09-28 09:53:28 2878

转载 人工智能之机器学习算法体系汇总

目录(?)[+]1.人工智能之机器学习体系汇总2.人工智能相关趋势分析 2.1.人工智能再次登上历史舞台2.2.Python才是王道2.3.深度学习趋势大热2.4.中国更爱深度学习3.结语参加完2017CCAI,听完各位专家的演讲后受益匪浅。立志写“人工智能之机器学习”系列,此为开篇,主要梳理了机器学习算法体系,人工智能相关趋势,Python与机器学习,

2017-07-31 15:26:04 7986 1

转载 TF-IDF原理及使用

一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

2017-07-19 10:42:22 560

原创 DeepLearing4J环境配置与开源代码测试

DeepLearing4J是基于Java环境开发的,所以需提前配置好64位Java开发环境。    为了提高效率,在配置环境之前,对所需要的文件进行下载,主要包括Intellij IDEA:下载链接:http://www.jetbrains.com/idea/download/#section=windows,选择下载community版(免费)maven:下载链接:http:

2017-07-14 13:30:43 771

转载 maven学习:Eclipse中安装与配置

安装及配置Maven环境变量需要电脑中已经有Java环境 在控制台中输入:echo %JAVA_HOME%看是否能显示java home的路径信息;在控制条输入:java -version 看是否显示java的版本信息;下载官网:http://maven.apache.org/download.cgi下载编译过的版本 apache-maven-3.3.9-bin.zip,解压至

2017-07-12 14:39:58 4296

原创 批量获取Word文档的文件名信息

在日常工作中,当我们需要批量获取文档的文件名信息时,可以通过程序完成,减轻了人工的工作量。首先需要将所有文档放在同一个文件夹中,并得到该文件夹的存放的路径path,然后在利用程序获取信息。我们采用java语言,具体实现代码如下:import java.io.File;      /**   * @author yinxm   * @version 1.0 2005/

2017-07-03 15:37:15 3567

转载 准确率 召回率 F值

1、准确率与召回率(Precision & Recall)准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少

2017-06-26 16:29:53 662

原创 深度学习与自然语言处理

简介:1. Intro to NLP and Deep LearningNLP:Natural Language Processing (自然语言处理)的目的,就是让计算机能‘懂得’人类对它‘说’的话,然后去执行一些指定的任务。这些任务有什么呢?Easy: • Spell Checking--拼写检查 • Keyword Search--关键词提

2017-05-22 20:25:28 556

转载 范数与距离的关系

1 范数向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| 常用的向量的范数:L1范数:  ||x|| 为x向量各个元素绝对值之和。L2范数:  ||x||为x向量各个元素平方和的

2017-05-22 10:29:49 727

原创 XML的两种解析方法:DOM与SAX的比较分析

1 SAX解析    SAX:SimpleAPIfor XML。基于事件驱动的解析方法,逐行解析数据。               解析过程:开始标签->取值->结束标签->取值               为解决DOM的问题,出现了SAX。SAX ,事件驱动。当解析器发现元素开始、元素结束、文本、文档的开始或                     结束等时,发送事件,程序员编写响应

2017-05-21 19:28:26 339

转载 模型评估的基本方法

介绍       “所有模型都是坏的,但有些模型是有用的”。我们建立模型之后,接下来就要去评估模型,确定这个模型是否‘有用’。当你费尽全力去建立完模型后,你会发现仅仅就是一些单个的数值或单个的曲线去告诉你你的模型到底是否能够派上用场。       在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择,完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用

2017-04-19 20:51:44 17073

转载 数据预处理与特征选择

数据预处理和特征选择是数据挖掘与机器学习中关注的重要问题,坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程就是将原始数据转化为有用的特征,更好的表示预测模型处理的实际问题,提升对于未知数据的预测准确性。下图给出了特征工程包含的内容: 本文数据预处理与特征选择的代码均采用sklearn所提供的方法,并使用sklearn中的IRIS(

2017-04-19 08:54:03 2161

原创 程序员的写作观

写作,即熟悉又陌生的词语。熟悉是因为一看到它就联想到了一个数字——800,陌生是因为自从上了大学,就没有在静下心来通过文字的方式表达自己内心的情感。    在浏览网页时的一个巧合,阅读了一篇非技术博客。其中提到了一个情况:如果两个程序员其他方面都差不多,要从中选择一个,多数会选写作能力更好的那个。长期以来,作为一个计算机专业科班出生的人,很少考虑过要锻炼自己的写作能力,或者说根本没有意识到写作

2017-04-18 10:27:45 420

转载 位运算的理解

昨天写了篇有关集合的东西,中间用到了位运算,看起来还是有点纠结的,今天在这里详细解释一下。(欢迎转载,转载请注明出处,谢谢。)一、有关位运算的基础知识总结位运算包括:&(与)、|(或)、^(异或)、~(取反)、>>(右移)、环境预设:32位机下面,int占2个字节,有符号int a = 11;int b = 1000;(a)2 = (00000000 000

2017-04-17 20:57:06 803

原创 Java中的Array.aslist

Arrays.asList() 是将数组作为列表问题来源于:public class Test { public static void main(String[] args) { int[] a = {1,2,3,4}; List list = Arrays.asList(a); System.out.println(l

2017-04-10 20:17:48 294

原创 获取字符串中所有字符组合的子串

在面对文本处理时,我们经常需要获取一个字符串中所有字符不同组合而成的子串,这个问题是无法简单的通过substring()函数就能解决的。    为此,我们将该问题视为组合问题。求组合的问题,跟求排列的问题类似,很容易的想到递归的实现方式。    在求一个字符串中所有字符的组合的时候,针对一个字符,有两种情况,假设在长度为n的字符串中选择长度为m的组合字符串,           

2017-03-20 20:44:00 5333

原创 研究生的感想

研究生的生活已有大半年的时间,作为一个计算机专业的学生,动手能力在这半年的时间内不能说没有任何提高,但相比于本科时的状态,我并不觉得有好多少。可是何为研究生?研究生难道只是每天学学语言,做做项目?研究生首先应该考虑的是如何达到毕业条件,要考虑的是如何完成自己的毕业论。所谓事情往前赶,先毕业后就业。只有提前达到了毕业条件,后期才能更好的为实习、工作提供机会。合理的规划时间,现阶段的编程能力满足研究实

2017-03-12 19:37:01 1554

转载 阿里面试心得

分类: 工作—面试-笔试(12) 作者同类文章X上周发了一个阿里内推的帖子,没想到短时间内就收到了成百上千封简历。我仔仔细细地看了每一封简历,附带有Github地址的我也点进去仔细看了代码。最终我留下了30%的简历,而且这30%中只有10%的本科生。所有通过内推初步筛选的小伙伴会在8月30号收到邮件通知。筛选标准满足以下条件中的任何一

2017-03-12 19:29:07 2520

原创 Java中读入文档和写入文档

1.将文本中的文字按行读入程序进行处理: public List read(String dataPath) {List readlist = new ArrayList();try {File file = new File(dataPath);if (file.isFile() && file.exists()) {InputStreamReader isr = new

2017-03-12 15:50:30 461

原创 Github Guides

Contributing  to a projiect The Definition of Forking    You may want to contribute to someone else's project.    You would line to use someone's project as the starting point for your own.   

2017-03-08 09:15:17 411

转载 机器学习方法

在机器学习(Machine learning)领域,主要有三类不同的学习方法:监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning),监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。 非

2017-03-07 13:17:06 465

原创 Java中必须了解的常见类

1.Java中的包装类    相信各位小伙伴们对基本数据类型都非常熟悉,例如 int、float、double、boolean、char 等。基本数据类型是不具备对象的特性的,比如基本类型不能调用方法、功能简单,为了让基本数据类型也具备对象的特性, Java 为每个基本数据类型都提供了一个包装类,这样我们就可以像操作对象那样来操作基本数据类型。实例: public class He

2017-03-06 10:10:28 179

原创 StringBuilder与StringBuffer

当频繁操作字符串时,String类会额外产生很多临时变量,使用StringBuilder或StringBuffer就会避免这个问题,至于StringBuilder与StringBuffer,他们基本相似,不同之处在于,StringBuffer是线程安全的,而StringBuilder则没有实现线程安全功能,所以性能略高。因此一般情况,如果需要创建一个内容可变的字符串,应有限考虑使用StringBu

2017-02-24 21:16:02 228

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除