自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 资源 (7)
  • 收藏
  • 关注

原创 xlnet中文文本分类

  XLNetXLNetXLNet 模型由卡内基梅隆大学与 GoogleBrainGoogle BrainGoogleBrain 团队在 2019 年 6 月携手推出的 ,其在 20 项 NLPNLPNLP 任务中超过 BERTBERTBERT 模型,且在其中 18 项任务中拿到最优成绩,包括机器问答、自然语言推断、情感分析和文档排序等。同 BERTBERTBERT 一样,我这里就不讲原理了,网上...

2019-12-20 16:01:50 2261 4

原创 python正则表达式过滤非中英文和数字的字符串

import re sentence = "厉害了我的村!40亩地种了这些“植苗”,当年结果,村民富裕了" # 方法一 re.sub('[^\w\u4e00-\u9fff]+', '', sentence) # 方法二 re.sub('[^\u4e00-\u9fa5^a-z^A-Z^0-9]', '', sentence) ...

2019-07-18 16:48:16 11793 2

原创 深度学习(十二)-基于 Bert 的情感分析

  BERT(BidirectionalEncoderRepresentationsfromTransformers)BERT(BidirectionalEncoderRepresentations fromTransformers)BERT(BidirectionalEncoderRepresentationsfromTransformers) 是 GoogleGoogleGoogle 开发的一...

2019-05-28 18:44:04 11592 8

原创 深度学习(十一)-基于LSTM的情感分析

  很久时间没有更新博客了,这里我们一起回顾一下前面学习的深度学习的基本知识,然后进行一次实战分析。循环神经网络 (RNNRNNRNN) 目前是自然语言处理中应用最为火热的一种神经网络,当然前提是不算上 GoogleGoogleGoogle 新开源的 BERTBERTBERT ,BERTBERTBERT 相对于 RNNRNNRNN 准确率有很大提升,但是由于训练时间过长等原因,还没有大面积普及。...

2019-05-25 14:48:35 5562 7

原创 深度学习(十)-AI起名

  上文我们介绍了卷积神经网络极其变形 LSTMLSTMLSTM,GRUGRUGRU 的原理,我们来讲讲用法。循环神经网络主要使用在自然语言处理方面,自然语言处理主要使用的是语言信息,由字和词组成,所以我们一般需要将这些字或者词转为向量,这就不得不提到一个概念:词嵌入,即词向量。词嵌入  在最初做自然语言处理时,采用 one−hotone-hotone−hot 编码来表示一个词,例如一个语料:...

2019-04-19 18:18:24 7256 4

原创 深度学习(九)-循环神经网络

  前面我们学习了全连接神经网络、卷积神经网络,这些网络的传递都是单向,元素之间相互独立,输入与输出也是毫无关系,这样虽然让神经网络容易学习,但是一定程度上却弱化了神经网络的能力。而我们这一章要介绍的循环神经网络,就是在一些方面对前馈神经网络的一种补充。  在实际生活中,很多元素都是相互联系的,比如一个人说了:我喜欢《黎明前的黑暗》,请帮我放一下___ ,大家都知道是这里应该补充《黎明前的黑暗》...

2019-04-18 19:28:29 932

原创 深度学习(八)-CIFAR-10分类

  CIFAR−10CIFAR-10CIFAR−10 数据集也是神经网络中一个非常经典的数据集,该数据集共有 60000 张彩色图像,这些图像是32*32,分为10个类 [′airplane′,′automobile′,′bird′,′cat′,′deer′,′dog′,′frog′,′horse′,′ship′,′truck′]['airplane', &am...

2019-04-13 14:05:01 14866 6

原创 深度学习(七)-卷积神经网络实现 MNIST 手写数字分类

  在深度学习(五)-全连接神经网络实现 MNISTMNISTMNIST 手写数字分类中,我是用全连接神经网络实现了 MINSTMINSTMINST 手写数字分类,这里我就不再介绍 MINSTMINSTMINST 数据集和数据的处理了,我们直接进入主题,创建卷积神经网络。网络模型创建  我们可以先创建一个最简单的三层神经网络,两层卷积层,两层池化层,一层全连接层: class simpleC...

2019-04-13 13:16:43 3719 2

原创 深度学习(六)-卷积神经网络

  与全连接神经网络一样,卷积神经网络也是由神经元构成的,但是网络的层结构却不相同,在深度学习(四)-前馈神经网络中我们了解到,全连接神经网络由一系列隐藏层构成,每个隐藏层又是由很多个神经元构成,其中每个神经元都和前一层的所有神经元相关联,但是每一层中的神经元是相互独立的。而在卷积神经网络中的每一个神经元都只和下一层中某个局部窗口内的神经元相连,构成一个局部连接网络,组成卷积层,如下图所示: ...

2019-04-13 08:30:11 1075

原创 深度学习(五)-全连接神经网络实现 MNIST 手写数字分类

  前面我们讲了这么多理论知识,下面我们来简单的来一个实战学习,利用全连接神经网络实现 MNIST 手写数字分类。MNIST数据集是一个手写体数据集,包括 0~9 这 10 个数字,图片大小是 28 x 28 的灰度图。数据集由四部分组成,分别是: 其内容为: 数据处理  在开始训练网络之前,良好的数据预处理和参数初始化可以使训练效率更高,效果更优 。如果有了解机器学...

2019-04-12 14:28:21 11891 3

原创 深度学习(四)-前馈神经网络

  全连接神经网络是一种最基本的神经网络结构,上一章我们介绍过,它是属于前馈网络中的一种。在前馈神经网络中,各神经元分别属于不同的层。每一层的神经元可以接收前一层神经元的信号,并产生信号输出到下一层。第 0 层叫输入层,最后一层叫输出层,其它中间层叫做隐藏层,表现形式如下图所示。 反向传播算法...

2019-04-11 19:31:28 15229

原创 深度学习(三)-神经网络基础

  前面我们利用pytorch实现了基于机器学习中最基本的的线性回归和逻辑回归,下面我们就正式开始接触神经网络,神经网络一般可以看作是一个非线性模型,其基本组成单位为具有非线性激活函数的神经元,通过大量神经元之间的连接,使得神经网络成为一种高度非线性的模型。神经元之间的连接权重就是需要学习的参数,可以通过梯度下降方法来进行学习。神经元  神经元是构成神经网络的基本单元,本质是通过上一层的输入与...

2019-04-11 13:59:30 1079 1

原创 深度学习(二)-逻辑回归

  逻辑回归很多人并不陌生,我再前面机器学习的逻辑回归:LR这一章节中也有过简单的描述。  Logistic 回归不仅可以解决二分类问题,也可以解决多分类问题,但是二分类问题最为常见同时也具有良好的解释性 。 对于二分类问题, Logistic 回归的目标是希望找到一个区分度足够好的决策边界,能够将两类很好地分开 。而在前面我也讲过,要找到某函数的最大值,最好的方法是沿着该函数的梯度方向寻找,所...

2019-04-10 15:43:47 579 2

原创 深度学习(一)-线性回归

  随着人工智能的发展,深度学习变得越来越炙手可热,所以博主也来凑一下热闹,抽空开始进行深度学习,下面是我自己 的一些学习经验分享,如果有错,请各位看官勿喷,帮忙指出一下,不胜感激。  现在最热的深度学习框架为 TensorFlowTensorFlowTensorFlow、PytorchPytorchPytorch 等等,下面我主要写的对象就为PytorchPytorchPytorch,Pyto...

2019-04-10 14:31:11 1300 2

原创 基于spark的电影推荐

  在《推荐系统》中,详细的介绍了常用的推荐系统,大家基本上对推荐系统有了一个认识。这里我就简单的讲述一下基于spark的推荐系统。  spark有着处理速度快,容易使用,而且可以和很多数据库融合的优势,所以在大数据分析中经常使用。具体的介绍我就不在这里赘述了,有兴趣的童鞋可以去看看《Spark快速大数据分析》,这本书详细的介绍了spark的基础知识和使用方法,是我学过spark中讲解最清晰和最...

2019-03-13 10:08:15 5231 1

原创 集成算法:随机森林

  在集成算法这一章中,我们大概的阐述了一下常用的两种集成算法,这里我们就具体研究一下 baggingbaggingbagging 算法中最常用的模型:随机森林。  由前面我们了解:baggingbaggingbagging + 决策树 = 随机森林,所以在学习随机森林之前,我们必须了解决策树相关的知识,这些我在ID3,C4.5,CART中已经比较详细的讲过一遍,这里就不在赘述了,有不懂的童鞋可...

2019-02-27 16:30:58 734

原创 集成算法

RF通过Bagging的方式将许多个CART组合在一起,不考虑计算代价,通常树越多越好。RF中使用CART没有经过剪枝操作,一般会有比较大的偏差(variance),结合Bagging的平均效果可以降低CART的偏差。在训练CART的时候,使用有放回的随机抽取样本(bootstraping)、随机的抽取样本的特征、甚至将样本特征通过映射矩阵P投影到随机的子空间等技术来增大g(t)的随机性、多样...

2019-02-27 14:54:54 432

原创 推荐系统实践(九)----推荐系统测评

  前面讲解了这么多推荐系统的算法,但是一个推荐系统做出来之后,我们并不知道其效果怎么样,这种时候,就需要对推荐系统进行测评,来告诉我们这个推荐的性能和效果怎么样。测评一般包括测评指标和测评维度。  测评指标  评测指标可用于评价推荐系统各方面的性能,这些指标有些可以定量计算,有些只能定性描述,有些可以通过离线实验计算,有些需要通过用户调查获得,还有些只能在线评测。一般情况下使用如下:1....

2019-02-20 18:30:11 832

原创 推荐系统实践(八)----评分预测

  目前为止都是在讨论 TopNTopNTopN 推荐,即给定一个用户,如何给他生成一个长度为 NNN 的推荐列表,使该推荐列表能够尽量满足用户的兴趣和需求。本书之所以如此重视 TopNTopNTopN 推荐,是因为它非常接近于满足实际系统的需求,实际系统绝大多数情况下就是给用户提供一个包括N个物品的个性化推荐列表。  但是,很多从事推荐系统研究的童鞋最早接触的却是评分预测问题,评分预测问题一直...

2019-02-20 17:11:16 1042

原创 推荐系统实践(七)----基于邻域的社会化推荐算法

  今年抖音非常火爆和流行,我们在刷抖音的时候,经常会发现给我们刷到自己微信或者是抖音好友喜欢的小视频,这里很多人都就会很好奇,抖音怎么知道这些人是我的好友,甚至知道我和好友的兴趣就一样呢,这就有了基于社交网络数据的推荐算法。ps:抖音的推荐是多种算法实现的,基于社交网络数据应该只是其中的一个分支。  社会化推荐之所以受到很多网站的重视,是缘于如下优点:    1. 好友推荐可以增加推荐的信任...

2019-02-15 17:45:30 1683 1

原创 推荐系统实践(五)----基于图的推荐算法

  基于图的模型(graph−basedmodelgraph-based modelgraph−basedmodel)是推荐系统中的重要内容。在研究基于图的模型之前,首先需要将用户行为数据表示成图的形式。这里我们将用户行为数据用二分图表示,例如用户数据是由一系列的二元组组成,其中每个元组 (u,i)(u,i)(u,i) 表示用户 uuu 对物品 iii 产生过行为。下图为 AAA, BBB, CC...

2019-01-26 09:50:40 2253 3

原创 推荐系统实践(四)----基于标签的推荐算法

  标签在我们日常生活中很常见,打标签作为一种重要的用户行为,蕴含了很多用户兴趣信息,因此深入研究和利用用户打标签的行为可以很好地指导我们改进个性化推荐系统的推荐质量。举个例子,下图是酷我音乐的标签,有了标签,用户可以快速找到自己感兴趣的歌,同时酷我可以通过用户经常使用的标签,更精确的为用户推荐感兴趣的歌曲。 1. SimpleTagBasedSimpleTagBasedSimple...

2019-01-25 14:21:46 16054 10

原创 推荐系统实践(三)----基于关联规则分析的推荐算法(Apriori)

  关联规则分析也是一种比较常见的推荐算法,主要是根据历史数据统计不同规则出现的关系,比如:X−>YX->YX−>Y,表示XXX事件发生后,YYY事件也会有一定概率发生。  关联规则分析最著名的就是“啤酒-尿布”的经典案例,沃尔玛的超市管理人员通过数据发现,很多买尿布的人大概率事件会去购买啤酒。这是因为在

2019-01-16 15:20:14 8290 10

原创 推荐系统实践(二)----基于物品的协同过滤算法(ItemCF)

  上一篇博客我简单讲了一下基于用户的协同过滤算法,这里我们一起来学习一下另一种:基于物品的协同过滤算法。基于物品的协同过滤算法是目前业界应用最多的算法,亚马逊、Netflix、Hulu、YouTube等很多平台都采用该算法作为其基础推荐算法。原理  基于物品的协同过滤算法给用户推荐那些和他们之前喜欢的物品相似的物品。但是它并不是利用物品的内容属性计算物品之间的相似度,而是通过分析用户的行...

2019-01-05 17:15:51 3094

原创 推荐系统实践(一)----基于用户的协同过滤算法(UserCF)

1. 推荐系统  随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情,这个时候就需要推荐系统。推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息。2. 基于用户的协同过滤算法  ...

2019-01-05 11:23:38 2335 5

原创 基于ElasticSearch的问答系统(KBQA)

  在上一篇博客中,我们已经大概了解了KBQA的概念,也大概知道KBQA的流程,但是针对上篇博客提出的问题,修改数据,如何更简单的做到而对问答系统的影响效果最小呢?这里我就换成另一种方式,直接使用ElasticSearch来替换TDB存放数据。下图是与上文实现一样效果的demo: 1. ElasticSearch  Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,...

2018-12-28 11:03:30 8351 18

原创 基于知识图谱的问答系统(KBQA)

  最近因为工作原因暂时停止机器学习方面知识的学习,研究了一段KBQA。,下面是一个简单的关于中小学生需要掌握的诗词的demo,各位看官有兴趣的可以瞅瞅,欢迎来信一起交流。1. 原理  KBQA简单讲就是将问题带入提前准备好的知识库寻求答案的一种基于知识库的问答系统。该问答系统可以解析输入的自然语言问句,主要运用REFO库的对象正则表达式匹配得到结果,然后利用对应的SPARQL查询语句,请求...

2018-12-27 12:00:26 82439 49

原创 决策树算法:CART

  我们前面讲了两种决策树算法ID3ID3ID3和C4.5C4.5C4.5,还有一种比较经典的决策树算法就是CARTCARTCART,也叫分类回归树算法,它是一种二分递归分割算法,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CARTCARTCART算法构成的是一个二叉树,因此它在每一步的决策时只能用是或者否,不管一个特征有多...

2018-10-19 12:05:41 371

原创 决策树算法:C4.5

  前面我们讲到了ID3ID3ID3算法,也知道了如何选择决策树分裂的属性,但是有人发现ID3ID3ID3算法不能对连续的数据进行处理,只能将连续的数据离散化处理,同时ID3ID3ID3算法并没有做剪枝处理,导致决策树可能会过于复杂导致过拟合。于是在这个基础上衍生出了C4.5C4.5C4.5算法。  C4.5C4.5C4.5针对ID3ID3ID3主要做出了以下几种优化:    1. 通过信息增...

2018-10-19 09:18:05 438

原创 支持向量机:SVM

  SVM 是一种监督式的机器学习算法,可用于分类或回归问题。它使用一种称为核函数的技术来变换数据,然后基于这种变换,算法找到预测可能的两种分类之间的最佳边界。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。1. 线性SVM  线性可分的二分类问题:上图中红色和蓝色分别表示不同...

2018-10-13 17:31:24 347

原创 逻辑回归:LR

  逻辑回归简单说就是将数据拟合到一个logisticlogisticlogistic函数中,从而能够完成对事件发生的概率进行预测。虽然名字叫做回归,但是其实质上却是一个分类问题,主要适用于二分类。  逻辑回归算法速度快,适合二分类问题,容易理解,可直接看到各特征的权重,而且很容易更新模型吸收新的数据,但是对数据和场景的适应能力有局限性,不如决策树算法适应性那么强。  注:这里我就不讲逻辑回归...

2018-10-08 17:15:59 373

原创 基于朴素贝叶斯的情感分析

  在上一张中我们简单的分析了一下朴素贝叶斯的原理和简单应用,我们提到了它主要使用在文本分析,邮件拦截,情感分析等等场景,这里我们就简单的做一个情感分析的处理。1. 数据搜集  这里的数据是我们从京东上爬的某种商品的好评和差评,这里就不详细讲解爬取的过程了。好评:差评:2. 数据处理  由上节我们知道,一个完整的文本不能直接拿来训练,所以在训练之前,我们需要将自己的语句分词,构建词...

2018-10-05 11:21:35 11902 15

原创 朴素贝叶斯:bayes

  朴素贝叶斯分类是一种常用的分类算法,他根据研究对象的某些特征,来推断出该研究对象属于该研究领域的哪个类别。1. 概述  要了解朴素贝叶斯分类,就需要先知道贝叶斯分类定理,这就离不开条件概率,下面概率论中经典的条件概率公式:P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X) = \frac{{P(X|Y)P(Y)}}{{P(X)}}P(Y∣X)=P(X)P(X∣Y)P(Y)​根据上面的...

2018-10-04 16:38:59 884

原创 K近邻算法:KNN

  K近邻 (kNN) 算法是一种基本分类与回归方法,通俗的理解为给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k 个实例的多数属于某个类,就把该输入实例分为这个类。经典描述  如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形。如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3...

2018-09-28 10:19:21 491

原创 python数据分析工具

扩展库 简介 numpy 提供数组支持,以及相应的高效的处理函数 scipy 提供矩阵支持,以及矩阵相关的数值计算模块 matplotlib 强大的数据可视化工具、做图库 pandas 强大、灵活的数据分析和探索工具 statsModels 统计建模和计量经济学 scikit-Learn 支持回归、分类、聚类等...

2018-09-04 11:56:21 222

原创 决策树算法:ID3

  决策树是最经常使用的数据挖掘算法,其核心是一个贪心算法,它采用自顶向下的递归方法构建决策树,下面是一个典型的决策树:   目前常用的决策树算法有ID3算法、改进的C4.5,C5.0算法和CART算法  ID3算法的核心是在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,使得在每一个非节点进行测试时,能获得关于被测试记录最大的类别信息。熵和信息增益   设S是训练样本集...

2018-09-01 11:31:18 24736 15

原创 聚类算法:K-Means

  K-Means聚类算法是一种基于距离的聚类算法,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则,最终的目标就是根据输入参数K,将数据对象分为K个簇。算法采用误差平方和准则函数作为聚类准则函数。   基本思想:     1、指定需要划分的簇的个数K值     2、随机选取K个初始聚类中心     3、计算各个数据到这K个初始聚类中心的距离,把数据...

2018-07-25 11:17:40 1066 1

原创 数据预处理

  数据预处理是数据挖掘过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的 目的。数据预处理一般包括以下几个步骤:数据清洗:清除数据噪声和与挖掘主题明显无关的数据数据集成:将来自多数据源中的相关数据组合到一起数据转换:将数据转换为易于进行数据挖掘的数据存储形式数据...

2018-07-24 14:45:41 847

原创 gperftools安装显示错误/src/gperfbase/linuxthreads.cc

平台系统:CentOS Linux release 7.4.1708Common/ThirdParty/gperftools-2.0/src/gperfbase/linuxthreads.cc:94: error: invalid conversion from ‘void (*)(int, siginfo_t*, void*)’ to ‘void (*)(int, siginfo*, v...

2018-03-29 10:15:40 645

原创 redis设置密码

redis.conf设置1、在redis.conf 找到下面这一行 # requirepass foobared 将注释符号去掉,将后面修改成自己的密码,如: requirepass 123456 2、执行配置文件,重新启动redis./redis-server ../redis.conf命令行设置在客户端命令行下,执行下面的命令,密码设置完成config set re...

2018-03-27 17:32:27 3180

Spark快速大数据分析

详细的介绍了spark的基础,适合初学spark的小白学习。高清文档,带目录,可粘贴复制。

2019-03-13

推荐系统实践

高清机器学习文档,可粘贴复制,详细介绍了各种不同的推荐算法,并有具体推导过程

2019-02-20

机器学习实战

高清机器学习文档,可粘贴复制,包括源代码与数据集,基于python2.0,可以直接执行。

2018-10-08

图书管理系统

可以初步进行图书新建,查询,删除,借阅等等功能的实现。

2013-05-05

组合框的组建

使用MFC制作的界面,可以简单的输出信息,支持选择,多重界面。

2013-04-16

精确求圆面积

使用VC6.0制作的界面,可以精确地求出圆的面积。

2013-04-16

精确显示时间的时钟

使用vc++制作的界面图形,可以初步的进行时间显示,可精确显示时分秒,年月日

2012-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除