自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (5)
  • 收藏
  • 关注

原创 用Word2Vec建立你的私人购物助手

老实说,你在亚马逊上有注意到网站为你推荐的内容吗(Recommended for you部分)? 自从几年前我发现机器学习可以增强这部分内容以来,我就迷上了它。每次登录Amazon时,我都会密切关注该部分。Netflix、谷歌、亚马逊、Flipkart等公司花费数百万美元完善他们的推荐引擎是有原因的,因为这是一个强大的信息获取渠道并且提高了消费者的体验。让我用一个最近的例子来说明这种作用。我去了一个很受欢迎的网上市场购买一把躺椅,那里有各种各样的躺椅,我喜欢其中的大多数并点击了查看了一把人造革手动躺

2022-05-20 19:44:23 483

原创 利用Bert进行关系抽取

Bert模型是谷歌2018年10月底公布的,反响巨大,效果不错,在各大比赛上面出类拔萃,它的提出主要是针对word2vec等模型的不足,在之前的预训练模型(包括word2vec,ELMo等)都会生成词向量,这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT,GPT,BERT等都属于模型迁移,说白了BERT 模型是将预训练模型和下游任务模型结合在一起的,核心目的就是:是把下游具体NLP任务的工作逐渐移到预训练产生词向量上。...

2022-05-12 08:02:43 4902 1

原创 基于BERT模型的知识库问答(KBQA)系统

一、介绍本项目的主要目标是构建一个公共的知识库问答系统,从用户所提出的问题,对知识库进行检索,返回一个确定的答案,或者没有答案。项目代码、数据在这个地址中:链接: https://pan.baidu.com/s/1HvdVIvYIrvDaRBDl5p1oUw 提取码: a917本项目所使用的数据集是已经被预处理好的三元组 ,有两个文件 nlpcc-iccpol-2016.kbqa.training-data,nlpcc-iccpol-2016.kbqa.testing-data,文件内容样式:二

2022-05-09 22:20:24 3758 4

原创 搭建基于GMM-HMM的嵌入式命令词识别系统

一、准备首先明确这是一个基于GMM-HMM的嵌入式命令词识别系统,它和基于GMM-HMM的孤立词识别系统有很大不同,孤立词识别系统的很好的一个参考文章是这篇,下面将简要介绍两个模型的区别,图和说明都是为了表述而简化的概念性版本,和我们实际操作的细节会有一些区别。简要地说,孤立词的GMM-HMM模型是每个需要识别的词对应一个GMM-HMM,如图所示:假设我们需要识别的词包括“前进”、“后退”、“左转”、“右转”,那么我们就会建立四个模型,每个模型对应其中的一个词,模型训练的时候,每个词的音频就用来

2022-05-09 20:23:31 1113

原创 python+keras实现语音识别

市面上语音识别技术原理已经有很多很多了,然而很多程序员兄弟们想研究的时候却看的头大,一堆的什么转mfcc,然后获取音素啥的,对于非专业音频研究者或非科班出生的程序员来说,完全跟天书一样。最近在研究相关的实现,并且学习了keras和tensorflow等。用keras做了几个项目之后,开始着手研究语音识别的功能,在网上下载了一下语音的训练文件,语料和代码已上传到了:链接: https://pan.baidu.com/s/1dDL4kRydXXuwUFjRD53cYw 提取码: elkr目录如下,文件夹名

2022-05-09 14:36:38 1930 3

原创 利用LDA主题模型提取京东评论并做情感分析

网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物,产生了海量的用户行为数据,其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据,将有利于企业在电商平台上的持续发展,对这部分数据进行分析,依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。本章主要针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信息,了解用户的需求、意见、购买原因,以及产品的优缺点,

2022-05-09 11:03:53 17430 15

原创 TF-IDF算法提取文本关键词

TF-IDF是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF(Term Frequency)词频,某个词在文章中出现的次数或频率,如果某篇文章中的某个词出现多次,那这个词可能是比较重要的词,当然,停用词不包括在这里。IDF(inverse document frequency)逆文档频率,这是一个词语“权重”的度量,在词频的基础上,如果一个词在多篇文档中词频较低,也就表示这是一个比较少见的词,但在某一篇文章中却出现了很多次,则这个词IDF值越大,在这篇文章中的“权重”越大。所以

2022-05-09 09:41:28 4675 1

原创 朴素贝叶斯算法新闻文本分类

新闻数据有20个主题,有10万多篇文章,每篇文章对应不同的主题,要求是任意输入一篇新的文章,模型输出这篇文章属于哪个主题。一、 算法原理1. 朴素贝叶斯方法朴素贝叶斯方法涉及一些概率论知识,我们先来复习一下。联合概率:包含多个条件,并且所有的条件同时成立的概率,公式为:P(AB)=P(A)*P(B)条件概率:事件A在另一个事件B已经发生的前提下发生的概率,记作P(A|B),如果有多个条件,那记作:P(A1,A2|B)=P(A1|B)*P(A2|B)朴素贝叶斯一般公式:P(A|B)

2022-05-08 21:21:43 2197

原创 安装anaconda、NLTK和jieba

一、安装Anaconda1. Anaconda的官网下载地址下载:官网地址或者清华大学镜像站(更快)。2.Anaconda安装步骤2.1 进入官网,点击Download.2.2选择自己电脑合适的版本进行下载。2.3 按照自己的下载路径找到安装程序,并点击该安装程序进行安装2.4 这是欢迎界面,点击下一步,即Next2.5点击I Agree,即同意Anaconda的协议,才能使用Anaconda2.6这里!由于我之前安装了Python3.8,所以出现了.

2022-05-07 09:14:40 3034

原创 正向/逆向最大匹配法分词实现

最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。下面以“我们在野生动物园玩”为例详细说明一下正向与逆向最大匹配方法:1、正向最大匹配法:正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。第1次:“我们在野生动物

2022-04-23 20:19:03 3756 3

原创 用Pandas进行数据清洗

Pandas 是 Python 中很流行的类库,使用它可以进行数据科学计算和数据分析,并且可以联合其他数据科学计算工具一块儿使用,比如,SciPy,NumPy 和Matplotlib,建模工程师可以通过创建端到端的分析工作流来解决业务问题。虽然我们可以 Python 和数据分析做很多强大的事情,但是我们的分析结果的好坏依赖于数据的好坏。很多数据集存在数据缺失,或数据格式不统一(畸形数据),或错误数据的情况。不管是不完善的报表,还是技术处理数据的失当都会不可避免的引起“脏”数据。庆幸的是,Pandas 提供功

2022-04-16 07:29:09 6583

原创 使用爬虫爬取两种数据:结构化/非结构化文本

一、非结构化文本的爬取微博上有一篇关于“#学校里的男生有多温柔#”的话题,点进去一看感觉评论很真实,于是想把评论给爬下来看一看,并生成词云。刚开始思路是通过网页端微博爬取,通过开发者工具查看分析后,发现并没有看到相关评论。百度搜索之后得知web做了一些反爬虫策略,不太容易爬取(踩了相当时间的坑)。但是微博手机端相对容易些,于是转战手机端获取该评论链接,然后使用谷歌浏览器登录该链接,一阵分析后,发现评论是隐藏在这里的,于是获得了相应的url为“https://m.weibo.cn/comments/h

2022-04-10 08:56:10 4891 1

SQL看图教程(图片显示清晰易懂)

一本通俗易懂的SQL看图学习教程,很短时间学习SQL的用法

2010-04-06

sql基本语法教程(各种SQL的语法)

汇集了sql的基本语法,应用程序的形式,支持搜索,很容易找到自己需要的语法

2010-04-06

数据结构(C#语言版)

一本用C#语言写的数据结构教材,内容清晰,易于学习。

2010-03-29

21天学通C#语言教材

快速学习C#的教材,短时间掌握这种语言。

2010-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除