自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 条件随机场

1 条件随机场概述;条件随机场CRF是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别、词性标注等标注场景。1.1 条件随机场场景假设有一系列照片,我们要去给打标签,在吃饭或是在跑步等等,一张照片上只有张着的嘴巴,他可能是在吃饭也可能是在唱歌,这时候单单依靠照片本身的信息,不足以准确的判断照片中的人的行为。但是如果把这些照片按照时间的顺序来排列起来,它的前一张照片是在吃饭,那有极大的可能这张嘴也是在吃饭。将每一个行为都看成一个随机场,如果找到当前行为前后的行为,有助于当前时刻行为分类,这就是条

2020-10-12 15:30:37 1668

原创 信息提取

信息提取信息抽取的定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取。信息抽取主要包含以下几个关键内容。指代消解;指代消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是

2020-10-12 15:30:21 1542

原创 2020-10-09

基于注意力机制的文本生成:Image-to-text=-with-Visual-Attention训练过程:ai_challenageai_challenage的训练集有3w张,我只在前30000张训练图像上训练了这个模型。最后一层的特征提取VGG需要大约15GB的内存。训练过程中数据集被分成大小为64的批。一个epoch大约需要100秒。我训练了它大约20个周期,一次约一小时左右训练完成。训练结果:coco数据集:ai_challenage数据集下周工作计划:1.加入评价指标2

2020-10-10 08:58:26 192

原创 一些python代码

python读取json文件import jsonpath=r'path'with open(path,"r",encoding='utf-8') as f: json_data = json.load(fp) print("数据类型",type(json_data)) print('json数据:',json_data)))

2020-09-14 14:54:35 107

原创 图像标注:图像文本语义对齐

1)没有标签的图像语义如何提取2)端到端的对齐过程如何构建,具体损失函数是什么3)attention如何加入,双端反馈如何建立联系,attention训练过程的损失函数是什么1: Karpathy A, Fei-Fei L. Deep Visual-Semantic Alignments for Generating Image Descriptions.IEEE Trans Pattern Anal Mach Intell. 2017 Apr;39(4):664-676.面向图像自动语句标注的

2020-07-13 14:33:51 5261

原创 Sinhash文档排重

Simhash理论simhash是一种能计算文档相似度的hash算法。通过simhash能将一篇文章映射成64bit,再比较两篇文章的64bit的海明距离,就能知道文章的相似程序。若两篇文章的海明距离<=3,可认为这两篇文章很相近,可认为它们是重复的文章。Simhash的算法简单的来说就是,从海量文本中快速搜索和已知simhash相差小于k位的simhash集合,这里每个文本都可以用一个simhash值来代表,一个simhash有64bit,相似的文本,64bit也相似,论文中k的经验值为3。该

2020-06-19 09:26:35 251

原创 论文阅读-面向图像自动语句标注的注意力反馈模型

文献:吕凡,胡伏原,张艳宁,夏振平,盛胜利.面向图像自动语句标注的注意力反馈模型[J].计算机辅助设计与图形学学报,2019,31(07):1122-1129.主要工作在传统注意力基础上引入反馈机制,利用关注信息的图像特征指导文本生成,借助文本中的关注信息进一步修正图像中的关注区域,解决了传统注意力机制的注意分散问题。技术两种图像语义提取常用技术与ATTENTION结合1.基于全图:...

2020-06-19 09:23:43 172

原创 Practice3:分词

作业1:Hanlp安装hanlp工具安装pyhanlp包命令行:pip install pyhanlpfrom pyhanlp import *在python中调用pyhanlp工具会自动安装hanlp.jar包并配置环境测试语句:“今天开心了吗?”‘from pyhanlp import *print(HanLP.segment("今天开心了吗?"))安装成功。2....

2020-04-08 14:34:13 196

原创 【lecuure1】深度学习和自然语言处理课

1.语言层次输入:语音输入:音位分析单词结构分析句法分析语义理解一些还涉及到篇章分析

2020-03-24 22:47:51 105

原创 文本相似度计算:Jaccard系数,余弦相似度等

基础知识文本相似度计算是把文本投影到向量空间,文本的相似度是把文本投影到向量空间,用向量相似度来表示语义相似度,通过比较计算向量的空间距离来比较文本的相似度。Jaccard系数Jaccard系数是计算两个集合重合度的常用方法:两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的Jaccard系数,用符号 J(A,B) 表示。Jaccard系数是衡量两个集合相似度的一种指标,...

2020-03-24 22:41:58 7536

原创 P2-计算编辑距离

编辑距离定义:给定两个字符串,两者的编辑距离是将S1转化成S2的最小操作数。如:cat和dog的编辑距离是3.编辑距离算法:实验过程初始化一个二维数组,设置str1长度为行长度,str2长度为列长度。(伪代码第一行)matrix = [[0 for i in range(len(str2) + 1)] for j in range(len(str1) + 1)]初始化矩阵...

2020-03-24 19:27:59 189

原创 深度学习笔记(8课时)

分布相似性概念语言学家认为,一个单词的含义是由经常和它一起出现的上下文决定的,“You shall know a word by company it keeps.”w2v模型(google2013)核心思想:基于大量的语料库corpus of text固定词汇表中的每个单词都由一个向量表示文本中的每个位置 t,其中有一个中心词c,和上下文(“外部”)单词o(用固定窗口扫描文本库的句...

2020-03-24 16:53:37 355

原创 0318-本周改进

1.采用了random随机种子划分训练集,测试集2.采用了K折交叉验证3.特征组合60100150200300选择200个聚类中心点,每类选取10张图片生成聚类词汇,准确率略有降低,但训练时间大幅缩减首先,分别在60,100,150,200,300个聚类中心下进行实验,取最佳的实验结果200作为最终聚类簇。实验准确率达到0.55。缺点:因为实验是对所有图...

2020-03-19 16:45:54 122

原创 基于传统计算机视觉特征的图片分类

1 理论知识1.1 局部特征SIFT特点:多量性;支持视角变换,仿射变换,对噪声处理效果好。基本思想:Step1:找关键点用DOG(高斯差分)代替LOG(高斯微分)①用两个不同尺度的高斯核滤波得到的图片相减,可得到边缘。②构建高斯金字塔:金字塔的每一层:用不同参数做高斯模糊,得到多组图片。层与层之间:下层降采样得到上层,每一层包含了不同尺度特征。下层包含细节特征,上层包含大的...

2020-03-19 09:55:11 1178 2

原创 网页爬虫:爬取百度咨询新闻

1.获取网页源码工具:import urllib.requesturllib.request库可以模拟浏览器发送网页请求并获取request的结果。以科技类新闻为例,拟爬取这样一篇文章。首先,发送请求html = "https://baijiahao.baidu.com/s?id=1654779534169792316&wfr=spider&for=pc"requ...

2020-03-19 09:54:45 1936

原创 TypeError: an integer is required (got type list),求解决

svm训练时报错,请问大家这是怎么回事?查看了一下其他实验中的训练集测试集形式,没有问题啊

2020-03-18 08:48:30 3237 2

原创 李宏毅DL视频课01-Regression

RegressionModelGoodness of function:Grandient Descentps:最下面一行应该是w1减去w1的偏微分,b同理。梯度:老生常谈的“局部最优”这种情况不会出现local optimal,因为他们的等高线是一样的。偏微分求解过程:...

2020-03-05 18:49:02 182

原创 论文阅读:基于多模态词向量的语句距离计算方法

论文信息文章来源:cnki.net添加链接描述文章类别,发表时间华阳. 基于多模态词向量的语句距离计算方法[D].哈尔滨工业大学,2018.摘要

2020-02-18 08:19:18 761

原创 K-means文本聚类

理论介绍Kmeans算法k-means算法又称k均值,是一种无监督的机器学习方法,通过多次求均值实现聚类。即无需知道所要搜寻的目标,而是直接通过算法来得到数据的共同特征。如图所示,通过找到合适的K值和合适的中心点,来实现目标的聚类。其具体算法思想实现过程如下:1.指定簇的个数2.随机选取K个中心点3.将每条记录归到离它最近的中心点所在的簇中4.以各个簇的记录均值的中心点取代之前的中...

2019-12-30 23:38:05 3519

原创 Adaboost实现鸢尾花分类

1.Aadboost算法boosting思想算法boosting算法是将弱学习器提升为强学习器的算法,其思想是用几个仅比随机猜测好的傻子学习器反复进行学习,每次学习时候都更关注上次分类错误的样本,过程如下:从初始训练集训练一个基学习器:从训练集D中以无放回抽样方式随机抽取一个训练子集d1,用于弱学习机C1的训练。根据基学习器的表现对样本进行调整,使先前分类错误的样本在下一次训练时得到更多...

2019-12-30 21:20:45 6090 5

原创 SVM文本分类

一.理论方法介绍SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,可以用来进行分类研究。二. 实验过程1.数据处理实验语料为三个类型的文档。分别是:从百度新闻搜集的奥运会报道10篇,从延边大学研究生院官网搜集的研究生通知10篇,从微信公众号搜集的机器学习类文章30篇。主要思路:1.加载实验数据:(3个类...

2019-12-28 18:54:43 5475 1

原创 4.5 划分整数子集

1.实验目的用python实现整数数列K个相等子集划分2.实验内容2.1 问题描述给定一个只包含正整数的非空数组。判断能否将这个数组分割成K个子集,使得K个子集的元素和相等。输出判断结果2.2 问题分析划分相等子集合:首先判断这个数列的和能不能被k整除,能整除,进入划分;不能返回FALSE.如果整除,求子集中的每个元素。可以把sum/k的值看成是一个背包,从数列中挑选满足背包容...

2019-12-27 15:42:30 328

原创 5.2 工作分配问题

1.实验目的解决工作分配问题2.实验内容2.1 问题描述有n份作业分配给n个人去完成,每人完成一份作业。假定第i个人完成第j份作业需要花费cij时间,cij>0,1≦i,j≦n。试设计一个回溯算法,将n份作业分配给n个人完成,使得总花费时间最短。2.2 问题分析首先,计算工人和任务的所有组合方式,然后对于每一种组合方式,挑选出时间最短的一种,这里调用了python函数中的perm...

2019-12-27 14:21:39 1007

原创 5.3 回溯法解决最佳调度问题

1.实验目的回溯法解决最佳调度问题2.实验内容2.1 问题描述设有n个任务由k个可并行工作的机器来完成,完成任务i需要时间为ti。试设计一个算法找出完成这n个任务的最佳调度,使完成全部任务的时间最早。2.2 问题分析该算法可抽象为子集树回溯算法,针对特定的任务数和机器数定义解空间,对于n个任务和k个机器,解编码:(X1,X2,。。。,Xn),Xi表示给任务i分配的机器编号;解空间:{...

2019-12-27 13:36:20 1330

原创 5.1 背包问题

1.实验目的2.实验内容2.1 问题描述给定一组物品,在背包限重内,使放入物品的总价格最高。2.2 问题分析对每一件物品遍历背包容量,当背包可容纳值大于等于当前物品时,与之前已放进去的物品所得价值进行对比:如果当前物品价值大于背包中物品价值,进行置换否则不置换3.实验过程及结果3.1 数据输入def getdata(): n = int(input("请输入物品个数...

2019-12-27 12:46:33 134

原创 4.5 凸多边形最优三角剖分

1.实验目的动态规划法解凸多边形最优三角剖分2.实验内容2.1 问题描述(1)凸多边形的三角剖分:将凸多边形分割成互不相交的三角形的弦的集合T。(2)最优剖分:给定凸多边形P,以及定义在由多边形的边和弦组成的三角形上的权函数w。要求确定该凸多边形的三角剖分,使得该三角剖分中诸三角形上权之和为最小。2.2 问题分析前置知识在凸多边形P的一个三角形部分T中,各弦互不相交,且弦数已达到...

2019-12-27 11:09:14 590

原创 4.1 城市路径规划

1.实验目的动态规划寻找城市间的最短路径2.实验内容2.1 问题描述2.2 问题分析从A点走到B点就是从矩阵左下角走到右上角。其中每一步有两种选择:向上走↑或向右走→要想寻找最短路径,可以看成是一个递归的过程。从右上角出发:向下走↓或向左走←因此,解决问题的步骤是:从B出发,判断向下走↓,向左走←哪一个路径更短。重复这一判断过程,直到到达A点。3.实验过程及结果3.1 数...

2019-12-26 23:35:36 784

原创 4.3 逢低吸纳

1.实验目的动态规划算法解决炒股问题2.实验内容2.1 问题描述“逢低吸纳”是炒股的一条成功秘诀。如果你想成为一个成功的投资者,就要遵守这条秘诀:"逢低吸纳,越低越买"这句话的意思是:每次你购买股票时的股价一定要比你上次购买时的股价低.按照这个规则购买股票的次数越多越好,看看你最多能按这个规则买几次。给定连续的N天中每天的股价。你可以在任何一天购买一次股票,但是购买时的股价一定要比你上...

2019-12-26 23:22:26 2576

原创 3.2 最优分解问题

1.实验目的利用贪心算法解决最优分解问题2.实验内容2.1 问题描述将正整数n分成若干互不相同的自然数和,且使得自然数的乘积最大。2.2 问题分析小学时候学过,周长相同的正方形面积要大于长方形面积。这意味着:在总和相同的情况下,自然数间越接近,乘积越大。本道题可以用这样的思路去解。要想使自然数的乘积最大:就要使因数个数尽可能多,并且因数之间值要接近。将n分成从2开始的连续自...

2019-12-26 20:46:44 654 1

原创 3.1 汽车加油问题

1.实验目的用贪心算法解决汽车加油问题2.实验内容2.1 问题描述一辆汽车加满油后可以行驶n公里,旅途中有加油站,设计一个有效算法,指出应在哪些加油站停靠加油,使沿途加油次数最少。2.2 问题分析3.实验过程及结果3.1 数据输入3.2 实验代码3.3 实验结果...

2019-12-26 19:39:57 211

原创 6.1 飞行员配对方案问题

1.实验目的寻找飞行员配对中的最大匹配:2.实验内容2.1问题描述第二次世界大战时期, 英国皇家空军从沦陷国征募了大量外籍飞行员。 由皇家空军派出的每一架飞机都需要配备在航行技能和语言上能互相配合的 2 名飞行员, 其中 1 名是英国飞行员,另 1 名是外籍飞行员。 在众多的飞行员中, 每一名外籍飞行员都可以与其他若干名英国飞行员很好地配合。 如何选择配对飞行的飞行员才能使一次派出最多的飞...

2019-12-23 14:27:46 845 1

原创 KNN分类算法

一.理论方法介绍什么是K近邻K最近邻算法是一种监督学习算法。K最近邻指的是:每个样本都可以由离它最近的K个邻居来代表。KNN和SVM算法都是一种距离测度进行分类的算法。思路是:物以类聚。如果样本周围的K个样本都属于某一类,那么样本也应该属于同一类别。K近邻中所选择的邻居都是已经正确分类的对象。因此,KNN的分类结果只取决于和他临近的几个样本的类别。K的选择结果不同会直接影响到分类结果,以...

2019-12-21 23:19:42 2720

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除