自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_44082645的博客

原创【论文阅读】基于内容的科技文献大数据挖掘与应用

科技文献是科技信息工作起源和发展的基础。传统的挖掘多是采用文献计量学方法，基于关键词、作者、作者机构、发表时间、分类号、出版物等结构化元数据，对文献集合的分布情况和发展趋势进行分析，取得了一定的成效，但这些结构化元数据承载的内容特征有限，在一定程度上降低了科技文献大数据深度支撑科研创新和科技管理决策的效果。随着自然语言处理技术的进步，基于内容的科技文献大数据挖掘有了充足的发展。对科技文献大数据的传统应用是提供搜索服务，这是当前甚至是以后相当长时间内科技文献的主要作用；实现基于内容的科技文献可以将搜

2022-02-09 21:04:54 1767

原创【记录】白吃小学生知识点记录

1、时序模型中，当前数据跟之前观察到的数据相关。2、自回归模型使用自身过去数据来预测未来。3、马尔可夫模型假设当前只跟最近少数数据相关，从而简化模型。4、潜变量模型使用潜变量来概括历史信息。文本预处理把文本当作时序序列，文本中的字符、字、词当作变量，这些变量都是有时序信息的。文本预处理主要研究，如何把文本中的这些字、词变成计算机能够处理训练的东西。1、将数据集读取到由多条文本行组成的列表中；2、将每行的文本序列拆分成一个标记列表（词元：token）；（1）英文：词：作为一个基本的单元，简单

2022-02-02 11:19:03 752

原创【命名实体识别NER】BiLSTM-CRF的笔记

1.研究背景（1）命名实体识别是什么？识别出文本中具有特定意义的实体字符串边界，并归类到预定义类别，传统识别任务识别时间、机构名、地点等，但随着应用逐渐发展为识别特殊预定义类别。信息抽取（IE）=命名实体识别+关系抽取，将非结构化的文本转化为结构化的知识。命名实体识别NER是信息抽取、问答系统、句法分析等NLP上层应用的重要基础，在自然语言处理中占据重要地位。（2）分类和序列标注有什么区别？分类：样本之间彼此独立，每个样本都对应一个相应的类别；序列标注：序列标注问题也是一个序列分

2022-01-21 12:10:25 802

原创【知识图谱】课程笔记2---词汇挖掘与实体识别

1.概述（1）实体：文本中的词汇或者短语（XX大学、李白等）并非所有词汇都是实体（守株待兔-事件；adj-鲜艳的）两个步骤：挖掘高质量词汇；基于词汇筛选出目标相关的实体。2.词汇挖掘-关键词提取（1）基于统计特征词频tf-idf：综合考虑了词在文本中的词频和所有文本中的普遍重要性；位置特征词跨度：一个词在文本中首次出现和末次出现的距离，距离越长可能越重要；词的固有属性：包括一系列特征，词长、词性，对应的句法成分、开头大小写、是否全部大小写、词缀等；（2）基于主题模型主题模型的核心假设

2022-01-20 10:41:14 925

原创【知识图谱】课程笔记1---知识图谱简介

1.知识图谱知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。通过这种先验的知识网络，让机器像人类一样可以联想、推理。它将不同种类的信息连接在一起得到了一个关系网络，因此知识图谱提供了从关系角度去分析问题的能力。（1）谷歌在2012.5.16提出知识图谱的概念，为了提升搜索引擎返回的答案质量和用户的查询效率。通过知识图谱，搜索引擎不再是简单的字符串匹配，可以返回更精准，更结构化的信

2022-01-19 10:11:38 1054

原创【论文阅读】构建基于科技文献知识的人工智能引擎

为更全面的了解当前领域的研究重点和研究热点，以及中科院相关的研究进展和实践。1.引言部分人工智能的基础是机器学习，机器学习解决问题的模式是利用算法分析数据，让机器去学习知识，归纳为模型之后，再让机器使用模型做出推断或预测。现阶段深度学习飞速发展的根本原因在于拥有海量的数据资源和拥有了强大的算力。因此，在科技知识方向，由于科技文献是科技知识的重要载体，蕴含丰富的知识和知识关系，因此科技文献库就是最好的AI语料库，这些隐藏在科技文献中的知识是人工智能飞速发展的基石。如何利用科技文献中的知

2022-01-18 16:30:08 315

原创 AI+智慧知识服务生态体系研究设计与应用

#论文阅读recording：AI+智慧知识服务生态体系研究设计与应用# 人工智能正引发链式反应般的科学突破，科技大数据支撑着人工智能的发展，它记载着科学真理验证过程、实验观测、研究结论、网络交流等科技情报知识线索。是AI用于科技创新发现算法模型实现的数据根基和知识基础。因此智慧知识服务已经成为图书文献情报领域的焦点和热点，这种服务充分利用了AI+大数据的信息技术搭建智能文献情报系统，让科技情报工作能快速洞悉变化、凝练问题、聚焦目标、形成解决方案，弥补人类智慧的不足。1.知识服务面临的问题

2022-01-18 10:19:32 2863

原创基于keras的resnet网络实现

resnet网络解决了在普通网络中，深度加深导致的梯度消失和梯度爆炸的问题。在resnet中，使用了残差学习的方法，使网络层数极大加深；与普通全连接网络的对比中，出现了跨层连接即short-cut。改变了网络要学习的目标，由普通全连接网络的H(x)改变为了F(x)=H(x)-x,即残差。① identity 块...

2019-10-21 16:17:06 1028

原创 Soft-NMS

nms算法常用在目标检测算法中，而soft-nms算法可以说是nms算法的一种改进或者替代。思考可以应用于其他目标检测算法中，以提高检测精度。论文中说明，soft-nms算法提高了检测准确率，并且计算复杂度与传统nms算法相同。soft-nms的提出nms算法很简单，简单来说，就是将不是极大值的框抑制掉，也就是删除为0，只保留下置信度最大的那个框。而问题就出在这里，论文中的话来说，这个方法...

2019-10-15 16:15:21 3232 2

原创 SSD目标检测算法的理解和记录

小论文打算写的是基于ssd的算法，ssd是之前看的论文，无奈记性太差理解力太差，忙一段时间别的事，之前看过的就差不多忘光了。。。故做一个记录贴，以便加深记忆和理解。目前基于深度学习的目标检测算法主要分为两类，分别是one-stage和two-stage，其中，two-stage算法典型算法有R-CNN，先通过启发式方法或者CNN网络产生一系列稀疏的候选框，然后对这些候选框进行分类与回归；one-...

2019-10-14 18:44:34 943

原创非极大值抑制法(Non-Maximum Suppression, NMS)

记录一下对非极大值抑制的理解。非极大值抑制法顾名思义，是在抑制不是极大值的元素，即搜索一个局部最大值。在目标检测中应用比较广泛。对一个目标而言，算法对该目标肯产生多个候选框，每个框对应一个score,将这些score全部排序，选出得分最大的一个，再用其他框与当前最大的框计算其重叠程度，就是常说的iou,当大于某个阈值，比如0.5时，将这些大于阈值0.5的框删除，只保留score最大的...

2019-10-11 16:47:19 675 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除