自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 折肘法+困惑度确定LDA主题模型的主题数

LDA主题模型主题数的确定折肘法+困惑度确定lda模型的主题个数背景lda topic model需要确定从每篇文章中提取多少个关键词,最简单的就是折肘法+困惑度的方法。补充:还是懒得说背景!以后想起来再补充!还是电脑硬盘坏过,代码忘参考谁的了!原作者发现可以联系我!立马改参考!理论LDA模型中需要评估的选项一般是主题数量,而主题数量需要根据具体任务进行调整,即通过评估不同主题数模型的困惑度来选择最优的模型主题数。本课题中,通过计算困惑度perplexity来衡量主题数量:其中,M是测试

2020-10-24 10:30:46 23171 23

原创 Stanford python nlp工具stanza的中文语言模型离线安装

stanza离线安装中文语言模型1. 下载stanza2. stanza中文语言模型离线下载3. 将下载好的文件夹放在stanza指定的位置备注1. 下载stanzapython 直接安装stanza:pip install stanza也可以使用conda,github源码安装: https://stanfordnlp.github.io/stanza/installation_usage.html2. stanza中文语言模型离线下载英文:https://stanfordnlp.gi

2020-07-09 12:27:21 4234 10

原创 LLM模型的一些思考

对通用LLM模型进行Fine-tuning操作(SFT,supervised fine tuning),带来的影响是否有害?从表象看,使用领域数据对LLM做Fine-tuning,通常会造成灾难性的“灾难遗忘”问题。简单点儿说,SFT在赋予对领域知识理解能力的同时,由于修正模型参数,导致模型遗忘之前学会的某些知识。

2023-06-15 20:39:28 271

原创 ChatGPT技术原理

详见Learning to Rank简介简单介绍下pair-wise: pair-wise用于给定查询下,衡量两个文档间的相对相关度;相对相关度:给定查询qiq_{i}qi​的一个真实文档序列,只需考虑任意两个相关度不同的文档之间的相对相关度:didjdi​dj​,或didjdi​dj​如上图中二分类模型,输入为文档序列中的文档两两组合(一对,pair命名由来),标签为+1和-1:如果两两组合的文档对中的第一个文档得分比第二个高,标签为+1,反之为-1。

2023-05-30 17:06:55 370

原创 模型训练常用tricks

按训练前、训练中、训练后三个阶段划分,常见NLP模型训练tricks,仅适用于深度学习(狭义)模型训练,未涉及机器学习模型

2022-12-30 10:30:25 364

原创 数据层面降低NLU误召-构造误召语料

第二章 数据层面降低NLU误召-构造误召语料第一章 NLU误召问题解决绪论第二章 数据层面降低NLU误召-构造误召语料文章目录第二章 数据层面降低NLU误召-构造误召语料前言理论NLU DIS1. 领域分类2. 意图分类3. 提槽NLU误召1. 数据层面2. 模型层面小结前言本文是解决NLU误召问题的第二章,在数据层面,通过-构造误召语料的方法降低NLU误召。在上一章 NLU误召问题解决绪论中简单介绍了NLU的误召问题和解决误召问题的理论方案理论NLU一般采用 DIS(domai

2022-05-17 16:55:36 312

原创 NLU误召问题解决绪论

NLU误召问题解决

2022-05-13 15:25:50 581

原创 jupyter AttributeError: ‘WebSocketProtocol13‘ object has no attribute ‘_extensions‘

文章目录文章目录文章目录前言一、问题定位二、问题解决总结前言如题,macOS远程连接服务器jupyter。因需切换conda版本,重启后端口号保持一致:jupyter主目录正常打开、terminal正常运行;以前使用过的jupyter notebook能打开,但不能运行python代码;jupyter运行日志,报jupyter AttributeError: ‘WebSocketProtocol13’ object has no attribute ‘_extensions’。提示:以

2022-04-24 09:41:15 2499 1

原创 基于关键词提取关系模式

基于关键词提取关系模式背景理论研究导包完整代码主函数背景在上一篇文章《LDA主题模型提取文本中的关键词》中,实现LDA模型提取关键词的功能。基于关键词对文本进行分类时,在检测速度上具有天然的优势。但是,其缺点也很明显:准确率和召回率低。为初步解决这两个问题,将语料库中的文本根据是否包含触发词划分成两部分,第一部分包含触发词的语料,提取关系模式时,解决关键词的准确率问题;第二部分,不包含触发词的语料提取关系模式时,解决关键词的召回率问题。顾,采用分治的策略提取关系模式。理论研究导包import sp

2020-10-26 20:58:21 733 1

原创 LDA主题模型提取文本中的关键词

LDA Topic Model Extract Key Word主题模型+TF-IDF提取文本的关键词背景懒得说背景!以后想起来再补充!电脑硬盘坏过,本文代码也忘了参考谁的了!原作者发现可以联系我!立马改参考!Import Dependency Jarimport gensimimport mathimport jiebaimport jieba.posseg as possegfrom jieba import analysefrom gensim import corpora

2020-10-24 10:14:25 7518 8

原创 hadoop序列化和反序列化的意义

序列化与反序列化定义把对象转换为字节序列的过程称为对象的序列化;把字节序列恢复为对象的过程称为对象的反序列化。用途对象的序列化主要有两种用途:1)把对象的字节序列永久地保存到硬盘上,通常存放在一个文件中;2)在网络上传送对象的字节序列。为什么要对某些对象进行序列化在很多应用中,需要对某些对象进行序列化,让它们离开内存空间,入住物理硬盘,以便长期保存。比如最常见的是Web服务器中的...

2019-06-14 16:37:48 645

原创 IDEA调试运行基于hadoop的WordCount项目

IDEA调试运行hadoop创建一个WordCount项目创建一个com.lyf.wordcount包1.修改maven pom.xml//配置打包方式<packaging>jar</packaging>//配置依赖jar包<dependency> <groupId>org.apache.hadoop<...

2019-06-14 10:08:07 540

原创 jdbc java报错 Field 'id' doesn't have a default value

Field 'id' doesn't have a default value原因使用sql语句修改navicat下修改如果继续报错原因原因在于没有设置主键自增长。mysql的自增长模式是IDENTITY。使用sql语句修改@Id@GeneratedValue(strategy=GenerationType.IDENTITY)设置主键自增长后,重启项目,要注意数据库里面主键生成模式是...

2019-05-20 15:25:40 477

原创 MongoDB复制集节点的增加移除及节点属性配置

背景本文是在上课期间由于需要学习mongodb的高可用特性,在参考Leshami前辈的文档后而编写,让自己以后的重温更容易。这一节内容是紧跟在MongoDB复制集的文档之后。环境描述CentOS release 6.9 (Final)MongoDB version v3.0.6节点的移除1.主从节点mkdir -pv /data/{n1,n2,n3}mongod --re...

2019-04-06 19:40:51 924

原创 MongoDB复制集

**MongoDB复制集(Replica Set)**环境描述CentOS release 6.9 (Final)MongoDB version v3.0.6192.168.1.244:27000 (PRIMARY)192.168.1.244:27001 (SECONDARY)192.168.1.244:27002 (SECONDARY)创建复制集1.创建实例对应的数据目录m...

2018-11-29 20:48:50 330

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除