巴基海贼王-CSDN博客

原创折肘法+困惑度确定LDA主题模型的主题数

LDA主题模型主题数的确定折肘法+困惑度确定lda模型的主题个数背景lda topic model需要确定从每篇文章中提取多少个关键词，最简单的就是折肘法+困惑度的方法。补充：还是懒得说背景！以后想起来再补充！还是电脑硬盘坏过，代码忘参考谁的了！原作者发现可以联系我！立马改参考！理论LDA模型中需要评估的选项一般是主题数量，而主题数量需要根据具体任务进行调整，即通过评估不同主题数模型的困惑度来选择最优的模型主题数。本课题中，通过计算困惑度perplexity来衡量主题数量：其中，M是测试

2020-10-24 10:30:46 23171 23

原创 Stanford python nlp工具stanza的中文语言模型离线安装

stanza离线安装中文语言模型1. 下载stanza2. stanza中文语言模型离线下载3. 将下载好的文件夹放在stanza指定的位置备注1. 下载stanzapython 直接安装stanza：pip install stanza也可以使用conda，github源码安装： https://stanfordnlp.github.io/stanza/installation_usage.html2. stanza中文语言模型离线下载英文：https://stanfordnlp.gi

2020-07-09 12:27:21 4234 10

原创 LLM模型的一些思考

对通用LLM模型进行Fine-tuning操作（SFT，supervised fine tuning），带来的影响是否有害？从表象看，使用领域数据对LLM做Fine-tuning，通常会造成灾难性的“灾难遗忘”问题。简单点儿说，SFT在赋予对领域知识理解能力的同时，由于修正模型参数，导致模型遗忘之前学会的某些知识。

2023-06-15 20:39:28 271

原创 ChatGPT技术原理

详见Learning to Rank简介简单介绍下pair-wise: pair-wise用于给定查询下，衡量两个文档间的相对相关度；相对相关度：给定查询qiq_{i}qi的一个真实文档序列，只需考虑任意两个相关度不同的文档之间的相对相关度：didjdidj，或didjdidj如上图中二分类模型，输入为文档序列中的文档两两组合（一对，pair命名由来），标签为+1和-1：如果两两组合的文档对中的第一个文档得分比第二个高，标签为+1，反之为-1。

2023-05-30 17:06:55 370

原创模型训练常用tricks

按训练前、训练中、训练后三个阶段划分，常见NLP模型训练tricks，仅适用于深度学习（狭义）模型训练，未涉及机器学习模型

2022-12-30 10:30:25 364

原创数据层面降低NLU误召-构造误召语料

第二章数据层面降低NLU误召-构造误召语料第一章 NLU误召问题解决绪论第二章数据层面降低NLU误召-构造误召语料文章目录第二章数据层面降低NLU误召-构造误召语料前言理论NLU DIS1. 领域分类2. 意图分类3. 提槽NLU误召1. 数据层面2. 模型层面小结前言本文是解决NLU误召问题的第二章，在数据层面，通过-构造误召语料的方法降低NLU误召。在上一章 NLU误召问题解决绪论中简单介绍了NLU的误召问题和解决误召问题的理论方案理论NLU一般采用 DIS（domai

2022-05-17 16:55:36 312

原创 NLU误召问题解决绪论

NLU误召问题解决

2022-05-13 15:25:50 581

原创 jupyter AttributeError: ‘WebSocketProtocol13‘ object has no attribute ‘_extensions‘

文章目录文章目录文章目录前言一、问题定位二、问题解决总结前言如题，macOS远程连接服务器jupyter。因需切换conda版本，重启后端口号保持一致：jupyter主目录正常打开、terminal正常运行；以前使用过的jupyter notebook能打开，但不能运行python代码；jupyter运行日志，报jupyter AttributeError: ‘WebSocketProtocol13’ object has no attribute ‘_extensions’。提示：以

2022-04-24 09:41:15 2499 1

原创基于关键词提取关系模式

基于关键词提取关系模式背景理论研究导包完整代码主函数背景在上一篇文章《LDA主题模型提取文本中的关键词》中，实现LDA模型提取关键词的功能。基于关键词对文本进行分类时，在检测速度上具有天然的优势。但是，其缺点也很明显：准确率和召回率低。为初步解决这两个问题，将语料库中的文本根据是否包含触发词划分成两部分，第一部分包含触发词的语料，提取关系模式时，解决关键词的准确率问题；第二部分，不包含触发词的语料提取关系模式时，解决关键词的召回率问题。顾，采用分治的策略提取关系模式。理论研究导包import sp

2020-10-26 20:58:21 733 1

weixin_43343486的博客

原创折肘法+困惑度确定LDA主题模型的主题数

原创 Stanford python nlp工具stanza的中文语言模型离线安装

原创 LLM模型的一些思考

原创 ChatGPT技术原理

原创模型训练常用tricks

原创数据层面降低NLU误召-构造误召语料

原创 NLU误召问题解决绪论

原创 jupyter AttributeError: ‘WebSocketProtocol13‘ object has no attribute ‘_extensions‘

原创基于关键词提取关系模式

原创 LDA主题模型提取文本中的关键词

原创 hadoop序列化和反序列化的意义

原创 IDEA调试运行基于hadoop的WordCount项目

原创 jdbc java报错 Field 'id' doesn't have a default value

原创 MongoDB复制集节点的增加移除及节点属性配置

原创 MongoDB复制集

空空如也

空空如也