tiki_taka_-CSDN博客

原创使用keras-bert实现谭松波酒店评论文本分类（情感分析）

Keras-Bert 实现文本分类以下文档可下载：https://pan.baidu.com/s/1UfnIWmFMhqAIXl8LouJNWQ 提取码：9m5u复制这段内容后打开百度网盘手机App，操作更方便哦项目的地址在Github：https://github.com/Luomiou/keras-bert-目录Keras-Bert 实现文本分类项目的地址在...

2019-07-09 21:40:23 13844 54

原创 Prompt Tuning训练过程

对于不同的任务，仅需要插入不同的prompt 参数，每个任务都单独训练Prompt 参数，不训练预训练语言模型，这样子可以大大缩短训练时间，也极大的提升了模型的使用率。例如，下图的BERT/BART/ERNIE 均为预训练语言模型，对于人类提出的问题，以及线索，预训练语言模型可以给出正确的答案。前面两个阶段都依赖于有监督学习，但是这个阶段里的预训练可以不需要有监督的数据，极大的降低了对监督语料的依赖。更注重于目标的设计，合理设计预训练跟微调阶段的目标函数，对最终的效果影响深远。

2023-09-04 17:22:17 1104

原创 Rasa 多轮对话机器人

Rasa NLU：提取用户想要做什么和关键的上下文信息Rasa Core：基于对话历史，选择最优的回复和动作通道(channel)和动作(action)：连线对话机器人与用户及后端服务系统。tracker store、lock store和event broker等辅助系统组件之间的顺序关系至关重要。例如，NER组件需要前面的组件提供分词结果才能正常工作，因此前面的组件中必须有一个分词器。组件是可以相互替换的。例如，清华大学开发的分词器和北京大学开发的分词器均能提供分词结果。

2023-09-04 17:17:25 1153

原创大语言模型（LLM）发展历程

大语言模型发展历程，分为 Encode-only、Encode-Decode、Decoder-only

2023-07-05 17:34:48 247

原创 chatglm+langchain

Langchain + chatglm 本地QA 过程

2023-07-03 14:47:47 2613

原创 ChatGLM6B LORA微调

chatglm + LORA 微调

2023-07-03 14:43:23 1218 1

原创大语言模型model官方文件整理【roberta_wwm,bert_wwm,bert,xlnet....】

bert/roberta/xlnet/macbert/electra等等tiny、base、small、large、xlarge等等版本，tensorflow和torch版本

2023-06-27 15:02:55 1738

原创 TensorFlow2.2 安装包依赖

tf2.2 依赖第三方包版本匹配，Keras、transformers、bert4keras、rasa

2023-06-05 09:16:51 978

原创语言模型主流

主流的语言模型学习资料

2023-06-05 09:09:38 555

原创 PSI模型稳定计算代码

PSI2022/02/08 17:33参考资料：PSI解释：https://zhuanlan.zhihu.com/p/79682292[https://mwburke.github.io/data%20science/2018/04/29/population-stability-index.html](https://mwburke.github.io/data science/2018/04/29/population-stability-index.html)代码https://git

2022-02-08 17:38:30 998

原创 category类型和数值类型输入神经网络

category类型和数值类型输入神经网络

2022-01-04 20:12:23 736

原创分类对应的全连结层、activation、loss 的选择

全连接层二分类激活函数和 loss 的选择

2022-01-04 19:42:22 1087

原创 AUC TP FP TN FN recall fpr 混淆矩阵

AUC TPR FPR ROC 评价指标

2022-01-04 19:36:09 948

原创 XGBoost & RandomForest特征选择

XGBoost Random Forest 特征选择

2022-01-04 19:30:03 1182

原创特征工程之特征选择

特征选择特征选择的目的减少特征数量、降维，使模型泛化能力更强，减少过拟增强对特征之间的理解去掉变化小的特征统计样本个数这应该是最简单的特征选择方法了：假设某特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。如果100%都是1，那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用，如果是连续型变量，就需要将连续变量离散化之后才能用，而且实际当中，一般不太会有95%以上都取某个值的特征存在，所以这种方法虽然简单但是不太好用。可以

2021-09-13 12:10:18 144

原创特征工程之 embedding层

TensorFlow中文官方网站离散和连续特征怎么喂入模型：https://tensorflow.google.cn/tutorials/structured_data/preprocessing_layersKeras 和 TensorFlow 版本匹配信息：https://docs.floydhub.com/guides/environments/Keras Embedding 和W2V例子：https://zhuanlan.zhihu.com/p/279395289Keras 自定义Embed

2021-09-13 12:09:45 505

原创特征工程之模型对离散和连续的处理

无论模型是传统的ML，还是DL模型，处理的都是连续性变量（特征），在现实开发中，特征往往存在着两种状态–离散和连续。机器学习模型处理的都是连续型数据（loss，梯度更新权重，不连续则没有办法去更新权重），对于离散型遍历有以下几种处理方式：将类别无序 ——> 连续（one-hot）将类别有序 ——> 连续（Label Encoder），一般将类别数值型利用 Label Encoder 进行编码，转化成连续型特征。即是对不连续的数字或者文本进行编号类别型变量范围在范围较小时推荐

2021-09-13 12:08:55 924

原创 hive SQL group by rollup && cube && grouping sets

参考链接：SQL：group by ：https://blog.csdn.net/make_1998/article/details/82938038https://blog.csdn.net/weixin_44112790/article/details/117129217https://www.cnblogs.com/chenzechao/p/11273980.html【hive 】cube 和 roll up https://www.cnblogs.com/zzhangyuhang/p/9

2021-09-13 12:07:51 415

原创不平衡分类

文章目录所依赖的包1. 标准化2. 定义模型和指标3. 基线模型4. 设置正确的初始偏差---初始化偏差5. 初始化权重6. 训练模型7. 类别权重8. 用class_weight 训练模型9. 评估指标10. 过采样11. 总结：11.1. 加入初始化偏差，有助于加快收敛速度。在输出层增加11.2. 加入初始化权重，有可比性11.3. 引入class_weight，11.4. 评估指标11.5. 混淆矩阵11.6. roc:12. 代码总结13. 参考：所依赖的包import tensorfl

2021-09-13 12:06:44 252

原创 LSTM 输入和输出格式Keras

假如数据集是（5000，28，128），其中5000指的是样本个数，（28，128）便是具体每个样本的行列数，28就是lstm中的时间步数；假如定义一个lstm层为 LSTM（output_dim= 256，activation=，input_shape= （28，128）），那么每个时间步输出的是一个元素个数为256的一阶向量，所有时间步集合起来就是（28，256）的二阶向量。至于模型是用所有时间步的输出，还是只用最后一个，就看具体怎么设计了。对应：（N，T，F）=&g...

2021-05-17 18:00:42 3414 1

原创 redis

Redis学习文章目录Redis学习1. install redis修改 redis.conf创建本地与docker映射目录，即本地存放位置可以自定义，因为我的docker的一些配置文件都是存放在/data目录下面的，所以我依然在/data目录下创建一个redis目录，这样是为了方便后期管理2. Redis优势3. Redis数据类型4. Redis 命令5. Key 命令6. String 命令7. Hash命令特别适合用于存储对象8. List命令9. Set 集合10. HyperLogLog

2021-04-15 17:49:52 82

原创 azkaban定时任务平台的搭建---solo&&集群

azkaban文章目录azkaban1. install1. 1. solo server(单机)1.2 multi-server(集群)2. 迁移executorServer1. install1. 1. solo server(单机) # clone the repo git clone https://github.com/azkaban/azkaban.git # BUild azkaban and create an installation

2021-04-15 10:44:14 233

原创 azkaban 部署说明

# azkaban 部署说明1. install 1.1 solo server(单机) ```shell # clone the repo git clone https://github.com/azkaban/azkaban.git # BUild azkaban and create an installation package cd azkaban ./gradlew build installDist # star...

2021-04-14 15:57:15 81

原创编译原理词法分析器

编写一个词法分析器，它针对输入文件，实现以下功能： 1）每遇到你的学号，就输出你的名字，对于其他的串原样输出。 2）统计输入文件中字母的数目。例如：（以肖永跃的上机题为例）：输入文件如下所示：200213001 hello worldwo ai tian an men hello world i love200213001输出应该如下所示：肖永钦 hello worldwo ai tian an menhello world i love肖永钦# of char

2020-09-15 10:21:07 2359

原创贝叶斯模型

贝叶斯模型文档可下载，目录贝叶斯模型1.判别模型与生成模型2. 基于最小风险贝叶斯决策理论3. 高斯判别分析模型(Gaussian Discriminant Analysis)3.1 高斯判别分析（GDA）与LR的关系4. 朴素贝叶斯模型(Gaussian Discriminant Analysis)4.1 后验概率最大化的含义4.2 学习与分类算法...

2019-06-06 11:06:54 7197

原创决策树原理

决策树以下内容均在文档中，文档可下载目录决策树 1. 绪论 2. ID3和信息增益 3. C4.5和信息增益率 4. CART 分类和回归树（Classification And Regression Tree） 4.1二叉分类树 4.2二叉回归树 5. 树剪枝处理 1. 绪论决策树算法特征选...

2019-06-03 21:38:42 1189

原创过拟合、正则化点点滴滴

过拟合、正则化点点滴滴文档可下载1. 判断方法过拟合（Over-fitting），模型在训练样本表现的过于优越，在验证集和测试集表现不佳。出现这种现象的原因是训练数据中存在噪音或者训练数据太少。过拟合问题，特征维度（或参数）过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果较差。2.产生的原因造成过拟合的原因可以归结为：参数过多或样本过少常见的原因：...

2019-05-24 23:12:04 224

原创读书笔记之3中英文分词工具

此文章全为图片，详细请下载docx

2018-12-29 09:59:41 264

转载读书笔记之3中文自然语言处理完整流程

转自：https://blog.csdn.net/dongdouzin/article/details/80814037第一步：获取语料语料，即语言材料。语料是构成语料库的基本单元。所以简单地使用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。一个文本集合成为语料库（Corpus），当有几个这样的文本集合的时候，我们称之为语料库集合（Corpora）已有语料：...

2018-08-31 20:33:39 316

原创读书笔记2之中文分词流程HanLP

句子切分：系统读取带分词的字符串。输入的是一个句子或者一篇文章。如果是篇章则系统会首先进行句子切分，然后调用多线程，对每个切分的句子再进行分词。导入词典：根据输入的配置信息，导入相应的词典。进入粗分阶段：首先，对句子进行字符级切分，即将输入的句子切分为单个UTF-8编码的字符数组然后，一元切分。查询核心词典，将字符切分的结果与词典最大匹配，匹配结果...

2018-08-20 17:04:40 759

原创读书笔记之语法语料库和语义知识库

语法语料库和语义知识库文末有文档下载地址：本文档是自己在读硕士期间学习自言语言处理的读书笔记语言资源库的分类：通用性和专用性、异质性和同质性、动态性和静态性、共时性与历时性、平行与双语，5个相互对立的特征揭示了一个重要的原则，任何语料选择都是一种平衡性的结果。语法语料库：训练分词、命名实体、磁性标注、句法解析、语义组块、论元角色。分词语料...

2018-08-20 16:40:27 1441

原创 Machine Learning In Action

KNN近邻算法计算目标点与样本集中的点的距离按距离递增排序选取与目标点距离最下的K个点确定前K个所在类别的频率返回前K个出现频率最高的类别作为目标点的预测分类from numpy import * #导入numpy函数库import operator#导入操作符 #创建数据集def createDateSet(): group=array([[1.0,

2017-07-19 11:47:10 462

原创 JAVA设计模式（02）：创建型-抽象工厂模式（Abstract Factory）

JAVA设计模式（02）：创建型-抽象工厂模式（Abstract Factory）模式动机在工厂方法模式中具体工厂负责生产具体的产品，每一个具体工厂对应一种具体产品，工厂方法也具有唯一性，一般情况下，一个具体工厂中只有一个工厂方法或者一组重载的工厂方法。但是有时候我们需要一个工厂可以提供多个产品对象，而不是单一的产品对象。为了更清晰地理解工厂方法模式，需要先引入两个概念

2016-07-10 22:02:57 775

原创 JAVA设计模式（01_1）：创建型-工厂模式【工厂方法模式】(Factory Method)

工厂方法模式工厂方法模式模式动机与定义模式结构与分析模式实例与解析模式效果与应用模式扩展简单工厂模式的不足在简单工厂模式中，只提供了一个工厂类，该工厂类处于对产品类进行实例化的中心位置，它知道每一个产品对象的创建细节，并决定何时实例化哪一个产品类。简单工厂模式最大的缺点是当有新产品要加入到系统中时，必须修改工厂类，加入必要的处理逻辑，这

2016-05-28 10:35:09 4761

原创递归下降分析程序构造方法

递归下降分析程序构造方法作业要求对于文法E -> E + T | E – T | TT ->T * F | T / F | F F -> (E) | i取消左递归后，改为:E ->TE’E’ -> +TE’ | -TE’ |εT ->FT’T’ -> *FT’ | /FT’|εF ->(E) | i经证明，该文法

2016-05-25 22:25:49 10043 2

原创 Struts2+Hibernate JPA+MariaDB数据库实现登录功能

Struts2+Hibernate JPA+MariaDB数据库实现登录功能MariaDB和MySQL数据库最大的不同就是：驱动不同。 mysql驱动：mysql-connector-java-commercial-5.1.25-bin.jar MariaDB驱动：mariadb-java-client-1.1.3.jar 剩下的

2016-05-22 18:28:08 2196

原创面向对象设计原则

面向对象设计原则面向对象设计原则概述单一职责原则开闭原则里氏代换原则依赖倒转原则接口隔离原则合成复用原则迪米特法则软件的可维护性和可复用性知名软件大师Robert C.Martin认为一个可维护性(Maintainability) 较低的软件设计，通常由于如下4个原因造成：过于僵硬(Rigidity) 过于脆弱(Fr

2016-05-17 22:46:14 421

原创 JAVA设计模式（01）：创建型-工厂模式【简单工厂模式】（Simple Factory）

简单工厂模式（Simple Factory）创建型模式概述创建型模式(Creational Pattern)对类的实例化过程进行了抽象，能够将软件模块中对象的创建和对象的使用分离。为了使软件的结构更加清晰，外界对于这些对象只需要知道它们共同的接口，而不清楚其具体的实现细节，使整个系统的设计更加符合单一职责原则。创建型模式在创建什么(What)，由谁创建(

2016-05-17 12:41:35 534

原创编写一个词法分析，对于输入的一段程序，可以获取该程序的单词符号。

编写一个程序，对于输入的一段程序，可以获取该程序的单词符号。单词符号的类别有基本字、标识符、常数、算符和界符。关键字为基本字，由字母组成，如int、for和while；变量名和函数名为标识符，由字母和数字构成，如fun1和age；固定不变的数值为常数，如12、13.86和25e8(科学计数法)；算符如+、-、*、/ 、%、&&；界符如 {、[、(、；和：等。如，若输出源程序如下， public static void main (String [] args) { double sum5

2016-04-27 20:36:46 2533 3

原创 1234，四个不同的数字组成多少种不同的数

java和c语言编写4个不同的数，共有多少种

2016-04-02 22:23:41 7038

bert_谭松波酒店评论.docx

本文档利用 keras- bert 实现对谭松波酒店评论二分类文档百度云：链接：https://pan.baidu.com/s/1xCfySv5-QMax30piYgYZIg 提取码：5ydp

2019-07-09

贝叶斯模型.docx

该文档包含生成模型、判别模型的区别，高斯判别模型与LR之间的关系，NB以及基于拉普拉斯平滑处理的NB的例子，EM算法流程及例子，最后以一个常见的垃圾邮件分类为例解释说明贝叶斯算法。

2019-06-06

决策树.docx

利用不同的算法构建决策树，其中有基于信息增益的ID3、基于信息增益率的C4.5、以及二叉分类（回归）树，最后文档简单介绍了树剪枝的优缺点

2019-06-03

机器学习知识点.docx

文档包含了线性模型的定义、逻辑回归、正则化、函数推到等等

2019-05-24

正则化_过拟合.docx

该文档包含了过拟合产生的原因，解决方法，以及为什么引入正则化，L1和L2的区别、L1为什么产生稀疏矩阵等等，欢迎下载

2019-05-24

读书笔记之17Scrapy爬虫框架使用

Scrapy爬虫框架的使用，也可以用八爪鱼进行爬取数据，本文档使用了Scrapy爬取东方财富网站下的数据

2018-12-03

读书笔记之16Attention机制说明及代码实现

AttentionModel的使用，利用Keras框架实现的，具体代码，以后会在GitHub上公布

2018-12-03

读书笔记之10情感分析论文阅读

阅读了大量的国内关于情感分析的文章，写了一点关于论文的中心思想

2018-12-03

读书笔记之9国际顶级会议

国际顶级会议的关系，NLP有自己的专属论文网站，还有个专门讨论学习的网站：我爱NLP

2018-12-03

读书笔记之8文本特征提取之word2vec

文本预处理：分词，取出停用词，过滤低频词汇，编码归一化等；文本向量化：如使用向量空间模型VSM(Vector Space Model)或者概率统计模型对文本进行表示，使计算机能够理解计算，用的方法基于集合论模型。基于代数轮模型。基于频率统计模型等等；文本特征提取和选择：特征提取对应着特征项的选择和特征权重的计算。

2018-12-03

读书笔记之7TF-IDF算法实现关键词抽取

TF-IDF（term frequency –inverse document frequency）频率—反文档频率，是一种用于咨询检索与咨询探勘的常用加权技术。TF_IDF是一种统计方法，用以评估一字词对于一个文件集成或一个语料库中的其中一份文件的重要程度。字词的重要性随着他在文件中出现的次数呈正比地增加，但同时也会随着它在语料库中出现的频率呈反比地下降。

2018-12-03

读书笔记之6中文自言语言处理的完整流程

1、获取语料 2、预处理 3、特征工程 4、特征选择 5、模型训练

2018-12-03

FundanNLP框架简单的使用笔记

FNLP是FuDanNLP的缩写，是复旦大学对汉语言处理的框架

2018-12-03

中文分词Java（FuDNLP）及Python使用

分词工具的选择，jieba的三种模式、FunNLP、HanNLP分词工具的使用，解释了分词的流程

2018-12-03

读书笔记2之中文分词流程HanLP

本文档简单介绍了中文分词流程，可以细入某个领域进行研究，但是，据了解，中文分词有很多框架了，其中采用C语言的哈工大自然语言处理实验室、有复旦大学的FNLP、有商业公司支持的HanLP、斯坦福大学的....等等，这些都是开源框架，可以查看里面的源码，选择一个框架，首先看他的在社区的活跃度，比如：查看GitHub中的star、再其次看他是否是开源的框架、再其次看易用性、广泛性

2018-08-20