- 博客(4)
- 收藏
- 关注
原创 (四)LR和SVM原理及实践
1、逻辑回归 知识点介绍: 逻辑回归(LR)就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型。回归方程如下: 实际上LR仅仅是在线性回归上增加了一个非线性函数(sigmoid)。 过程: 涉及的知识点主要有 极大似然、对数损失函数、梯度下降法更新参数。 模型评估: LR用于二分类,常用的AUC评价模型性能。 参数说明: sklearn.linear_model...
2019-04-10 10:55:12 347
原创 (三)word2vec词向量原理与实践
word2vec原理: 词向量提取工具,主要有两种模型。分别是CBOW和Skip-Gram。前者通过上下文预测中心词,后者通过中心词预测上下文。 代码: texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'us...
2019-04-09 23:28:44 271
原创 (二)TF-IDF理论及实践
向量化文本数据,通常也会选择TF-IDF这种方法。 1.理论: 如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF)统计。 首先,我们要去停用词。再计算词频。 但是问题出现了,如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。 为了解决上述问题,采用最常见的词("的"、"...
2019-04-06 20:19:25 514
原创 (一)“达观杯”赛题和数据解读
题目: 建立模型通过长文本数据正文(article),预测文本对应的类别(class) 。 题目解读: 文本分类任务的实现,本矢量化后进行逻辑回归训练。 数据: 》train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(arti...
2019-04-05 21:55:12 206
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人