菜的掉渣-CSDN博客

原创（四）LR和SVM原理及实践

1、逻辑回归知识点介绍：逻辑回归（LR）就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型。回归方程如下：实际上LR仅仅是在线性回归上增加了一个非线性函数（sigmoid）。过程：涉及的知识点主要有极大似然、对数损失函数、梯度下降法更新参数。模型评估： LR用于二分类，常用的AUC评价模型性能。参数说明： sklearn.linear_model...

2019-04-10 10:55:12 347

原创（三）word2vec词向量原理与实践

word2vec原理：词向量提取工具，主要有两种模型。分别是CBOW和Skip-Gram。前者通过上下文预测中心词，后者通过中心词预测上下文。代码： texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'us...

2019-04-09 23:28:44 271

原创（二）TF-IDF理论及实践

向量化文本数据，通常也会选择TF-IDF这种方法。 1.理论：如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（Term Frequency，缩写为TF）统计。首先，我们要去停用词。再计算词频。但是问题出现了，如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。为了解决上述问题，采用最常见的词（"的"、"...

2019-04-06 20:19:25 514

原创（一）“达观杯”赛题和数据解读

题目：建立模型通过长文本数据正文(article)，预测文本对应的类别(class) 。题目解读：文本分类任务的实现，本矢量化后进行逻辑回归训练。数据：》train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(arti...

2019-04-05 21:55:12 206

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 （四）LR和SVM原理及实践

原创 （三）word2vec词向量原理与实践

原创 （二）TF-IDF理论及实践

原创 （一）“达观杯”赛题和数据解读

空空如也

空空如也

原创（四）LR和SVM原理及实践

原创（三）word2vec词向量原理与实践

原创（二）TF-IDF理论及实践

原创（一）“达观杯”赛题和数据解读