自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 (四)LR和SVM原理及实践

1、逻辑回归 知识点介绍: 逻辑回归(LR)就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型。回归方程如下: 实际上LR仅仅是在线性回归上增加了一个非线性函数(sigmoid)。 过程: 涉及的知识点主要有 极大似然、对数损失函数、梯度下降法更新参数。 模型评估: LR用于二分类,常用的AUC评价模型性能。 参数说明: sklearn.linear_model...

2019-04-10 10:55:12 347

原创 (三)word2vec词向量原理与实践

word2vec原理: 词向量提取工具,主要有两种模型。分别是CBOW和Skip-Gram。前者通过上下文预测中心词,后者通过中心词预测上下文。 代码: texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'us...

2019-04-09 23:28:44 271

原创 (二)TF-IDF理论及实践

向量化文本数据,通常也会选择TF-IDF这种方法。 1.理论: 如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF)统计。 首先,我们要去停用词。再计算词频。 但是问题出现了,如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。 为了解决上述问题,采用最常见的词("的"、"...

2019-04-06 20:19:25 514

原创 (一)“达观杯”赛题和数据解读

题目: 建立模型通过长文本数据正文(article),预测文本对应的类别(class) 。 题目解读: 文本分类任务的实现,本矢量化后进行逻辑回归训练。 数据: 》train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(arti...

2019-04-05 21:55:12 206

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除