自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 机器学习常用损失函数汇总

常用分类,回归损失函数汇总:一、均方误差:二、平均绝对误差(L1)MSE与MAE误差比较:若误差率E>1,由图可知,MSE会进一步增大误差,如果数据种存在异常点,会使得(E)^2变得非常大。如果最小化MSE,对所有样本的样本点只给出一个预测值,那么最小化MSE一定是所有样本的均值,可由公式推理;但是如果最小化MAE,则是所有样本点的中位数;中位数对异常值较为鲁棒,不敏感;MAE存在一个严重问题,在神经网络中梯度更新始终相同,即使很小的损失值,梯度也是相同,不

2020-09-29 15:22:49 363

转载 文本分类深度学习实践_学习记录

word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:也就是说模型的输出概率代表着到我们词典中每个词有多大可能性跟input word同时出现。例如:如果我们向神经网络模型.

2020-07-31 21:19:04 202

原创 天池新闻文本分类fasttext实践_datawihle组队学习

One-hot Bag of Words N-gram TF-IDF上述方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。与这些表示方法不同,深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Em

2020-07-27 22:47:32 176

原创 天池新闻文本分类TF-IDF实践_datawihle组队学习

首先是基本的ONE-HOT编码实现词嵌入,这里就不做赘述。Bag of WordsBag of Words(词袋表示),也称为Count Vectors,每个文档的字/词可以使用其出现次数来进行表示。句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海直接统计每个字出现的次数,并进行赋值:句子1:我 爱 北 京 天 安 门转换为 [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]句子2:我 喜 欢 上 海转换为 [1, 0, 0, 0, 0, ...

2020-07-25 20:25:15 154

原创 天池新闻文本分类EDA_datawihle组队学习

首先读取训练集,由于数据量过大,并且文件路径中含有中文,所以这里的解决方法一:train_df = pd.read_csv('C:/Users/杨浩然/Desktop/nlp_新闻文本分类/train_set.csv', sep='\t', nrows=100,engine='python')添加nrows限制读取行数,并且因为PY3调用read_csv时默认使用C 作为解析引擎,导致中文路径出错,添加engine可以解决中文路径问题。针对数据量过大读取初始化错误,同时也可以解决中文路径问题,直

2020-07-22 19:56:22 177

原创 天池新闻文本分类赛题理解_datawihle组队学习

nlp天池新闻文本分类,将20W条文本数据分别分为:5W的A测试集,5W的B测试集,并且防止选手作弊人工标注标签,将文本字符匿名转化为数字表示,并且标签与类别对应关系为:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13},使用F1_score作为评估指标:此赛题为多分类问题,需要使用micro

2020-07-21 20:55:33 109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除