自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

酒狂的博客

人言人有愿,愿至天必成

  • 博客(16)
  • 资源 (2)
  • 收藏
  • 关注

原创 『Tricks』用Python批量获取地理位置的经纬度信息

利用Python来批量自动获取指定位置的经纬度信息,并且将之保存到csv文件中。

2021-07-15 15:06:10 4359 13

原创 『NN』神经网络中的优化(一):梯度下降、随机梯度下降与mini-batch梯度下降

一、梯度下降(Gradient Descent)二、随机梯度下降(Gradient Descent)三、Mini-batch梯度下降(Mini-batch Gradient Descent)

2021-05-08 21:06:39 1139 2

原创 『ML』利用SVD(奇异值分解)实现推荐系统及图像压缩——《机器学习实战》学习笔记(Ch14)

本节用Python实现奇异值分解SVD算法,重点介绍了它在推荐系统以及图像压缩方面的应用。主要参考《机器学习实战》—— Peter Harrington著。

2020-08-21 00:22:00 759

原创 『求助帖』记录一次失败的句子相似性实验

在写下这篇博客之前,我以为我的毕业论文进展一帆风顺。可是现在,请各位大神救救孩子。

2020-05-27 20:15:29 1215 13

原创 『ML』用Python实现聚类效果的评估(轮廓系数、互信息)

好的聚类:类内凝聚度高,类间分离度高。本文介绍两种聚类评估方法,并且用Python实现。

2020-04-19 08:53:42 6899 1

原创 『反思』K-Means聚类时可能存在的问题——薛定谔的最优解

在利用K-Means对句子向量进行聚类的时候,发现了两种容易疏忽的错误。

2020-04-15 12:01:42 5101 1

原创 『论文阅读』SIF:一种简单却难以打败的句子嵌入方法

SIF平滑逆频率论文阅读笔记。计算句子中单词向量的加权平均值,然后删除平均向量在其第一个主成分上的投影(“公共成分去除”)。

2020-04-08 15:30:28 5294 4

原创 『Tips』numpy reshape的用法

reshape:在不更改数据的情况下为数组赋予新的形状。

2020-04-05 17:08:24 372

原创 『ML』利用K-Means聚类算法对未标注数据分组——《机器学习实战》学习笔记(Ch10)

本节用Python实现K-Means算法,对未标注的数据进行聚类。主要参考《机器学习实战》—— Peter Harrington著。

2020-03-31 23:59:30 1873 2

原创 『LDA主题模型』用Python实现主题模型LDA

用Python gensim包实现主题模型LDA。最后打印出文档-主题分布以及主题-词分布。

2020-03-26 09:56:29 8262 8

原创 『关键词挖掘』结合 LDA + Word2Vec + TextRank 实现关键词的挖掘

利用Python,结合LDA + Word2Vec + Pagerank 实现关键词的挖掘。先用 LDA 方法初步选择出主题及其词分布,接着将每个主题下的词表示为词向量,用相似性表示词与词之间的权重,最后用 TextRank 方法对于主题下的关键词进行二次过滤。

2020-03-25 22:55:23 9560 16

原创 『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

利用Python代码实现中文文本的自然语言处理,包括分词、去标点符号、去停用词、词性标注。在刚开始的每个模块,介绍它的实现。最后会将整个文本处理过程封装成 TextProcess 类。

2020-03-25 11:35:20 15263 8

原创 『Tricks』用Python读取Excel文件数据

利用Python来读取Excel的数据,将每一行的数据保存到dict字典中,然后将字典保存到list中,最后将某一列的内容保存到txt文件。

2020-03-24 18:21:38 511

原创 『词向量』用Word2Vec训练中文词向量(二)—— 采用维基百科语料库

本文是在『词向量』用Word2Vec训练中文词向量(一)—— 采用搜狗新闻数据集 的基础上,将搜狗与维基两个语料库合并,进而训练出较好的词向量模型。

2020-03-14 13:51:51 3870 25

原创 『词向量』用Word2Vec训练中文词向量(一)—— 采用搜狗新闻数据集

用搜狗新闻数据集来训练中文词向量(Word2Vec),自己做的时候踩了很多的坑,希望分享出来让大家少走弯路。

2020-03-12 22:24:46 16017 33

原创 『文献回顾』“文本自动摘要” 相关文献综述

文献回顾——『自动摘要』在大四毕设选题时,我选到了『在线评论信息的自动摘要技术研究』的题目。因此,我决定在此记录所读的每一篇文献的思路及方法,一方面用于理清每篇文章的思路,另一方面便于日后写论文中的文献综述部分。此后,随着研究的深入,我会将毕设所用的思路及代码实现进行分享。自动摘要概述目的:将大量的文本用简...

2020-03-07 21:25:37 1097 4

A Simple but Tough-to-Beat Baseline for Sentence Embeddings.pdf

SIF:一种简单却难以打败的句子嵌入方法 文章导航https://blog.csdn.net/qq_42491242/article/details/105381771

2020-04-08

iconv.rar - 编码转换工具

win_iconv - 编码转换工具,下载后解压,复制iconv.exe到C:\Windows\System32,即可使用。

2020-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除