自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小道的博客

NLP从青铜到王者

  • 博客(33)
  • 收藏
  • 关注

原创 NLP短文本聚类算法(2)

本文详细整理下文本的特征抽取,从one-hot到transformer

2019-10-11 16:28:04 525 2

原创 NLP短文本聚类算法(1)

由于工作原因,无监督的将相似句聚类,所以需要对聚类算法有比较深入的研究,单纯的调用sklearn无法满足工作需求,故对其进行实现。本文主要分三部分,第一部分描述对层次聚类的总结(因为这是工作中最终选取的算法),第二部分描述kmeans算法(谈聚类怎么能不谈kmeans),第三部分描述神经网络的聚类算法(这部分还没仔细研究,先挖个坑)(一)聚类算法综述机器学习中,对数据的...

2018-08-10 22:56:11 3022 3

原创 LeetCode二叉树问题全解--Python版(一)

LeetCode二叉树问题全解–Python版二叉树是由若干个节点组成,节点连接起来就成了二叉树,而节点由一个值、指向左右的两个指针组成创建树实际上就是创建节点,然后连接节点节点的数据类型每个节点都有值和左右孩子,如果没有则写None。Python代码如下class TreeNode(): def __init__(self, value): self.val = value self.left = None self.right = No

2020-07-27 17:36:15 549

原创 go正则表达式函数简介及简单示例

go语言正则表达式函数调用regexp包实现正则MatchString函数:MatchStringsentence = "3214521421"match, err := regexp.MatchString("[0-9]", sentence)这里返回的match是bool值对于其他的正则匹配任务,需要使用Compile来使用一个优化过的正则对象compile函数:*Com...

2020-02-28 16:38:31 720

原创 python pop

python pop函数字典popPython 字典 pop() 方法删除字典给定键 key 及对应的值,返回值为被删除的值。key 值必须给出。 否则,返回 default 值。dict.pop(key)test = {'name': 'heng', 'age': 30}result = test.pop('name')print(result)heng列表pop移除列表中...

2019-11-07 11:39:46 1128

原创 LeetCode 爬楼梯

这是LeetCode第71题的解法,做个备忘,下次要2min内写出。

2019-10-24 10:01:37 122

原创 LeetCode 1. 两数之和(Python)

两数之和只需按顺序读取列表,判断target-i是否在字典即可nums = [2, 7, 11, 15]target = 9class Solution: def twoSum(self, nums, target): tmp = {} for index,i in enumerate(nums): if target-i ...

2019-10-15 19:00:19 200

原创 梯度下降原理

梯度下降作为计算机处理优化问题的最重要方法之一,需要透彻理解其原理

2019-10-15 15:33:44 106

原创 逻辑回归原理及解析

目前使用的传统分类模型中,LR占有重要地位,在数据量少时也能发挥比较大的作用,可以作为baseline。这里详细整理逻辑回归的原理

2019-10-15 15:32:26 302

原创 TensorFlow基础

深度模型在绝大部分的NLP任务中效果都超越了传统模型,工业界也有很多的应用。在工业界中TensorFlow是很常用的框架,小道自己用的也比较多,但感觉也不是很系统,这里通过几个例子系统学习下TensorFlow。...

2019-10-15 14:47:54 79

原创 numpy基础

做NLP可能会涉及的Numpy操作

2019-10-15 11:01:30 72

原创 链表相关(Python)

作为重要数据结构之一的链表,是必须掌握的知识之一,这里把做过的LeetCode链表相关题目的思路整理一下。先使用Python,在使用Go,脚本语言和编译语言都需要掌握。...

2019-10-13 10:50:01 105

原创 Pandas基础

Pandas相关操作Pandas 是python的一个数据分析包,在做NLP任务时可以极大的提高我们的处理效率,所以需要一些入门的知识。小道会在这章里自己涉及到的全部pandas操作。文章是用MD写的,大家可以根据右侧的目录查看自己感兴趣的操作。pandas读取csv文件pandas读取csv文件使用函数read_csv,可以将csv文件读取为DataFrame。这里用示例详细演示。这里写...

2019-10-11 15:10:38 145

原创 文本分类(一)

NLP最重要的一个任务就是文本分类,最直接的,需要判断是什么类别的文章,是体育的还是新闻的。类似的还有判断是消极的还是积极的,我自己做过一些任务也都可以归结到文本分类中,比如判断一句话是闲聊还是非闲聊,判断一条评论是正向的还是负向的。...

2019-10-09 18:28:45 390

原创 NLP任务梳理

在公司做NLP也做了1年多了,学校学习了3年,发觉知识还不是很系统,最近几个月花时间来归纳总结一下所学知识,梳理一下NLP的路线,为成为更好的NLP算法工程师而努力,主要是给自己看的,所以可能会有些啰嗦,参考的文章在文末我都会附上链接。如果有幸能帮助到一些新入门NLP的同学,那更加有意义了。既然开了博客,这里就先立一个Flag,每周更新2篇(每篇超过1000字),年前把自己做过的NLP任务都涉及...

2019-10-09 18:28:09 267 1

原创 Ubuntu安装搜狗拼音输入法候选栏乱码解决方案

输入如下命令:cd ~/.configsudo rm -rf SogouPY* sogou*然后注销即可(注意,这里必须是注销,不注销直接重启并不管用)

2018-10-12 15:43:09 6438 4

原创 Python将多个空格换为一个空格.md

Python将多个空格换为一个空格最近在文本预处理时遇到这个问题,解决方法如下:import restr1 = ' rwe fdsa fasf 'str1_after = re.sub(' +', '', str1)print(str1_after)进一步的,可以将多个数字转换为特定符号,如‘num’,这一步在自然语言预处理中也常用,因为有时候我们并不关心是什么数,只关心...

2018-09-27 14:57:54 26685

原创 go入门-按行读取文件返回列表

使用自带的bufio包中的NewReader方法,代码如下func getContent (filename string) []string{ fileIn, fileInErr := os.Open(filename) if fileInErr != nil{ fmt.Println("error!") } defer fileIn.Cl...

2018-09-07 14:12:08 1437

原创 python3操作excel完成报表合并

顺手帮同学个小忙,他的任务是每个月要将每天的报表合并为一个大的报表。由于他完全没有编程基础,所以做了个小界面,并做成exe文件,使其可以傻瓜式运行。记录一下实现过程,代码在我的github目录下。由于没有使用python操作过excel,所以在网上查了些资料,记录如下:python操作excel需要导入xlwt(write package)和xlrd(read package)直接pip ...

2018-08-25 14:25:17 2351 2

原创 Linux 服务器搭建Java环境

1.下载 jdk,选择适合自己系统的版本进行下载,我下的是 jdk-8u60-linux-x64.tar.gz2. tar -xf 命令进行解压3.将解压得到的jdk1.8.0_60文件夹移动到/opt/Java文件夹:sudo mv jdk1.8.0_60 /opt/Java (注意:jdk1.8.0_60后没有/, 使用tab自动补齐会自带/,会导致没有文件夹名,进而导致后面配置环...

2018-08-23 19:32:22 319

原创 windows配置Linux虚拟机

1.下载虚拟机Vmware,链接:http://forspeed.onlinedown.net/down/VMware-workstation-full-12.1.1-3770994.zip 注册码:5A02H-AU243-TZJ49-GTC7K-3C61N 2.下载ubuntu镜像文件,链接:https://pan.baidu.com/s/1i5DMOfF 百度网盘 ...

2018-08-23 19:31:03 140

原创 刷题 集合

while 1:    n_m = raw_input()    if n_m == "":        continue    n,m = [int(x) for x in n_m.strip().split()]    set_1 = raw_input()    set_2 = raw_input()    if set_1 == "":        co

2017-09-08 00:02:36 262

原创 LintCode 移动零 python

描述:给一个数组 nums 写一个函数将 0 移动到数组的最后面,非零元素保持原数组的顺序样例:给出 nums = [0, 1, 0, 3, 12], 调用函数之后, nums = [1, 3, 12, 0, 0].代码:class Solution: # @param {int[]} nums an integer array # @retur

2017-09-03 11:46:22 779 1

原创 LintCode 字符串置换 python

描述:给定两个字符串,请设计一个方法来判定其中一个字符串是否为另一个字符串的置换。置换的意思是,通过改变顺序可以使得两个字符串相等。样例:"abc" 为 "cba" 的置换。"aabc" 不是 "abcc" 的置换。代码:class Solution: """ @param: A: a string @param:

2017-09-03 11:20:59 603

原创 ImportError: cannot import name 'NUMPY_MKL' (skicit_learn)

在试验使用tfidf的代码时出现这个错误,网上说是numpy和scikit的版本不匹配,我的python版本是3.4,这两个包都是用pip安装的,然后出错了!于是照着网上的思路:1)卸载pip安装的numpy,pip uninstall numpy即可(若果有两个版本的话注意是用pip2或者pip3),从网站http://www.lfd.uci.edu/~gohlke/pythonlibs/#

2017-05-25 09:02:58 471

原创 爬取csdn部分博文

老师让参加2017年SMP的用户画像评测,将本次评测的相关内容写博客记录一下: 关于评测请看官网:2017SMP用户画像评测 6月1号发布相关数据,这段时间老师让总结一个技术路线,所以先爬点csdn的博文数据做些规划。 下面详细介绍如何爬取部分博文。 爬虫的基础知识这里不做介绍。初步的将代码分为三部分,最后在进行归纳总结。 首先需求只是获取csdn的博文,决定爬取全部的专家博客作为数据集,

2017-05-19 19:35:12 413

原创 latex初识

写论文的时候latex用的实在不熟,一个问题困扰好久,现在挖个坑, 等这个论文写完之后填上,说一说latex的入门

2017-03-26 15:45:20 212

原创 visual studio code 配置python3环境(Mac下和windows下一样)

以前一直是使用eclipse来进行python的调试运行,后来发现了atom,觉得自定义插件很方便,更换主题、特效、高亮、自动补齐什么的都很随意。(很大的原因是eclipse的感叹号和错号看的头疼,应该能用设置去掉,但是我不会也懒得整,就用atom了。)作为git社区的扛把子产品还是挺好用的,但是界面我还是不太喜欢(尤其debugger的时候,字太小,我也不会自己开发新的插件包。后来就发现vsc这

2016-09-19 16:50:12 17469

原创 杀毒软件影响python运行速度

这几天打开电脑忽然发现反应变慢了,python也莫名其妙的变慢了,一个hello world 都需要四五秒,经过努力排错,发现是前几天下的金山毒霸的锅,卸载之后就变好了,系统反应也变快了。

2016-07-24 09:20:30 721

原创 SyntaxError: Non-UTF-8 code starting with

python3.5中遇到的问题,原因是eclipse的默认编码格式和python的编码格式冲突,只需更改eclipse的默认编码格式为utf-8就可以正常使用了。

2016-07-07 21:59:09 1280

原创 为什么叫感知机

[html] 某天讲关于svm的论文,讲到感知机的时候,老师提了个问题:为什么叫感知机,一下把我问住了,查阅了一些资料,下面写写自己的理解。 感知机是从英文翻译过来的,英文为:perceptron,这个词是专门给感知机新造的(搜索perceptron只有一个解释就是神经网络中的感知机)。 根据老美造词儿的习惯,也就是跟意思相近的词做词根在加点词性的后缀。

2016-05-27 20:33:00 2125

原创 文本预处理小结

#coding=gbk'''Created on 2016-01-14 08:56:27@author: heng'''import reimport datetimestart = datetime.datetime.now()file1 = open('I:\\test1\\8. Tweet and Retweets with indexed content\\weiboconte

2016-01-26 15:50:22 454

转载 windows 下安装pip

转载:http://www.cnblogs.com/yuanzm/p/4089856.html这篇文章真是帮了我大忙了,想安装pip下的一个wheel,没想到整了好几个小时,不会弄pip。推荐这篇在windows下安装pip的文章,很详细,可以解决问题。

2016-01-24 20:38:02 1134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除