自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (2)
  • 收藏
  • 关注

原创 白话自然语言处理(2)之文本分类

背景话说两年前我一脸蒙圈地开始了自己文本挖掘的职业生涯,领导给我的第一个任务就是文本分类任务。小伙伴手把手教我怎么来做一个三分类任务,上手还挺快,正能量爆炸,原来这就自然语言处理,也没有那么复杂吗?无知者无畏。自然语言处理博大精深,越到细节处越是难,一不小心就从入门到放弃了。一个好的新手任务是入门到深入的前提,而文本分类任务就是一个很不错的选择,保准给你打满鸡血,至于能不能坚持到最后?就暂时不是我们关心的问题。万事开头难,好的开头有好结尾的概率会高一点。不啰嗦,回归正题开始胡说八道。什么是文本分类分

2020-09-20 22:10:52 261

原创 白话自然语言处理(1)之概述

这是一个瞎扯淡自然语言处理的系列,讲讲自己的经历以及自然语言处理的基本知识,或片面或错误,纯属扯淡。我和自然语言处理的缘分,开始于17年吧,那时候马上要毕业了,发现自己啥也不会,刚好有个师兄在大米做聊天机器人,可以内推。于是开始抱佛脚,一开始觉得还挺有意思的,反正自己平时也喜欢看yy小说,我想这大概是有益处的。大概学习一个新领域,总是会去先读一篇概述,理解这个领域是要解决什么问题,目前进展如何,相关的算法有哪些,balala…一通名词下来,似懂非懂。什么是自然语言处理一言以蔽之,通过计算机处理人类语

2020-06-06 22:26:39 310

原创 python multiprocess——多进程加速

文章目录1. 前言2. multiprocess详解2.1 Process2.2 Pool (进程池)写在最后名词解释参考1. 前言现在cpu动不动就是6核12进程,计算能力越来越强,但是我们真的都用上了么?在跑python代码时,请打开你的后台监控,看看python的CPU占比。如果不做特殊处理(排除你调用的库),很有可能你的代码最高只能占用100%,资源利用率低下。还有另外一个故事,当你的计算复杂度很高的时候,比如处理某些大文件,如果你只用一个进程,很有可能得跑24小时,为了加速,你就得想办法把你

2020-09-30 22:44:06 8419 1

原创 python pickle——万能持久化工具

文章目录前言pickle详解写在最后参考前言今天的故事从持久化开始,最早知道持久化这个是上历史课上,太祖论断的xxx持久化,从此持久化就是一个高端、大气、上档次的词语。后来转行当程序员,老是听小伙伴说数据持久化,不明觉厉,不过因为懒,也没去搞明白是啥意思!今天刚好想学习pickle的知识,看到了持久化一词,去查了一下,哦,原来如此,妙不可言——果然是假大空!我已经浅薄地理解为把数据存储起来!之前在python基础里面我们有谈到过python文件读写,其实就是一种字符串的持久化方式。那么我们可以把数据想

2020-09-30 22:01:13 447

原创 python 函数——结构化思维

点赞再看,养成习惯,微信公众号搜索【yibinzer2020】关注这个爱发技术干货的程序员。文章目录引言函数基础其他知识总结参考引言说到函数,想必大家都知道,初中某天数学课上,光头的老师不耐其烦地给我们讲述着函数这样一个概念,我们则再春风地诱惑下向往梦乡。也曾经有不知道多少脑细胞在和函数的战斗中阵亡,线下函数、二次函数、指数函数、三角函数、简单函数、复杂函数、特殊函数、复变函数、泛函数…总有一款让你爽一爽函数基础一时说的太远,忘记怎么讲python的函数了!编程语言中的函数可以理解地更简单点,.

2020-09-29 23:21:46 252

原创 python 编程基础 —— 大厦必不可少的砖瓦水泥

掌握python基本语法后,我们可以在骚骚地写一些小脚本,当时总感觉少了点什么?文件读写我们要加载外部的文件怎么办?我们要存储自己计算好的数据怎么办呢?这个时候我们需要用到文件读写功能。我们先打开一个文件对象# file = open(file_name [, access_mode][, buffering])file_1 = open('python大法是好剑客.txt', 'r') # 只读文件file_name是文件名或着文件的path,access_mode用来制定文件操作的模式,如果

2020-09-26 10:35:34 596

原创 python 基本语法——语法基础决定上层建筑

今天来讲一些老生常谈,但凡学习一门语言都逃不过基本的语法,我们也来叨逼叨逼。不过不想事无巨细地讲,因为没有意义,估计讲完了大家都忘记了,我们挑钟爱你,其他的可以自学。变量,学习一门语言第一件事可能是打印hello world,打印完后就可以学习变量。变量,怎么解释呢?简单来看就是一个用来指代对象的量。python里面的变量很好定义,比如你要定义变量a等于1a = 1对比Java、C啊什么的,大家有没有发现少了什么东西?对,就是少了变量声明。python是一门动态语言,什么叫动态?就是可以根据赋给变量

2020-09-25 23:17:37 310

原创 python with关键字——I/O好伴侣

学习python的朋友都知道文件读写的基本操作,通常我们读写文本的姿势是这个样子的:f = open(file_name)...f.close()每次定义一个文件读写对象,在操作完成后,我们都需要进行关闭操作,如果你一不小心忘记了,恭喜你中奖了?你的程序很可能发生内存泄露,然后内存溢出,然后就挂了。这样的事情发生的概率挺高的,我以前就总是这样,因为打开文本后,很可能一顿操作,代码写得很开心,自然忘记风险,忘记f.close …那么怎么避免类似的事情发生呢?这时候with就该出场了。我们只需要:

2020-09-24 23:59:37 2049

原创 python import——高效编程第一步

任何一门成熟的语言,背后都有无数的开发者贡献各种函数库/包,这些函数包/库让后来的开发者工作更简单高效。python语言就是一门函数库丰富的语言。那么我们怎么才能使用外部函数库/包呢?这时候就离不开import了!(当然前提是你安装了该函数库,可以使用pip install 或者conda install,这点在之前的文章中已经介绍 https://www.jianshu.com/p/8ac804efecea)下面我们介绍import 函数库的各种姿势 (在脚本最开始的地方申明)a)可以简单点:impo

2020-09-23 23:11:22 226

原创 python列表推导式——让你的代码简洁到窒息

python语言的一大优点就是简洁大方容易上手,而列表推导式这一特性无疑是非常python的一种特性,他能让你的代码简洁到窒息。小举一个例子,比如你想得到1:10之间素有的偶数,最直接的方法就是写一个循环:result = []for i in range(1, 11): if i%2 == 0 result.append(i)需要四行来实现,如果我们选择列表推导式呢?[i for i in range(1, 11) if i%2==0 ]一行解决问题!是不是很方面吧。你升至可以多层

2020-09-22 21:22:25 218

原创 python print函数——打开新世界的钥匙

大家学习一种语言,最新被科普的就是在屏幕上打印一句话“hello world”,这是就需要使用到print函数,它就像打开新世界的钥匙。下面我们总结一下python的print函数:print(*objects, sep=’ ‘, end=’\n’, file=sys.stdout)函数的输入如上,print允许同时打印多个变量,通过sep来连接变量,同时每次打印后都会以end结束,默认是换行符,也就是你每一次打印,都会另起一行,如果你不想这么干,可以尝试微调end。 print函数可以直接打印到文件,

2020-09-22 21:05:17 96

原创 小白如何快速训练词向量

但凡谈及自然语言处理,我们都会想到词向量,那么怎么快速地获得词向量呢?最简单的方法就是word2vec。本文不深究word2vec的原理,网上很多细致深入的解读,大家可以自行搜索。今天总结一下如何快速训练自己的词向量,作为参考个人的手册。####1、 语料丰富、高质量的语料是词向量成功第一步。前两天学到一个名词,叫自监督学习,word2vec就是其中一种。自己监督自己,很容受到噪声的干扰,如果数据不干净,结果也会谬以千里。word2vec虽然不是统计算法,但是训练过程中很大程度上在理解上下文,在理解

2020-09-17 19:45:45 2240

原创 NLP小白必备git集合

https://github.com/huseinzol05/NLP-Models-Tensorflow nlp模型demo大集合,非常适合入门的朋友学习https://github.com/Morizeyao/GPT2-Chinese GPT2 预训练模型,想要日更上百的朋友你还犹豫什么?https://github.com/ChineseGLUE/ChineseGLUE中文自然语言处理标准测试,你的模型效果怎么样拉出来溜溜啊?这里有标准的数据集,最新的top算法结果,就看你能不能超越了?htt.

2020-06-08 23:34:43 378

原创 python小白必备正则表达式知识

最近使用python正则进行数据清洗,发现背书后长久没有实践尽然忘的一干二净,于是乎计划写这样一个汇总性的小文记录一下基本知识,待下次忘记了,用来回顾。正则是啥?我现在的理解是使用一些通用的标识符构成一串匹配规则或者模式,用于识别字符串中满足该模式的所有子字符串。作用就是通用性,正则表达式可以看作一类字符串的抽象或者总结。正则表达式用目前,个人常用来进行数据清洗,特殊字符串识别比如说网址 balabala…正则表达式基本知识(元)字符:{ \d : 数字, \w : 字符(字母、数字、下划

2020-06-08 23:28:24 134

原创 python小白如何玩转虚拟环境

为什么需要虚拟环境通过虚拟环境,我们可以安装不同版本的python或者package版本。方便我们在不同开发环境下切换。安装和管理虚拟环境的方法通过virtualenv安装,自己管理pip install virtualenvvirtualenv xxx 创建name为xxx的虚拟环境virtualenv -p /usr/bin/python2.7 xxx 创建python2.7版本的升级版virtualenvwrapper 可以管理虚拟环境目录通过anaconda安装并管理安装

2020-06-07 18:20:09 270 1

原创 python之anaconda安装

为什么anacondaanaconda集成了各种python常用库,特别适合做数据分析和科学计算的同学打包安装,傻瓜式,特别方便。妈妈再也不用担心我们缺依赖!!!流程通过国内镜像源下载安装包【根据自己的系统选择】,也可以官网下载,但是很慢。wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.02-Linux-x86_64.sh安装,注意你可以指定自己的安装路径,毕竟服务器上大家都有自己的环境。bas

2020-06-06 22:28:19 178

文本匹配模型汇总ppt

本ppt汇总最近流行的文本匹配模型,让你一览文本匹配的典型深度学习模型。从简单的双塔模型到复杂的交互模型,做了简单的介绍和总结。

2020-09-22

文本分类算法_20200315.pptx

对常用的文本算法进行了总结,介绍了算法的基本原理以及优缺点,适合新手阅读也适合老司机查漏补缺。发现不足欢迎交流。

2020-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除