自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lip

蓦然回首,往事成风

  • 博客(32)
  • 收藏
  • 关注

原创 文本分类深度学习算法:FastText、TextCNN、TextRNN、RCNN、HAN

文本分类深度学习算法:FastText、TextCNN、TextRNN、RCNN、HAN、bert等这里综述了一些常用的关于文本分类的深度学习算法,其中包括:FastText、TextCNN、TextRNN、RCNN、HAN、bert的原理的简要介绍,以及相关的代码链接。由于作者比较懒,就放上自己的知乎链接,有需要的点进去即可。知乎:https://zhuanlan.zhihu.com/p/...

2019-09-08 20:30:25 3337

原创 JAVA、maven、IDEA环境配置

JAVA、maven、IDEA环境配置本文主要介绍在Windows系统下,java、maven以及IDEA三个的环境配置的方法。JDK、JRE环境配置1. 下载JDK文件并安装访问网站:https://repo.huaweicloud.com/java/jdk/8u151-b12/。选择Windows系统下的64位jdk,并下载下来。之后安装到你指定的位置:C:\Program Files\Java(这是你JDK和JRE的安装位置,要设置好,之后配置环境需要使用。一般来讲,JRE会自动安装好)

2020-07-23 19:37:30 699

原创 GO语言入门:常量

GO语言-iota枚举iota是个常量自动生成器,每个一行,自动加1iota给常量赋值使用iota遇到const,重置为0同一个圆括号中,可以只是用一个iota

2019-10-09 21:48:22 217

原创 GO语言入门:变量

GO语言中的变量声明变量1.声明 var 变量名 类型 变量声明之后,必须要使用2.只声明便量,则默认为03.在同一个{}中,声明的变量是唯一的var a intvar b int = 10自动推导式var a = 10a:=10多重赋值a,b = 10, 20交换值a, b = b,a匿名变量tmp,_ :=7,8...

2019-10-09 21:10:19 167

原创 逻辑斯蒂回归算法

逻辑斯蒂回归算法

2019-10-04 17:39:51 556

原创 python中读取CSV(TXT)文件数据或将数据写入到CSV(TXT)文件中

python中读取CSV(TXT)文件数据或将数据写入到CSV(TXT)文件中1.pandas方式读取文件中的数据:我们常用的方式就是通过调用pandas包来实现对文件的读取:pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=...

2019-10-02 23:06:08 26793 3

原创 GDBT模型、XGBoost和LightGBM之间的区别与联系

GDBT模型、XGBoost和LightGBM之间的区别与联系

2019-10-02 22:42:58 483

原创 提升树模型:从提升树到GBDT树

提升树模型:从提升树至GBDT树、XGBoost以及LightGBM提升树GBDT树XGBoostLightGBM对比与总结

2019-09-28 12:22:02 278

原创 集成学习方法-Boosting-Adaboost

集成学习方法-Boosting-AdaboostAdaboost算法:AdaBoost,英文为‘Adaptive Boosting’,它的自适应在于:1. 样本权重的自适应学习 2. 模型系数的自适应学习。相对于RF算法,Adaboost更加专注于偏差,它可以降低基学习器的偏差,对基学习器进行进一步的提升。算法流程:(1) 初始化训练数据的权值分布,对每个样本赋予同样的权值W=1/N。...

2019-09-22 16:43:41 161

原创 集成学习方法-bagging-RandomForest

集成学习方法-bagging-RandomForestBagging:集成学习的主要想法是将若干个弱分类器,通过线性组合,组成一个较强的模型。bagging集成学习的方式,可以实现模型的并行化训练,并且能有效的降低方差。Bagging算法流程::(1) 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本。共进行k轮抽取,得到k个训练集。(k个训练...

2019-09-22 12:29:27 430

原创 ID3、C4.5与CART树的联系与区别

ID3、C4.5与CART树的联系与区别:参考博客:链接1链接2特征选择准则:ID3的特征选择准则为信息增益,即集合D的经验熵H(D)与给定特征A下条件经验熵H(D|A)之差,即:H(D)表现了数据集D进行分类的不确定性,而H(D|A)表现在特征A而使得对数据集D的分类的不确定性的减少。有公式[1]可知,当特征取值较多时,H(D) – H(D|A)的差就越大,ID3决策树会偏向于选...

2019-09-20 20:50:36 519

原创 树模型-CART决策树-撸清算法逻辑

树模型-CART决策树-撸清算法逻辑CART决策树:CART决策树,称为分类与回归树,是一种既可以进行分类,也可以完成回归任务的树模型。CART决策树是一种二叉树,内部节点特征取值表现为‘是’和‘否’。在选择特征上,分类任务选择基尼系数最小化准则,回归任务选择平方误差最小准则。回归树生成:回归树生成的思路是最容易令人理解的,先从回归的角度来讲解。假定给一个数据集合D,在数据集D所在的数...

2019-09-20 16:17:12 564

原创 树模型-ID3决策树-撸清算法逻辑

树模型-ID3决策树-撸清算法逻辑ID3决策树下图是判断是否外出打高尔夫球的决策树:算法流程:从集合D中选择最优切分属性A,衡量是否为最优的切分属性,ID3采用的是信息增益准则。按照属性A将集合切分,判断切分后的集合:如果当前节点包含的样本属于同一类别,则无需划分,并将此叶子节点的类别定为此类;当前属性为空,或者所有样本属性集上取值相同,此叶子节点类别为大多数样本类别;当前集合为包含...

2019-09-19 11:33:21 525

原创 NLP:语言表示之词向量——从onehot到word2vector:CBOW和Skip-Gram

入门NLP:语言表示之词向量——从onehot到word2vector笔者在入学期间从计算机视觉方面来学习深度学习理论,然后在一次实习中,恰巧接触到了NLP领域,并从事了NLP文本分类相关的工作,之后的几篇帖子中也会较为详细的介绍一下相关知识,以便自己更好的梳理。在计算机视觉中,我们处理的数据为图片,其中图片本身就是像素矩阵,也就是说本身为一种数值,可以直接拿来进行相关的处理,但是NLP中要处...

2019-08-27 17:34:49 2037 1

原创 nltk 报错[nltk_data] Error loading stopwords: hostname

nltk 报错[nltk_data] Error loading stopwords: hostname,采用下面代码下载stopwords来解决import nltkimport ssltry: _create_unverified_https_context = ssl._create_unverified_contextexcept AttributeError: ...

2019-08-01 09:54:52 9171 2

原创 关于文本分类(情感分析)的英文数据集汇总

关于文本分类(情感分析)的英文数据集汇总20 Newsgroups数据集:The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. The data is o...

2019-07-31 16:21:32 10964

原创 使用conda&pip创建与管理环境

使用conda&pip创建与管理环境1.在Linux系统中创建虚拟环境在这里,默认大家已经安装好了anaconda或者miniconda,并可以使用conda命令。1.1 在默认/home位置上建立虚拟环境conda create -n env_name python=x.x其中,env_name是你想要创建环境的名字,以便日后你可以使用名字来激活相应的环境,比如你可以将其替换...

2019-07-31 15:21:36 1569

原创 关于文本分类(情感分析)的中文数据集汇总

文本分类(情感分析)中文数据集汇总这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。1.THUCNews数据集:THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们...

2019-07-14 16:08:14 55129 12

原创 pythonic-使用Counter进行计数统计

pythonic-使用Counter进行计数统计注:本文参考书籍为:《编写高质量代码-改善python程序的91个建议》一书方式一,使用defaultdict方式### pythonfrom collections import defaultdictdata = ['a','2','3',5,6,78,45,'a','3',5,6,'a','2','3',5,6,'3',5,'a','...

2019-06-26 16:04:58 146

原创 数据清洗—清洗某属性

数据清洗—清洗某属性在数据清理过程中,某些属性可能缺省值过多,这对我们分析或者数据挖掘可能并没有太大的帮助,所以我们需要对其进行清洗工作。而某些属性或许并不缺省,但是方差却十分小,表情属性所携带信息较少,对于分析作用也不是很大也采用清洗工作。删除缺省值大于某阈值的属性## 将某一列中空缺值数量多于80%的列去除# 删除缺省值大于threshold的属性def del_attributio...

2019-06-01 16:20:19 509

原创 数据清洗—制作one-hot

数据清洗—制作one-hot使用pandas进行one-hot编码pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)pandas中get_dummies()函数可以将字段进行编码,转换为0...

2019-06-01 16:08:10 433

原创 pandas常用的操作1:读存,插入,删除,切片,转换,合并

pandas常用操作https://www.kesci.com读文件与写文件:pd.read_csv()注意传入的参数,sep,header其中,相关的还有read_txt,read_json…pd.to_csv()注意传入的参数 header, index, column =[]查看数据与统计数据pd.head(n=10)查看前10条pd.columnspd.index...

2019-06-01 15:41:27 1088

原创 pytorch 指定GPU训练

指定GPU代码上述使用中,代码3最为常用,keras也可以通过这种方式来调用GPU训练神经网络。# 代码1:torch.cuda.set_device(1)# 代码2:device = torch.device("cuda:1")# 代码3:(官方推荐使用)os.environ["CUDA_VISIBLE_DEVICES"] = '1'(如果你想同时调用两块GPU的话)os...

2019-02-25 11:14:01 15646

原创 机器学习-感知机

感知机感知机是一个二分类的线性分类模型,输入是特征向量,输出是类别,通常取值为+1和-1。感知机是神经网络和支持向量机的基础。定义数学公定义为:f(x)=singn(wx+b)f(x)=singn(wx+b)f(x)=singn(wx+b),称之为感知机。其中w和b为感知机模型参数,w为权重,b为偏置。而sign()sign()sign()为符号函数,输出值为+1和-1。几何解释我们将其...

2019-02-19 17:00:45 349

原创 论文笔记:You Only Look Once: Unified, Real-Time Object Detection

论文笔记:You Only Look Once: Unified, Real-Time Object Detection简述这是YOLO算法的第一个版本。 作者先简单介绍了之前对目标识别的相关算法,比如利用滑动窗口的算法,还有R-CNN算法。 但是作者说,这两种方法都太慢,并且难以优化。 作者认为YOLO算法十分简单,将目标检测问题处理成回归问题,用一个卷积神经网络结构就可以从输入...

2018-09-04 20:23:23 1029

原创 论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation.

论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation.简述此算法用来做目标检测,主要结合了两个关键点:1.应用了一个高容量的卷积神经网络模型来处理候选区域(region proposals);2.当labeled data很稀缺的时候,采用预训练(pre-train...

2018-08-22 16:16:50 235

原创 有序全排列的题型对比,例如硬币问题和整数分解问题

题目一:输入n(1-10之间数字),将数字分解显示,如6可以显示为6,5+1,4+2,4+1+1..... 。题目二:用递归实现,显示用1分、2分和5分的硬币凑成1元,一共有多少种方法。      从两个题目的论述中,我们不能发现:题目一是将一个数分解成用1,2,3,4,........,9这样的数列来表示,题目二则是用特定的数列,如1,2,5,来进行分解整数。两者具有相似之处,但也应该看到我们要...

2018-03-16 15:26:27 952

原创 几种简单的排序:选择排序,插入排序,快速排序,冒泡排序

#include const int n =10;int selectsort(int num[],int n);int insertsort(int num[],int n);int quicksort(int num[],int low,int high); int bubsort(int num[],int n);int main(){ //选择排序 int i,da

2018-01-29 17:19:24 253

原创 关于sscanf与sprintf的简单的相关用法

在处理字符串问题上,C中常常使用sscanf与sprintf来解决此类问题。  要想理解好这两个函数的用法,不妨类比一下scanf 与 printf。事实上,两者可以表示成下面两种形式:  scanf(screen,"%d",&n);  printf(screen,"%d",n);可以知道,scanf 就是将screen上的数值输入到 n 里,也就是说输入方向是 :从左到右。 

2018-01-23 17:22:42 187

转载 C++中cin、cin.get()、cin.getline()、getline()、gets()等函数的用法

C++中cin、cin.get()、cin.getline()、getline()、gets()等函数的用法原文转载:http://www.cnblogs.com/flatfoosie/archive/2010/12/22/1914055.html1、cin 2、cin.get() 3、cin.getline() 4、getline() 5、gets() 

2018-01-21 10:50:54 146

原创 变量的类型

变量的类型对于之前所学习的知识进行相关的整理,进行梳理,以求在以后的日子得以复习和总结。今天进行C/C++的变量类型梳理,如下:  1.整型  整型一般由short,int,longlong。 1.1整型int  一个整数占用32bit,4字节,表示的范围是$-2^31$ 至 ($+2^31$)-1,可以粗略的记为在$10^9$的范围中即可。   1.2 长整型long

2018-01-20 17:25:10 7344

原创 读入通讯录信息,查找姓名来搜索号码,性别等信息,并对通信录的姓名进行排序。C++

#include#include using namespace std;int main(){struct telelist{char  name[8];char sex;char num1[5];char num2[5];}list[3];struct telelist tempt;int i ; for (i=0;i

2018-01-10 21:41:59 1997

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除