樱与刀-CSDN博客

原创文本分类深度学习算法：FastText、TextCNN、TextRNN、RCNN、HAN

文本分类深度学习算法：FastText、TextCNN、TextRNN、RCNN、HAN、bert等这里综述了一些常用的关于文本分类的深度学习算法，其中包括：FastText、TextCNN、TextRNN、RCNN、HAN、bert的原理的简要介绍，以及相关的代码链接。由于作者比较懒，就放上自己的知乎链接，有需要的点进去即可。知乎：https://zhuanlan.zhihu.com/p/...

2019-09-08 20:30:25 3337

原创 JAVA、maven、IDEA环境配置

JAVA、maven、IDEA环境配置本文主要介绍在Windows系统下，java、maven以及IDEA三个的环境配置的方法。JDK、JRE环境配置1. 下载JDK文件并安装访问网站：https://repo.huaweicloud.com/java/jdk/8u151-b12/。选择Windows系统下的64位jdk，并下载下来。之后安装到你指定的位置：C:\Program Files\Java(这是你JDK和JRE的安装位置，要设置好，之后配置环境需要使用。一般来讲，JRE会自动安装好)

2020-07-23 19:37:30 699

原创 GO语言入门：常量

GO语言-iota枚举iota是个常量自动生成器，每个一行，自动加1iota给常量赋值使用iota遇到const，重置为0同一个圆括号中，可以只是用一个iota

2019-10-09 21:48:22 217

原创 GO语言入门：变量

GO语言中的变量声明变量1.声明 var 变量名类型变量声明之后，必须要使用2.只声明便量，则默认为03.在同一个{}中，声明的变量是唯一的var a intvar b int = 10自动推导式var a = 10a:=10多重赋值a，b = 10， 20交换值a， b = b，a匿名变量tmp，_ :=7,8...

2019-10-09 21:10:19 167

原创逻辑斯蒂回归算法

逻辑斯蒂回归算法

2019-10-04 17:39:51 556

原创 python中读取CSV（TXT）文件数据或将数据写入到CSV（TXT）文件中

python中读取CSV（TXT）文件数据或将数据写入到CSV（TXT）文件中1.pandas方式读取文件中的数据：我们常用的方式就是通过调用pandas包来实现对文件的读取:pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=...

2019-10-02 23:06:08 26793 3

原创 GDBT模型、XGBoost和LightGBM之间的区别与联系

GDBT模型、XGBoost和LightGBM之间的区别与联系

2019-10-02 22:42:58 483

原创提升树模型：从提升树到GBDT树

提升树模型：从提升树至GBDT树、XGBoost以及LightGBM提升树GBDT树XGBoostLightGBM对比与总结

2019-09-28 12:22:02 278

原创集成学习方法-Boosting-Adaboost

集成学习方法-Boosting-AdaboostAdaboost算法：AdaBoost，英文为‘Adaptive Boosting’，它的自适应在于：1. 样本权重的自适应学习 2. 模型系数的自适应学习。相对于RF算法，Adaboost更加专注于偏差,它可以降低基学习器的偏差，对基学习器进行进一步的提升。算法流程：(1) 初始化训练数据的权值分布，对每个样本赋予同样的权值W=1/N。...

2019-09-22 16:43:41 161

原创集成学习方法-bagging-RandomForest

集成学习方法-bagging-RandomForestBagging：集成学习的主要想法是将若干个弱分类器，通过线性组合，组成一个较强的模型。bagging集成学习的方式，可以实现模型的并行化训练，并且能有效的降低方差。Bagging算法流程：：（1）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本。共进行k轮抽取，得到k个训练集。（k个训练...

2019-09-22 12:29:27 430

原创 ID3、C4.5与CART树的联系与区别

ID3、C4.5与CART树的联系与区别：参考博客：链接1链接2特征选择准则：ID3的特征选择准则为信息增益，即集合D的经验熵H(D)与给定特征A下条件经验熵H(D|A)之差，即：H(D)表现了数据集D进行分类的不确定性，而H(D|A)表现在特征A而使得对数据集D的分类的不确定性的减少。有公式[1]可知，当特征取值较多时，H(D) – H(D|A)的差就越大，ID3决策树会偏向于选...

2019-09-20 20:50:36 519

原创树模型-CART决策树-撸清算法逻辑

树模型-CART决策树-撸清算法逻辑CART决策树：CART决策树，称为分类与回归树，是一种既可以进行分类，也可以完成回归任务的树模型。CART决策树是一种二叉树，内部节点特征取值表现为‘是’和‘否’。在选择特征上，分类任务选择基尼系数最小化准则，回归任务选择平方误差最小准则。回归树生成：回归树生成的思路是最容易令人理解的，先从回归的角度来讲解。假定给一个数据集合D，在数据集D所在的数...

2019-09-20 16:17:12 564

原创树模型-ID3决策树-撸清算法逻辑

树模型-ID3决策树-撸清算法逻辑ID3决策树下图是判断是否外出打高尔夫球的决策树：算法流程：从集合D中选择最优切分属性A，衡量是否为最优的切分属性，ID3采用的是信息增益准则。按照属性A将集合切分，判断切分后的集合：如果当前节点包含的样本属于同一类别，则无需划分，并将此叶子节点的类别定为此类；当前属性为空，或者所有样本属性集上取值相同，此叶子节点类别为大多数样本类别；当前集合为包含...

2019-09-19 11:33:21 525

原创 NLP:语言表示之词向量——从onehot到word2vector：CBOW和Skip-Gram

入门NLP:语言表示之词向量——从onehot到word2vector笔者在入学期间从计算机视觉方面来学习深度学习理论，然后在一次实习中，恰巧接触到了NLP领域，并从事了NLP文本分类相关的工作，之后的几篇帖子中也会较为详细的介绍一下相关知识，以便自己更好的梳理。在计算机视觉中，我们处理的数据为图片，其中图片本身就是像素矩阵，也就是说本身为一种数值，可以直接拿来进行相关的处理，但是NLP中要处...

2019-08-27 17:34:49 2037 1

原创 nltk 报错[nltk_data] Error loading stopwords: hostname

nltk 报错[nltk_data] Error loading stopwords: hostname，采用下面代码下载stopwords来解决import nltkimport ssltry: _create_unverified_https_context = ssl._create_unverified_contextexcept AttributeError: ...

2019-08-01 09:54:52 9171 2

原创关于文本分类（情感分析）的英文数据集汇总

关于文本分类（情感分析）的英文数据集汇总20 Newsgroups数据集：The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. The data is o...

2019-07-31 16:21:32 10964

原创使用conda&pip创建与管理环境

使用conda&pip创建与管理环境1.在Linux系统中创建虚拟环境在这里，默认大家已经安装好了anaconda或者miniconda，并可以使用conda命令。1.1 在默认/home位置上建立虚拟环境conda create -n env_name python=x.x其中，env_name是你想要创建环境的名字，以便日后你可以使用名字来激活相应的环境，比如你可以将其替换...

2019-07-31 15:21:36 1569

原创关于文本分类（情感分析）的中文数据集汇总

文本分类（情感分析）中文数据集汇总这段时间在公司NLP组里实习，相应的开始学习了一些NLP的知识，并搜索了一些关于NLP中文本分类领域的相关数据集，本文主要列举一些中文数据集。关于英语数据集，且听下回分解。1.THUCNews数据集：THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们...

2019-07-14 16:08:14 55129 12

原创 pythonic-使用Counter进行计数统计

pythonic-使用Counter进行计数统计注：本文参考书籍为：《编写高质量代码-改善python程序的91个建议》一书方式一，使用defaultdict方式### pythonfrom collections import defaultdictdata = ['a','2','3',5,6,78,45,'a','3',5,6,'a','2','3',5,6,'3',5,'a','...

2019-06-26 16:04:58 146

原创数据清洗—清洗某属性

数据清洗—清洗某属性在数据清理过程中，某些属性可能缺省值过多，这对我们分析或者数据挖掘可能并没有太大的帮助，所以我们需要对其进行清洗工作。而某些属性或许并不缺省，但是方差却十分小，表情属性所携带信息较少，对于分析作用也不是很大也采用清洗工作。删除缺省值大于某阈值的属性## 将某一列中空缺值数量多于80%的列去除# 删除缺省值大于threshold的属性def del_attributio...

2019-06-01 16:20:19 509

原创数据清洗—制作one-hot

数据清洗—制作one-hot使用pandas进行one-hot编码pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)pandas中get_dummies()函数可以将字段进行编码，转换为0...

2019-06-01 16:08:10 433

原创 pandas常用的操作1：读存，插入，删除，切片，转换，合并

pandas常用操作https://www.kesci.com读文件与写文件：pd.read_csv()注意传入的参数，sep，header其中，相关的还有read_txt,read_json…pd.to_csv()注意传入的参数 header， index， column =[]查看数据与统计数据pd.head(n=10)查看前10条pd.columnspd.index...

2019-06-01 15:41:27 1088

原创 pytorch 指定GPU训练

指定GPU代码上述使用中，代码3最为常用，keras也可以通过这种方式来调用GPU训练神经网络。# 代码1：torch.cuda.set_device(1)# 代码2：device = torch.device("cuda:1")# 代码3：（官方推荐使用）os.environ["CUDA_VISIBLE_DEVICES"] = '1'（如果你想同时调用两块GPU的话）os...

2019-02-25 11:14:01 15646

原创机器学习-感知机

感知机感知机是一个二分类的线性分类模型，输入是特征向量，输出是类别，通常取值为+1和-1。感知机是神经网络和支持向量机的基础。定义数学公定义为：f(x)=singn(wx+b)f(x)=singn(wx+b)f(x)=singn(wx+b)，称之为感知机。其中w和b为感知机模型参数，w为权重，b为偏置。而sign()sign()sign()为符号函数，输出值为+1和-1。几何解释我们将其...

2019-02-19 17:00:45 349

原创论文笔记：You Only Look Once: Unified, Real-Time Object Detection

论文笔记：You Only Look Once: Unified, Real-Time Object Detection简述这是YOLO算法的第一个版本。作者先简单介绍了之前对目标识别的相关算法，比如利用滑动窗口的算法，还有R-CNN算法。但是作者说，这两种方法都太慢，并且难以优化。作者认为YOLO算法十分简单，将目标检测问题处理成回归问题，用一个卷积神经网络结构就可以从输入...

2018-09-04 20:23:23 1029

原创论文笔记：Rich feature hierarchies for accurate object detection and semantic segmentation.

论文笔记：Rich feature hierarchies for accurate object detection and semantic segmentation.简述此算法用来做目标检测，主要结合了两个关键点：1.应用了一个高容量的卷积神经网络模型来处理候选区域（region proposals）；2.当labeled data很稀缺的时候，采用预训练（pre-train...

2018-08-22 16:16:50 235

原创有序全排列的题型对比，例如硬币问题和整数分解问题

题目一：输入n（1-10之间数字），将数字分解显示，如6可以显示为6，5+1，4+2，4+1+1..... 。题目二：用递归实现，显示用1分、2分和5分的硬币凑成1元，一共有多少种方法。从两个题目的论述中，我们不能发现：题目一是将一个数分解成用1，2，3，4，........，9这样的数列来表示，题目二则是用特定的数列，如1，2，5，来进行分解整数。两者具有相似之处，但也应该看到我们要...

2018-03-16 15:26:27 952

原创几种简单的排序：选择排序，插入排序，快速排序，冒泡排序

#include const int n =10;int selectsort(int num[],int n);int insertsort(int num[],int n);int quicksort(int num[],int low,int high); int bubsort(int num[],int n);int main(){ //选择排序 int i,da

2018-01-29 17:19:24 253

原创关于sscanf与sprintf的简单的相关用法

在处理字符串问题上，C中常常使用sscanf与sprintf来解决此类问题。要想理解好这两个函数的用法，不妨类比一下scanf 与 printf。事实上，两者可以表示成下面两种形式： scanf(screen,"%d",&n); printf(screen,"%d",n);可以知道，scanf 就是将screen上的数值输入到 n 里，也就是说输入方向是：从左到右。

2018-01-23 17:22:42 187

转载 C++中cin、cin.get()、cin.getline()、getline()、gets()等函数的用法

C++中cin、cin.get()、cin.getline()、getline()、gets()等函数的用法原文转载：http://www.cnblogs.com/flatfoosie/archive/2010/12/22/1914055.html1、cin 2、cin.get() 3、cin.getline() 4、getline() 5、gets()

2018-01-21 10:50:54 146

原创变量的类型

变量的类型对于之前所学习的知识进行相关的整理，进行梳理，以求在以后的日子得以复习和总结。今天进行C/C++的变量类型梳理，如下： 1.整型整型一般由short，int，longlong。 1.1整型int 一个整数占用32bit，4字节，表示的范围是$-2^31$ 至（$+2^31$）-1，可以粗略的记为在$10^9$的范围中即可。 1.2 长整型long

2018-01-20 17:25:10 7344

原创读入通讯录信息，查找姓名来搜索号码，性别等信息，并对通信录的姓名进行排序。C++

#include#include using namespace std;int main(){struct telelist{char name[8];char sex;char num1[5];char num2[5];}list[3];struct telelist tempt;int i ; for (i=0;i

2018-01-10 21:41:59 1997

lip