自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (3)
  • 收藏
  • 关注

原创 docker实现不同内网下两服务器文件互传 (小白包会向、docker远程传输)

## 背景: 两台服务器处于不同内网,人员分处两地。需要从A服务器上传输重要大文件给B。B服务器存在多个依赖缺失无法通过zerotier进行内网穿刺 (否则可以直接在B上与A通过zerotier建立局域网传输)。## 解决方法: 鄙人小白,只想到用docker来实现完成传递。现有的各种博客没找到比较清晰健全的实现,故整理鄙人经验如下:......

2022-07-01 01:10:53 801 1

原创 牛X的人可以安装多版本gcc时每一步都踩到坑

为了安装必要的图网络的库,我需要某版本的torch和cuda,于是我需要安装gcc5.5.0。但是服务器上的gcc是7.2.0的,多版本gcc势在必行,踩坑一往无前,一望无际,一泻千里。懂者自懂。查看gcc版本装啥都要先看,我先有啥# 最简单,直接看现在系统所用版本gcc -v可以看到,我的系统是gcc 7.2.0# 再看我系统里实际还有啥版本find /usr -name gcc可以看到,这里面不止一个版本gcc,这是我装了5.5以后的,所以有5.5下载相应版本就这下呗,

2020-08-29 11:57:33 165

原创 word2vec个人简单理解

单词: 不能以文本形式直接输入到机器训练-> 需要转换为向量的形式输入简单的直接用one-hot 一个词一个编码缺点: 随着词的数量增加维数越来越多,并且会很稀疏;词之间没有联系word2vec其实就是一个简化的神经网络,输入one hot vector,经过线性隐藏层,输出维度和输入一致,用的是softmax回归。然后以这个形式输入到机器进行后面的分类或其他训练预测。这个模型的输入和输出的定义:一般使用CBOW(连续词袋) 或 skip-gram 两种模型来定义。1)CBOW

2020-08-16 17:12:58 171

原创 零基础入门NLP赛事-新闻文本分类记录 task5

基于深度学习的文本分类2使用TextCNN,TextRNN进行文本分类

2020-07-28 23:54:08 107

原创 零基础入门NLP赛事-新闻文本分类记录 task4

基于深度学习的文本分类与传统的机器学习不同,深度学习使用深层神经网络可以做到自动提取特征,免去人工提取、降维的步骤。并且在task3的实践中使用的文本表示方法存在一定的缺陷:转换而来的向量维度很高、没考虑单词之间的关系。深度学习的文本表示,将文本映射到低维空间,经典的例子有:FastText, Word2Vec和Bert。此博客介绍的是FastText,它的核心思想就是通过embedding将单词映射到稠密空间,然后将句子中所有单词在embedding空间中进行平均,完成分类。它就是由三层神经网络组成:

2020-07-27 23:06:34 89

原创 零基础入门NLP赛事-新闻文本分类记录 task3

首先采用最容易上手的方式对文本进行分类: TF-IDF + 机器学习分类器1.文本表示方法文本是非结构化数据,而机器是要接受数字或者向量作为输入运算的。且文本还是不定长度的,那么要将文本转化为计算机能够运算的方式。这种方法一般叫做词向量嵌入,它把不定长文本投射到定长空间,是分类第一步。词向量嵌入方法有:1)one-hot:经典独热,即把句子当成一个list,每个字有各自索引,那么每个字对应的向量就是仅有相应索引为1其他为0的,长度为句子长度的向量。ex:句子1:我爱你句子2:我也爱你那么“我”

2020-07-25 23:38:10 81

原创 零基础入门NLP赛事-新闻文本分类记录 task2

数据处理train集合240M+,test集合60M+,并不大直接用pandas读入即可。可以看到数据格式如下,label列是新闻的类别,text列是新闻的字符。二者均为数值型。可以看成,还需要处理一下分隔符。应该改为:df_train = pd.read_csv("./data/train_set.csv",sep='\t')那么接下来,我们应该对数据的分布有所分析。比如文本长度分布,数据类别分布,字符分布情况。文本长度分布(即句子长度)如下,平均一个句子907个字符,最长57921字,.

2020-07-22 22:25:16 142

原创 零基础入门NLP赛事-新闻文本分类记录 task1

赛题描述数据为:匿名处理后的新闻数据。数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。赛题训练数据如下:评价标准为:f1-score,显然越大越好提交结果:输出每一条test’数据所属的类别思路本质上是一个分类问题,要根据文本每一句的字符进行分类。但是赛题数据是匿名的,不能直..

2020-07-21 20:46:53 112

原创 Pycharm神奇之旅

Pycharm神奇之旅欢迎来到pycharm报错的神奇世界由于各种愚蠢以及个人奇怪的体质,我遇到了数以百计的pycharm报错,有一部分堪称离奇,现在开始这个博客就记录我遇到的各种报错。-RuntimeError:implement_array_function method already has a docstring一般遇到这种情况是matplotlib库和pandas库版本不合的原...

2020-02-07 14:45:47 146

转载 sklearn 各种交叉验证方法、验证集两种设定方法、神器GridSearchCV

内容概要训练集/测试集分割用于模型验证的缺点 – > 各种交叉验证的方法 交叉验证用于选择调节参数、选择模型、选择特征 验证集的作用及自动和手动设定 并行化调参 – > GridSearchCV应用训练集/测试集分割用于模型验证的缺点 对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以需要多模型验证这一过程,选择相对好的模型。 为了解决用全部数据进...

2018-09-10 18:22:02 4960

转载 python 类 函数 的基本操作 以及 垃圾回收机制

#-*- coding:utf-8 -*-#创建类class Employee: 'Common base class for all employees' empCount = 0 def __init__(self, name, salary): self.name = name self.salary = salary Employ

2017-12-05 21:58:26 410

原创 python 访问文件中所有py文件,双击listbox中文件名字能运行

使用tkinter图形化界面,点击按钮访问文件夹下所有py文件,双击listbox中每个py文件的名字能运行该文件。(可以用python 自带的idle打开,也可以用txt打开)实现关键:1.listbox双击绑定事件bind的使用2.环境变量下添加idle路径3.使用python的cmd访问#-*- coding:utf:8 -*-from Tkinter import *from tkF

2017-12-05 21:46:39 1338

转载 Toolkit 理解、单例设计理解

Toolkit tk = Toolkit.getDefaultToolkit();为什么不能用:Toolkit tk = new Toolkit();       Toolkit是抽象类,所以不能用new Toolkit()实例化对象。      但是Toolkit有静态方法getDefaultToolkit(),通过这个方法可以获取到Toolkit的对象。      Tool

2017-08-15 12:00:38 465

转载 python学习

printinput raw_input() #把所有输入都直接当成一串字符,就可以不加引号 对于raw_input函数来说输入都是一个字符串。可以通过int等等把这个字符串转换为整数,并把它存储在变量中。事实上,int是一个类,不过你想在对它所需了解的只是它把一个字符串转换为一个整数(假设这个字符串含有一个有效的整数文本信息)。ifwhilefrom 模块名 import 方法名产生一个随机的整数 from random import randint num = rand

2017-06-17 18:55:26 368

原创 BP神经网络

神经网络NN

2017-06-12 20:32:54 412

翻译 java之接口

1.接口  为了解决无法实现多重继承而出现的一个方案  abstract 抽象类的修饰符  interface 接口的修饰符  extends 只能是一个  implements 一个类可以实现多个接口  接口是完全的抽象,只有抽象方法;而抽象类里还能有非抽象方法。  接口是抽象方法和常量的属性集合。  接口中只能包含抽象方法和常量,不能有变量、初始化块、构

2017-06-09 11:00:53 139

转载 java之继承、多态、抽象类

数组:  1.数组的特征:   a.只能存储同一种类型的数据   b.在内存中是连续分配空间的   c.通过下标来访问元素的数据  2.数组的操作   a.声明   b.分配空间   c.赋值   d.使用   排序:冒泡法、快速排序法(Array.sort())异常:   try:有可能出现异常的代码   catch:出现异常后,进行捕获(异常

2017-05-16 18:23:54 268

转载 java之final关键字、包、封装

final、package、封装

2017-05-11 11:11:35 331

转载 java之类和方法

类的一般形式1.类的概述    类就是事物的集合和抽象。它所代表的是这类事物所共有的一些行为和属性。2.类的一般形式   类是由属性和方法构成。   中国有13亿人,就有13亿个对象   人类只有一个。  class  类名{            类型 变量名;            类型 变量名;           ····           类

2017-05-10 11:24:07 140

转载 java之数组学习

如何使用数组1.获取数组长度    int[] arr = new int[10];    System.out.println(array.length); // length属性就是数组长度    写个小小的管理  系统管理学生成绩  F:\CoreJavaBook\javalianxi\day1shuzu    2.数组的复制    将一个数组变量复制给另一个,这

2017-05-09 12:31:12 181

爱数VX1200、VX1200+、VX2400招标详细参数

爱数VX1200、VX1200+、VX2400招标详细参数

2023-10-31

ubuntu18.04+安装GPU++CUDA+cuDNN

ubuntu18.04下安装GPU、CUDA、cuDNN的详细说明文档(亲测可行)

2018-09-07

Ubuntu系统安装(win10+linux或者linux单系统都适用)

Ubuntu系统安装说明(win10+linux或者linux单系统都适用)

2018-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除