dream6104-CSDN博客

原创 pytorch笔记-实现一个图像分类模型

定义一个神经网络结构1.数据引入import torch from torch import nn from torch.utils.data import DataLoader from torchvision import datasets from torchvision.transforms import ToTensor2.训练集与测试集我们用到的数据集是FashionMNIST，是一个图像数据集，用它来进行分类任务。dataloader用来存放相应的训练数据以及对应的标签da

2022-04-26 11:13:52 2029

原创 BERT模型自定义词汇以及token相关

1.加载bert模型及分词from transformers import AutoModelForMaskedLM, AutoTokenizermodel = "bert-base-cased"tokenizer = AutoTokenizer.from_pretrained(model, use_fast=True)model = AutoModelForMaskedLM.from_pretrained(model)2.分词演示这里是对COVID hospitalization分词p

2021-08-17 22:38:15 2434 1

原创文本生成解码策略笔记-常见解码策略

文本解码时，每一个时间步不断的解码得到当前的文字，当前文字到底生成候选词典(vocab)中的哪一个，需要一定的策略,显然遍历的复杂度较高；例如，如果时间步是T=500，候选vocab容量为5000，则随机遍历复杂度可达到${1000}^{500}$，显然，这里有很多的改进空间，本文列举了一些常见的优化方法。

2021-07-18 16:28:03 1837 1

原创 BERT模型的结构，特点和实践

基于bert和pytorch的文本相关性实践一、背景介绍二、预训练模型bert三、准备建模1. 数据准备2. 预处理输入输出3. 模型搭建、损失函数选择4. 模型评估四、总结二级标题合理的创建标题，有助于目录的生成如何改变文本的样式一、背景介绍二、预训练模型bert三、准备建模1. 数据准备2. 预处理输入输出3. 模型搭建、损失函数选择4. 模型评估四、总结你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章

2020-12-27 20:24:02 8592 1

原创有向传递闭包问题

问题：一个 n 个节点的有向图的传递闭包可以定义为一个 n 阶布尔矩阵 T，使得当第 i 个顶点到第 j 个顶点的路径长度为正时，T[i, j]=1；否则，T[i, j]=0（ i>=1,j<=n）。请设计一个算法来求该传递闭包，并分析你设计的算法的时间复杂度。思路：定义一个二维数组，例如a[i][j]，i,j属于[1,N]表示这个矩阵；用dp[i][j]表示i与j...

2020-02-09 11:52:52 505

原创循环队列的实现笔记-c++

实现方式一数组实现/****实现方式一数组实现**/#include <iostream>using namespace std;class Queue{private: int *data; //定义指向整型的指针，从而动态开辟内存 int head,tail,length,count; //head指向队首,ta...

2020-02-09 11:15:16 184

原创按字典顺序比较两个字符串(java)

public static int compareString(String str1,String str2){ for (int i = 0,j=0; i <str1.length()&&j<str2.length() ; i++,j++) { if(str1.charAt(i)>=str2.charAt(i)){...

2020-02-08 10:32:35 2446

原创平衡二叉树建立、实现和判断

（一）平衡二叉树 1.定义它是一棵空树或它的左右两个子树的高度差的绝对值不超过1，并且左右两个子树都是一棵平衡二叉树。 2.建立序列结点依次插入，构建平衡二叉树，为了保持各节点的平衡，根据各结点的插入位置，采用不同的旋转方式构建平衡二叉树平衡二叉树旋转原理参考https://blog.csdn.net/innobase/...

2020-02-08 10:13:08 164

原创基于机器学习的源代码分类

大致流程：1.样本收集2.数据清洗3.分词、预处理4.算法选型5.评估--具体细节待更新

2019-11-30 15:49:52 325

原创动态规划系列-连续的子数组和(leetcode523)

【问题描述】给定一个包含非负数的数组和一个目标整数k，编写一个函数来判断该数组是否含有连续的子数组，其大小至少为 2，总和为 k 的倍数，即总和为 n*k，其中 n 也是一个整数。示例：输入: [23,2,4,6,7], k = 6输出: True解释: [2,4] 是一个大小为 2 的子数组，并且和为 6。【题解】1.暴力法public class...

2019-11-24 19:13:45 321 2

原创 jieba分词相关、join合并列表元素

import jiebastr1="今天来到了天安门广场"seg_list=jieba.cut(str1) #结果是个生成器，还不能直接使用print("输出1",seg_list)z=[x for x in seg_list] #将分词的结果保存到列表中，可以看到元素是分好的词，列表长度即为分好的词的数量print("输出2",z)aa=zprint("输出3",aa)xx...

2019-10-09 20:44:52 3114 1

原创 leetcode-二叉树中的最大路径和

题目描述给定一个非空二叉树，返回其最大路径和。本题中，路径被定义为一条从树中任意节点出发，达到任意节点的序列。该路径至少包含一个节点，且不一定经过根节点。示例 1:输入: [1,2,3] 1 / \ 2 3输出: 6示例2:输入: [-10,9,20,null,null,15,7] -10 / \ 9 ...

2019-05-04 16:55:50 262

原创 np.dot和np.matmul的区别与联系

1.二者都是矩阵乘法。2.np.matmul中禁止矩阵与标量的乘法。3.在矢量乘矢量的內积运算中，np.matmul与np.dot没有区别。4.np.matmul中，多维的矩阵，将前n-2维视为后2维的元素后，进行乘法运算。>>>import numpy as np>>>a=np.array([1,2,3])>>> b=np.a...

2019-05-04 16:25:07 2921

原创机器学习—数据清洗总结

需要清洗数据的主要类型：¶残缺数据、错误数据、重复数据数据清洗方法：¶(1)不完整数据：经验推导，平均最大最下，甚至概率估计，或建立回归模型，插值法等 (2)错误值检测，异常点检测，偏差分析，规则库等 (3)重复值，将重复记录合并、清楚数据清洗的评价标准¶(1)可信性,可信性包括精确性、完整性、一致性、有效性、唯一性等指标。¶(1)精确性：描述数据是否与其对应的客观实体的特...

2019-04-26 17:29:24 5249

原创彻底理解文本主题模型LDA(极致原理讲解+实战)

原理讲解LDA基础https://www.cnblogs.com/pinard/p/6831308.htmlLDA求解之Gibbs采样https://www.cnblogs.com/pinard/p/6867828.htmlLDA之非负矩阵求解https://www.cnblogs.com/pinard/p/6812011.html代码实战文章链接:https://towar...

2019-04-25 15:06:43 2855

原创 leetcode不同路径-结题( C++、Python、解析式)

题目描述：一个机器人位于一个m x n网格的左上角（起始点在下图中标记为“Start” ）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角[m-1,n-1]位置。问总共有多少条不同的路径？例如，上图是一个7 x 3 的网格。有多少可能的路径？说明：m和n的值均不超过 100。示例1:输入: m = 3, n = 2输出: 3解释...

2019-04-17 23:05:47 196

原创脚本语言、编程语言区别与联系

编程语言特点(1)用来定义计算机程序的形式语言，是一种将程序员所定义的代码，编译即翻译成计算机所认识的二进制代码的工具，(2)编译语言是程序在执行之前需要一个专门的编译过程，运行时不需要重新编译，直接使用编译的结果就行了，脱离其语言环境独立执行。程序执行效率高，使用方便。但程序(3)一旦需要修改，必须先修改源代码，再重新编译生成新的目标文件才能执行。因需依赖编译器，故跨平台性差些。C...

2019-04-17 22:39:35 591

原创 Python-split()函数的使用

用途：可以用于把narray分成几份。axis：0,1分别表示按行、列维度拆分（取平均）示例：numpy.plit(ary, indices_or_sections, axis=0)import numpy as npb= np.arange(48).reshape(6,2*4)print(b)print(np.split(b,1,axis=1))print(np....

2019-04-17 11:52:46 398

原创推荐：26种NLP练手项目（代码+数据）

1.分词 Word Segmentationchqiwang/convseg，基于CNN做中文分词，提供数据和代码。对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word SegmentationIJCNLP2017.2.词预测 Word PredictionKyubyong/w...

2019-04-12 10:47:25 6350

原创 sklearn中predict_proba、predict用法

总的来说，predict返回的是一个预测的值，predict_proba返回的是对于预测为各个类别的概率。predict_proba返回的是一个n 行 k 列的数组，第 i行j列的数值是模型预测第 i 个预测样本为某个标签的概率，并且每一行的概率和为1。predictimport numpy as npX = np.array([[-1, -1], [-2, -1], ...

2019-04-11 19:51:34 29100 8

转载 Python-copy()与deepcopy()之间的主要区别

copy()与deepcopy()之间的主要区别是python对数据的存储方式。首先直接上结论：—–深复制，即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。 —–...

2019-04-05 15:27:04 204

转载【转载】Python中numpy 数组的切片操作

Python中numpy 数组的切片操作简介取元素 X[n0,n1]切片 X[s0:e0,s1:e1]切片特殊情况 X[:e0,s1:]示例代码输出结果简介X[n0,n1]是通过 numpy 库引用二维数组或矩阵中的某一段数据集的一种写法。类似的，X[n0,n1,n2]表示取三维数组，取N维数组则有N个...

2019-03-28 15:40:22 277

原创 tf.concat用法总结

tf.concat是连接两个矩阵的操作，tf.concat(values,dim,name='concat')按照dim给定的维度进行拼接，即，相应的维度增加，例子如下：矩阵维度简单情形(shape为[2,3]) t1 = [[1, 2, 3], [4, 5, 6]] t2 = [[7, 8, 9], [10, 11, 12]] 拼接后结果： tf.concat...

2019-03-27 19:52:04 646

原创 LeetCode-合并两个有序链表(c++实现)

/*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode(int x) : val(x), next(NULL) {}* };*/class Solution {public: ListNode* mer...

2019-03-26 21:10:08 431

原创 Python压平嵌套列表的一种方法

把嵌套级别的多级列表看成是树状结构:定义函数：def flat(tree): res = [] for i in tree: if isinstance(i, list): res.extend(flat(i)) else: res.append(i) return resz=[[...

2019-03-22 15:23:52 436

转载 tf.nn.embedding_lookup,tf.variable系列变量

一、tf.variable变量系列函数1. tf.Variable与tf.get_variabletensorflow提供了通过变量名称来创建或者获取一个变量的机制。通过这个机制，在不同的函数中可以直接通过变量的名字来使用变量，而不需要将变量通过参数的形式到处传递。TensorFlow中通过变量名获取变量的机制主要是通过tf.get_variable和tf.variable_scope...

2019-03-22 11:00:18 465

原创 Numpy数据二进制化

Numpy能够读写磁盘上的文本数据或二进制数据。numpy.load和numpy.save函数（推荐在不需要查看保存数据的情况下使用）将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数，默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。例子：import numpy as npa=np.arange(5)np.save...

2019-03-21 11:15:34 7602

原创实体识别与关系抽取

实体是知识图谱的基本单元，也是文中承载信息的重要语言，实体识别是识别出文中实体的命名性指称项。实体识别的主要难点在于（1）命名形式多变（2）命名实体的语言环境复杂。实体识别的方法：基于规则的识别方法特点：准确率高，接近人类的思考方式，但成本昂贵规则的制定主要依赖领域专家。A，基于机器学习的识别方法-基于特征的方法代表性方法:CRF方法。为训练CRF模型，首先定义特征函数...

2019-03-20 23:55:01 5500

原创 TensorFlow函数使用总结

(1)tf.evalTF学习中，经常看到tensor.eval这样的用法。tensor.eval()的意义和sess.run()一样，t.eval()等效于sess.run(t).但是二者也有些微区别,run可以同时运行多个tensor，比如：t = tf.constant(11.0)u = tf.constant(37.0)tu = tf.mul(t, u)ut = tf.m...

2019-03-20 10:58:47 159

转载牛顿法与拟牛顿法

优化问题：函数的一阶导函数的零点即为优化问题的解，从而这里的一阶导函数相当于上面的牛顿法中的原函数。若多元函数这里出现多元二阶导数===》引入海森矩阵===》当我们的特征特别多的时候，求海森矩阵的逆的运算量是非常大且慢的，这对于在实际应用中是不可忍受的，因此我们想能否用一个矩阵来代替海森矩阵的逆呢，这就是拟牛顿法的基本思路=》引入拟牛顿法。参考链接:1...

2018-10-21 22:55:38 142