Re:fused-CSDN博客

原创 LLM padding left or right

感觉pading left or right，其实无所谓，主要就是为了方便。根据实际情况的具体需求，进行使用，用的正确，方便即可。

2024-04-19 20:31:51 596

原创大模型中top-p&top-k&temperature如何共同使用——Gemma为例子

之前系统学习了大模型的解码方式，Top-p, Top-k, Beam-search, Greedy, temperature等等，具体使用的时候，也清楚采用这些方式混合使用，但是具体怎么混合，有些模糊。看了一篇相关文章大模型文本生成——解码策略（Top-k & Top-p & Temperature），如下图所示，解决了我一些理解方面的问题，但是感觉还有有些模糊，仔细研究了一下Gemma，记录一下。

2024-04-17 12:02:06 312

原创 CodeGemma: Open Code Models Based on Gemma

CodeGemma基于谷歌开源的文本大模型Gemma，结构上跟LLama差不太多。

2024-04-14 17:03:58 311

原创 Qwen1.5-MoE: Matching 7B Model Performance with 1/3 Activated Parameters

大模型太卷了，总感觉天天出新的模型。今天看公众的号，看到阿里Qwen发布一款总模型7B，推理时，激活参数2.7B的大模型。仔细看了一下他的技术报告，记录一下。

2024-03-29 20:13:54 624

原创 DBRX: A New State-of-the-Art Open LLM——基于专家LLM

一个由Databricks创建的开放的通用LLM。在一系列标准基准测试中，DBRX为已建立的开放LLM设定了新的最先进水平。此外，它为开放社区和企业构建自己的LLM提供了以前仅限于封闭模型API的功能；根据我们的测量，它超过了GPT-3.5，并与Gemini 1.0 Pro具有竞争力。它是一个特别有能力的代码模型，在编程方面超过了CodeLLaMA-70B等专门模型，此外它作为通用LLM的实力。这种最先进的质量在训练和推理性能方面有显著的改进。

2024-03-28 20:51:21 1164

原创 Query2doc——Query改写

本文介绍了一种简单但有效的查询扩展方法，称为 query2doc，旨在提升稀疏(如BM25)和密集检索(如E5,bge-m3等 )系统的性能。该方法首先通过少量样本提示大型语言模型（LLMs）生成伪文档，然后使用生成的伪文档来扩展查询。LLMs 是训练于网络规模的文本语料库，并擅长于知识记忆。来自 LLMs 的伪文档通常包含高度相关的信息，有助于查询消歧并引导检索器。

2024-03-26 21:54:52 853

原创如何修改大模型的位置编码 --以LLama为例

最近在看RoPE相关内容，一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型，已经训练好了，但是怎么修改已经训练好的模型位置编码。查了以下相关代码，记录一下。原理这里就不细讲了，贴几个相关博客。

2024-03-24 15:37:51 816 1

原创 Mixtral MOE代码理解

我在看MOE的时候，虽然大概能够理解MOE的模型结构，但是看一些作者实现的代码（应该不是官方代码），虽然写的很好，但是始终理解无法彻底理解他代码的意思，于是，简单运行了一下，特此记录一下。

2024-03-17 01:30:47 981 2

原创 P-Tunning V2简单理解

之前看过P-tunning V2, 知道他得思想，最近突然想到了这件事，仔细看了一下他得代码实现，重新看了一遍，记录一下。图片源于：https://zhuanlan.zhihu.com/p/423902902P-Tunning V2的思路，仅仅通过微调连续的一些虚拟Token进行训练，固定模型的其它参数，从而实现低成本微调。

2024-03-14 23:29:18 410

原创 Gemma中RoPE代码详细讲解

以上就是我对RoPE代码实现的理解，相比原来理解的方式，这种相对更加简洁，但是略有一些绕。

2024-03-14 17:32:40 991

原创 KoPA: Making Large Language Models Perform Better in Knowledge Graph Completion

本来这个论文用来组会讲的，但是冲突了，没怎么讲，记录一下供以后学习。

2023-12-21 14:06:58 1532 4

原创 CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models

知识图谱补全(Knowledge graph completion, KGC)的目的是利用已有的知识来预测知识图谱中的缺失链接（即确实的实体和关系）。基于文本的方法，如SimKGC，已经优于图嵌入方法（即结构嵌入，只利用三元租的信息），展示了归纳KGC的前景。补充一下，其实只是再WN18RR数据集上比较好，在FB5k-上就比较拉。然而，基于文本的方法的有效性取决于实体文本描述的质量。在本文中，我们确定了大型语言模型（LLM）是否能够生成有效的文本的关键问题。

2023-12-19 21:52:47 1023

原创 SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models

目前，比较流行的知识图谱补全模型，通常喜欢使用结构化的信息即（h,r,t）的这种形式进行知识图谱补全。但是这种方式其实可以使用的特征有限，增加额外信息-实体描述（或者叫文本信息，我习惯性交实体描述，差不多一个意思，不要纠结），可以提高模型的表达或者特征。目前在WN18RR数据集上评分最高的模型，就基于实体描述信息，为什么只提WN18RR，因为在FB15k-237上，效果不咋地，后面细说。

2023-12-15 18:30:15 1105

原创 MoDS: Model-oriented Data Selection for Instruction Tuning

一些论文证明Instruction tuning证明只需要很少的数据集就可以实现与人类意图对齐，并且大模型LLM并不能从Instruction tuning中学到东西，仅仅是生成一些可靠的格式。该论文提出通过模型，自动化选取一些少量并且高质量的数据。论文中认为从三个方面，Instruction tuning数据质量、多样性，以及必要性三个方面进行Instruction tuning数据的选取。对于数据质量：质量要求所选的指令数据对问题和答案都足够好。对于数据多样性：覆盖范围要求所选指令数据足够多样化。

2023-12-15 15:32:12 944

原创 Leetcode 刷题总结

最近正在刷题，时间久了一些想法可能就忘记了，特此写此片论文，记录一下一些题目的解体思路，供以后参看。

2023-03-01 14:46:38 355 1

原创令人又爱又恨的torch.argsort用法

每次使用argsort用法，让人又爱又狠，一段时间不用，就忘了其如何使用，导致花费大量的实践进行理解，刚开始学习这个函数时认为这个函数输出每个数的排名，例如[4, 7, 9, 8]->[0, 1, 3, 2]，从小到大进行排名，但是实际上并不是这个作用，而实将数据进行排名，排名的数字是原始数据的id。所有其显示内容与我们预期结果不符。

2022-09-17 16:31:38 1155 1

原创位运算练习

位运算练习

2022-08-17 15:42:57 164

原创 Leetcode:剑指 Offer 59 - I. 滑动窗口的最大值

给定一个数组 nums 和滑动窗口的大小 k，请找出所有滑动窗口里的最大值。采取优先队列，队首为大的元素，有限队列中存入两个数据，数值和位置，首先把前k个数据放入，在窗口进行滑动时，加入新的元素，查看队首最大的元素是不是当前窗口，不是则弹出，知道是当前窗口为止。...

2022-06-03 14:55:14 1288

原创 Leetcode:829. 连续整数求和

给定一个正整数 n，返回连续正整数满足所有数字之和为 n 的组数。连续就想到了等差为1的等差数列，所以有公式ma1+(m−1)m/2=m(ma1+(m−1)/2)=nma_1+(m-1)m/2=m(ma_1+(m-1)/2) = nma1+(m−1)m/2=m(ma1+(m−1)/2)=n,可以看出m必须是n的银子，并且m-1为偶数才可以，才能确保a1a_1a1为整数。...

2022-06-03 13:24:19 202

原创 TEC: Knowledge Graph Embedding with Triple Context

TEC:Knowledge Graph Embedding with Triple Context1 问题知识图谱没有充分利用上，丰富的信息，利用其周围信息和路径信息，基于以上信息进行知识知识图谱补全。2 模型context 信息包括：neighbor context和path context。2.1 Context详细信息Neighbor Context对于其Neighbor Context只进行出度的计算，CN(h)=(r4,e1),(r3,e2),(r2,e3),(r1,e8)

2022-05-31 14:07:10 185

原创 RSN:Learning to Exploit Long-term Relational Dependencies in Knowledge Graphs

Learning to Exploit Long-term Relational Dependencies in Knowledge Graphs1 问题目前只是图谱补全的内容是主要是基于triple-level，所谓的triple-level指得是只关注三元组的信息，仅仅只利用三元组的信息，而不增加任何信息，这么就会产生的一个问题，难以抓取关系的长期依赖关系，所有triple-level不能够传递丰富的信息，提出了基于只是图谱补全或者实体对齐。该模型选择lstm模型，进行扩展，实现长期的依赖，但是为了

2022-05-27 17:58:29 417

原创 TransA: An Adaptive Approach for Knowledge Graph Embedding

题目：TransA: An Adaptive Approach for Knowledge Graph Embedding1 问题本论文主要关注的问题是，距离的计算方式，一个自适应的权重矩阵。基于TransE的模型其评分函数采用欧几里得距离，不同维度的距离重要程度一样，就导致一些不太起作用的维度由于其距离比较大，导致产生的距离比较大，产生错误的评分，影响预测的结果。因此提出TransA模型，距离计算不再采用欧式距离，而实采用马式距离，不同维度根据其权重进行体现维度的重要性，将数据的维度进行压缩。下图即可

2022-05-20 15:31:49 613

原创 TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding

TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding1 介绍1.1 问题作者发现在实现时，对于concept(抽象的概念，如老师 (zhangsan, instance, teacher))和instance(具体的概念，如人物(zhangsan,friendof, lisi), zhangsan 和lisi都是具体的实例)目前现有的模型都没有对其进行区分，为了简化操作通常的处理方式是将二者作为实体不加以

2022-05-12 13:14:10 581 2

原创 TransEdge: Translating Relation-contextualized Embeddings for Knowledge Graphs

TransEdge: Translating Relation-contextualizedEmbeddings for Knowledge Graphs1 原因目前模型对于关系的处理存在问题，如线性模型，或者双线性模型无法抓住多样的关系结构。在TransE模型，例如(泰囧，演员，黄渤),(泰囧，饰演，徐峥），当进行h+r≈th+r \thickapprox th+r≈t导致结果黄渤和续重非常接近，不利于预测结果，因此提出以边为中心的理念，根据上下文表示关系，使边具有多样性。本质上就是，实体和关系本身的

2022-05-11 11:13:39 467 4

原创 Leetcode:442. 数组中重复的数据

题目：442. 数组中重复的数据题意：给你一个长度为 n 的整数数组 nums ，其中 nums 的所有整数都在范围 [1, n] 内，且每个整数出现一次或两次。请你找出所有出现两次的整数，并以数组形式返回。你必须设计并实现一个时间复杂度为 O(n) 且仅使用常量额外空间的算法解决此问题。代码：因为数据范围在[1-n],所以通过对数据进行取相反数进行标记class Solution {public: vector<int> findDuplicates(vect

2022-05-08 16:13:06 364

原创 TransGate: Knowledge Graph Embedding with Shared Gate Structure

题目：TransGate: Knowledge Graph Embedding with Shared Gate Structure1 问题目前的模型，当前的模型通过专注于从越来越复杂的特征工程中区分特定于关系的信息来改进嵌入，导致这些模型消耗大量的时间和空间，不能有效应用于现实世界大量的数据。论文中作者采用参数共享，能够学习更多的特征，减少参数避免模型更加复杂。基于Gate模式提出TransGate,利用部分Gate的思想构建模型，并对提出的模型进行重构减少参数，虽然效果比没有简化版的TransGat

2022-05-08 12:52:48 578 3

原创 leetcode:单词长度的最大乘积

题目：单词长度的最大乘积来源：力扣（LeetCode）题意：给定一个字符串数组 words，请计算当两个字符串 words[i] 和 words[j] 不包含相同字符时，它们长度的乘积的最大值。假设字符串中只包含英语的小写字母。如果没有不包含相同字符的一对字符串，返回 0。分析：因为需要挨个单词比较，所以很容易想到O(n2)O(n^2)O(n2)的算法，采用层for循环，但是存在一个问题，如何高效的判断两个单词是否有重复的字母，最容易想到就是开vis[单词数量][26]的数组，时间复杂

2022-04-30 11:22:48 134

原创 ConEx:Convolutional Complex Knowledge Graph Embeddings+代码

Convolutional Complex Knowledge Graph Embeddings1 介绍1.1 思想该论文的核心就是结合ComplEx和维度卷积的形式，进行知识图谱补全。1.2 知识图谱中存在的关系symmetric(对称)if (h,r,t)⇐⇒(t,r,h)(h, r, t) ⇐⇒ (t, r, h)(h,r,t)⇐⇒(t,r,h) for all pairs of entities h,t∈Eh, t \in \mathbf {E}h,t∈Eanti-symmetri

2022-04-28 21:23:03 435

原创 InteractE: Improving Convolution-Based Knowledge Graph Embeddings by Increasing Feature Interactions

其它关于卷积知识图谱补全：ConvR:Adaptive Convolution for Multi-Relational LearningConvE：Convolutional 2D Knowledge Graph EmbeddingsConvKB代码：A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network1 介绍1.1 引言本篇论文是对于论文ConvE的模型进行改进，

2022-03-30 11:45:42 3924

原创 ConvR:Adaptive Convolution for Multi-Relational Learning

关于卷积的知识图谱补全：ConvE：Convolutional 2D Knowledge Graph EmbeddingsConvKB代码：A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural NetworkConvR论文：点击1 介绍本论文的思想是在ConvE论文的基础上进行改进，进行知识图谱补全。ConvE成功实现实体和关系之间的交互，但是实体和关系之间的交互非常少，仅仅只有百分

2022-03-27 16:29:09 2895

原创 ConvE：Convolutional 2D Knowledge Graph Embeddings

论文：Convolutional 2D Knowledge Graph Embeddings1 介绍1.1 提出原因之前提出的模型如disMult，Trans系列模型，成为浅层模型，虽然比较简单，参数较少、训练模型速度较快，但是这些模型相比于深的模型，更少能够抓到复杂的信息。因此，提出模型ConvE模型，利用卷积的方式进行知识图谱补全，能够适用于更加复杂的图。在浅层模型中增加特征数量的唯一方法，就是增加embedding的维度，但是随之而来存在一个问题，不能扩展到更大的知识图谱，因为嵌入参数的

2022-03-25 21:47:06 5046 3

原创 distMult: EMBEDDING ENTITIES AND RELATIONS FOR LEARNING AND INFERENCE IN KNOWLEDGE BASE

本篇论文是经典的双线性模型，通过乘法的方式进行知识图谱补全。查看原文1 简介该方法采用双线性模型，通过学习关系嵌入来挖掘逻辑规则，如BornInCity(a,b)∧CityOfCountry(b,c)⇒Nationality(a,c)BornInCity(a, b)\wedge CityOfCountry(b, c)\Rightarrow Nationality(a, c)BornInCity(a,b)∧CityOfCountry(b,c)⇒Nationality(a,c)。2 模型2.1 E

2022-03-15 20:25:16 917

原创 pytorch 常用函数总结

在进行使用pytorch进行数据处理的使用，对于其中涉及的函数不是特别了解，导致在使用的时候，需要不断的翻阅资料，去查找某个方法如何使用，对于其产生的结果不是十分了解。以下对于pytorch中我遇到的常用函数进行归纳总结，并不进行完善，以供学习。1 常用的几种参数总结1.1 dim参数dim 这一参数通常指的是维度，其维度设置如下图所示：图片源于【PyTorch】PyTorch 中的 dim其中参考实例如下：import torcha = torch.Tensor([[[1, 2, 3

2022-03-11 19:25:01 5037 1

原创 ConvKB代码：A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network

1 介绍本篇论文以卷积的方式对知识图谱进行补全，在实现时进行预测三原组是正确的还是错误的，该方法在论文ConvK的基础上进行改进，其在逻辑实现的过程中十分简单，通过相应的模型图即可知道其原理。2 模型2.1 模型图2.2 模型解释将三元组进行embedding，将(h,r,t)(h, r, t)(h,r,t)三元组转化为(vh,vr,vt)\left(\boldsymbol{v}_{h}, \boldsymbol{v}_{r}, \boldsymbol{v}_{t}\right)(vh,vr

2022-03-10 20:26:53 2698 14

原创 A Neighborhood-Attention Fine-grained Entity Typing for Knowledge Graph Completion：AttEt

论文地址1 目的该论文主要用于知识图谱补全的一个子任务，实体类型推测。提出一个方法为AttEt，AttEt通过聚集具有类型特定权重的给定实体的邻域知识，在实现时采用entity-level和neighborhood-level，对于entity-level采用基础的TransE进行训练，而对于neighborhood-level采用注意力机制，对于不同的neighbor赋予不同的权值。2 模型2.1 模型结构图fij={+1,(ei,rij,eij) is hold&nbs

2022-03-07 15:30:57 943 2

原创 SimplE：SimplE Embedding for Link Prediction in Knowledge Graphs+代码

文章目录1 介绍1.1 知识图谱1.2 知识图谱补全方法1.3知识图谱补全（Knowledge Graph Completion，KGC）1.4 关系分类2 模型2.1 双线性模型2.2 核心公式2.3 负采样2.4 损失函数2.5 评价MRRMRHITS@n3 [代码](https://github.com/baharefatemi/SimplE)3.1 数据处理模块 dataset.py3.2 模型模块 model.py3.3 训练模块 Trainer.py3.4 测试模块 Test.py3.5 评价

2022-03-06 21:02:27 1680

hbase-1.0.0-cdh5.6.0.tar.gz

空空如也