自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 手撸nano-gpt

这里具体解释一下为什么送入模型前要做reshape。因为规定了input的shape必须是[N, C]其中N是样本数C是类别数这里也就是我们的vocab_size。与之对应,我们的target的shape就应该是[N]。input 送入模型后我们会得到input中每一个位置的下一个位置的预测,如果原文本是 [1,2,3],input: [1,2] ,target: [2,3]。那么送入input后我们可能会得到[2, 2.7]然后用这个和target计算损失。else:# 关注最后一个位置。

2024-03-11 13:42:49 679 1

原创 Mixtral模型解读

Mistral 7B模型与Llama2 7B模型结构整体上是相似的,其结构参数如下所示。细节上来说,他有两点不同。

2024-03-03 21:05:24 959

原创 Llama2学习

原本的中一般使用层归一化。而Llama2中使用了RMSNormMeanx2σx​∗γ。γ是可学习参数,Meanx2∑i1N​N1​xi2​。

2024-02-28 14:48:38 812

原创 书生开源大模型训练营-第1讲笔记

实验室提出的开源评测体系OpenCompass,是全球领先的评测体系,提供了六大维度和超过80个数据集,以及四十多万道评测题目。OpenCompass将大模型能力分为学科语言、知识理解、推理和安全四个维度,并在每个维度上进行细分。所有评测集都围绕这些维度进行分类和构建,以形成全面的评测体系,避免只关注某个方面或某个能力维度。5.提供了完备的应用工具链,能够覆盖量化推理服务的全流程,并与OpenAI接口兼容。2.提供了不同的接口,如Python接口、gRPC接口和RESTful接口。

2024-02-18 02:39:25 882

原创 书生开源大模型训练营-第6讲笔记+作业

OpenCompass 是面向LLM评测的一站式平台。

2024-02-18 02:30:41 379

原创 书生开源大模型训练营-第5讲笔记

可能得原因是,量化会导致一定的误差,有时候这种误差可能会减少模型对训练数据的拟合,从而提高泛化性能。所以说,实际和前面的架构图是有区别的。一般情况下,我们并不需要对这些参数进行修改,但有时候为了满足特定需要,可能需要调整其中一部分配置值。具体来说,就是对历史的 K 和 V 存储 quant 后的值,使用时在 dequant。​ W4A16中的A是指Activation,保持FP16,只对参数进行 4bit 量化。​ 按照服务部署的结构图,我们应将TurboMind作为一个服务,然后客户端访问这个服务。

2024-02-16 22:09:09 868

原创 书生开源大模型训练营-第4讲-笔记+作业

​以数据集为例​# 转好的数据# 配置文件# 做些修改# 修改import部分# 修改模型为本地路径# 修改训练数据为 MedQA2019-structured-train.jsonl 路径# 修改 train_dataset 对象启动!

2024-02-16 21:58:14 959

原创 书生开源大模型训练营-第3讲笔记

llm.predict("你是谁")构建检索问答链,还需要构建一个 Prompt Template,该 Template 其实基于一个带变量的字符串,在检索之后,LangChain 会将检索到的相关文档片段填入到 Template 的变量中,从而实现带知识的 Prompt 构建。from langchain . prompts import PromptTemplate # 我们所构造的 Prompt 模板 template = """使用以下上下文来回答用户的问题。如果你不知道答案,就说你不知道。

2024-02-16 21:31:55 912

原创 书生开源大模型-第2讲-作业

模型写一个300字小故事。的config文件。

2024-02-16 21:30:27 309

原创 书生开源大模型-第2讲-笔记

我尝试了上传一张简单方程的图片,但是似乎失败了,模型并不能理解图中内容。注意这里复制好参数后,在下面的代码中要替换成我们自己的模型参数位置。首先创建我们的ssh密钥。然后根据控制台上的端口号使用如下命令即可链接。下载或者复制下来,开发机中已经有一份参数了。上clone模型代码以及创建一个demo。可以自动生成内容,并自动寻找合适图片!控制台,点击配置 SSH Key。在我们本机上去运行一个demo。我们将其全部复制下来,然后回到。应该做的也是修改模型参数文件。与2.1中一样,先本机链接。

2024-02-16 20:54:21 642

原创 目标检测中的损失函数

目标检测中常见的损失函数

2024-01-20 09:39:45 770

原创 swin_transformer学习

将每张图片划分为4x4的patch,那么共有4H​∗4W​∗48。将每个patch对应的token送入后续。

2023-11-26 11:55:58 896

原创 信息量 | 熵 | 交叉熵

某个时间发生的难度有大多。发生难度大即信息量大,反之。​ 对于独立事件。

2023-11-24 15:39:20 770 1

原创 Yolov5学习笔记

BackBone。

2023-11-18 16:35:22 63 1

原创 解决Conda创建新环境位置问题,和新环境依赖过多问题

创建新虚拟环境时,会创建到一个奇怪的地方。导致pycharm中无法使用到这个新环境。如果不想彻底删掉conda重新安装,可以在安装时用如下命令指定新环境的创建位置。这个时候,会发现这个新环境中依赖非常杂,并不像一个新环境。由于不知名原因(可能是conda装在了C盘),在。并不是我们对应环境的位置。现在,重新打开项目,输入。可以发现依赖正常了!

2023-11-14 11:40:08 215 1

原创 2021牛客暑期多校训练营8 F.Robots

题意:有三种机器人1:只会向下走2:只会向右走3:可以右也可以下题意:有三种机器人1:只会向下走2:只会向右走3:可以右也可以下题意:有三种机器人1:只会向下走2:只会向右走3:可以右也可以下思路:我们去维护每一个终点,记录所有能顺利走到他的起点,所以我们从<1,1>开始枚举到<n,m>,令f[a][b][c][d]是终点<a,b>到起点<c,d>的连通性,1.如果该点不是'1',那么必能由j-1走来,显然也能由所有能走到j-1的地方走来,所以f[a][b

2021-08-12 00:12:39 92

原创 DFS之搜索顺序

acwing 1117单词接龙单词接龙是一个与我们经常玩的成语接龙相类似的游戏。现在我们已知一组单词,且给定一个开头的字母,要求出以这个字母开头的最长的“龙”,每个单词最多被使用两次。在两个单词相连时,其重合部分合为一部分,例如 beast 和 astonish ,如果接成一条龙则变为 beastonish。我们可以任意选择重合部分的长度,但其长度必须大于等于1,且严格小于两个串的长度,例如 at 和 atide 间不能相连。输入格式输入的第一行为一个单独的整数 n 表示单词数,以下 n 行每行

2020-10-14 20:47:30 156

原创 DFS的连通性搜索

DFS和BFS都能解决问题的时候 DFS的代码会简洁很多 因为不需要自己去维护队列 可以使用系统自带的栈空间eg1:acwing1112.迷宫一天Extense在森林里探险的时候不小心走入了一个迷宫,迷宫可以看成是由 n∗n 的格点组成,每个格点只有2种状态,.和#,前者表示可以通行后者表示不能通行。同时当Extense处在某个格点时,他只能移动到东南西北(或者说上下左右)四个方向之一的相邻格点上,Extense想要从点A走到点B,问在不走出迷宫的情况下能不能办到。如果起点或者终点有一个不能通行

2020-10-12 19:33:45 87

原创 codeforces 674(div.3) ABCD题解

AFloor Number第一层有2个单元 其他每层有k个单元 (n-2)/k 即可得到答案**注意* * 向上取整#include<bits/stdc++.h>using namespace std;const int N = 110;int main(){ int T; cin>>T; while(T--) { int n,k; cin>>n>>k; if(n==1

2020-09-30 14:55:15 104

原创 4.16 dijkstra朴素与heap优化版本

朴素版#include<bits/stdc++.h>using namespace std;const int N=1010;int n,m;int g[N][N];int dis[N];bool st[N];int dijkstra(){ memset(dis,0x3f,sizeof dis); dis[1]=0; fo...

2020-09-13 11:27:41 65

原创 BFS求最短路问题

熟悉掌握队列和pair的用法在边权为1的图中适用eg1 :acwing 1076迷宫问题#include<bits/stdc++.h>using namespace std;#define x first#define y secondconst int N=1010,M=N*N;typedef pair<int,int> pii;int n;int g[N][N];pii q[M];pii pre[N][N];int bfs(int sx,int sy)

2020-08-14 13:05:14 216

原创 Foold Fill 算法

能在线性时间内求出图中的连通块数量eg 1:acwing 1098城堡问题#include<bits/stdc++.h>using namespace std;typedef pair<int,int> pii;const int N=55,M=N*N;int n,m;#define x first#define y secondint g[N][N];bool st[N][N];pii q[M];int bfs(int sx,int sy){ i

2020-08-13 19:05:06 235

原创 leetcode 191周赛题解

①升序排序 取最后两个数即可class Solution {public: int maxProduct(vector<int>& nums) { sort(nums.begin(),nums.end()); int n=nums.size(); int a=n-1,b=n-2; return (nums[b]-1)*(nums[a]-1); }};②由于给出的数组是乱序的 要排序 排序前吧第0

2020-06-01 22:19:14 93

原创 leetcode 第26双周赛

①双指针跑一边即可class Solution {public: int maxPower(string s) { int res=0; for(int i=0;i<s.size();) { int j=i+1; while(s[i]==s[j]&&j<s.size()) j++; res=max(res,j-i); i=

2020-05-30 02:13:10 63

原创 leetcode 189周赛题解

①签到题class Solution {public: int busyStudent(vector<int>& startTime, vector<int>& endTime, int queryTime) { int res=0; for(int i=0;i<endTime.size();i++) if(startTime[i]<=queryTime&amp

2020-05-28 00:16:15 80

原创 leetcode 190周赛题解

①在这里插入代码片②用哈希表存下元音字母,然后遍历字符串,如果遍历的长度>=k,那么此时就要把第i-k个元素弹出,在判断它是不是原音,是的话res-1 然后每次ans取一次max即可class Solution {public: int maxVowels(string s, int k) { unordered_set<char> S({'a','e','i','o','u'}); int ans=0; for(int

2020-05-25 22:16:07 117

原创 acwing.102 二分!

原题!题意:给出长度为n的序列,在里面寻找到长度>=F 的子段 使得其平均值最大首先二分答案(平均值) 然后check函数中 构造前缀和数组s[i] 本来子段平均值应该是 (s[j]-s[i])/(j-i)>=mid 然后我们将等式两边全部减去mid 也就是减去了mid*(j-i)个数就可以得到 s[j]-s[i]>=1 所以 只需满足这个即可那么怎么构造这个前缀和呢?——>> s[i]=s[i-1]+牛[i]-mid 即可#include<bits/stdc

2020-05-14 23:31:35 63

原创 大数 a*b

二进制例 377的二进制为 1 1 13(2^0)=33*(2^1)=63*(2^2)=12最后加起来=21参考快速幂的思想 若a*b中 b的最低位二进制==1 那么res就+上当前的a模上p防止溢出求 a 乘 b 对 p 取模的值。输入格式第一行输入整数a,第二行输入整数b,第三行输入整数p。输出格式输出一个整数,表示a*b mod p的值。数据范围1≤a,b,p≤1018输入样例:345输出样例:2#include<bits/stdc++.

2020-05-09 15:00:00 138

原创 2020牛客寒假算法基础集训营1 I nico和niconiconi

添加链接描述链接:https://ac.nowcoder.com/acm/contest/3002/I来源:牛客网nico平时最喜欢说的口头禅是niconiconi~。有一天nico在逛著名弹幕网站"niconico"的时候惊异的发现,n站上居然有很多她的鬼畜视频。其中有一个名为《让nico为你洗脑》的视频吸引了她的注意。她点进去一看,就被洗脑了:"niconicoh0niconico...

2020-02-18 20:06:41 109

原创 牛客算法训练营5

B 牛牛战队的比赛地添加链接描述链接:https://ac.nowcoder.com/acm/contest/3006/B来源:牛客网由于牛牛战队经常要外出比赛,因此在全国各地建立了很多训练基地,每一个基地都有一个坐标(x,y)(x,y)。这周末,牛牛队又要出去比赛了,各个比赛的赛点都在xx轴上。牛牛战队为了方便比赛,想找一个到达训练基地最大距离最小的地方作为比赛地。这个问题对于牛牛...

2020-02-17 20:40:59 193

原创 牛客算法训练营6

添加链接描述A 配对链接:https://ac.nowcoder.com/acm/contest/3007/A来源:牛客网题目描述 现在有正整数集合 A 和 B,每个集合里有 N 个数,你要建立他们间的一一映射将每对配对的数字相加可以得到 N 个和,你要做的就是最大化第 K 大的和1≤K≤N≤100,000 输入的所有数字不超过 108输入描述:第一行 2 个数字 N,K接下...

2020-02-16 13:45:12 468

原创 错题:《honoka和格点三角形》思维

一个矩形中可以分出4个 直角三角形:第一种情况:4(m-2)(n-1)+(m,n调换);第二种情况:低为2,高为1的三角形,在矩阵边界时,只能向一个方向取点,所以有2(m-2)+2=2(m-1)种,在乘上选点的情况 最终得2(m-1)(n-2)(n-2)+(m,n调换);第三种情况:底为1,高为2 同理: 2(n-2)(m-1)(m-2)+(m,n对调);真他妈难啊!!!!!#incl...

2020-02-06 11:38:08 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除