自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(236)
  • 资源 (17)
  • 收藏
  • 关注

原创 阿里巴巴政委体系 & 华为数字化转型之道

阿里巴巴政委体系 & 华为数字化转型之道

2022-11-14 16:41:15 426

原创 元宇宙大投资 & 元宇宙通证

元宇宙大投资;元宇宙通证;

2022-11-14 16:33:03 419

原创 一分钟了解氢能

氢燃料电池系统的关键零部件,如电堆、催化剂、膜电极、双极板、密封材料等,我国目前已能够实现国产化,主要问题也是规模化、批量生产的产业链还未完全形成,成本较高。该方法在输送、储存、消费过程中不发生相变,能量损失小,但一次输送的量也比较少,适合距离较近、输送量少的场合。氢的储存是一个至关重要的技术,已经成为氢能利用走向规模化的瓶颈。氢能的运输主要包括压缩氢气的运输、液态氢的运输、利用储氢介质输送、利用管道输送和制造原料的输送。3、氢的发热值高,是汽油的3倍,也是所有化石燃料、化工燃料和生物燃料中最高的。

2024-02-13 21:10:50 97

原创 关于氢能,什么是绿氢、蓝氢、灰氢?

16世纪中叶,瑞士科学家无意中从中发现了一种可以燃烧的气体,1766年,在论文中阐述了他对这种可燃气体的实验研究,并通过化学反应制取此种气体。时间来到1787年,法国科学家用“氢”来命名这种可燃气体。至此,氢气登上历史舞台。科学家发现一种可燃性气体氢(Hydrogenium),是一种化学元素,元素符号H,在元素周期表中位于第一位。氢通常的单质形态是氢气,无色无味无臭,是一种极易燃烧的由双原子分子组成的气体,,也是宇宙中最为丰富、最轻的物质。医学上用氢气来治疗疾病。氢气的。

2024-02-13 21:07:47 213

原创 CCUS技术概述和应用意义

IEA研究表明,基于2070年实现净零排放目标,到2050年,需要应用各种碳减排技术将空气中的温室气体浓度限制在450 ppm以内,其中CCUS的贡献为9%左右,即利用CCS技术捕集的CO2总量将增至约56.35亿吨,其中利用量为3.69亿吨,封存量为52.66亿吨。其中,捕集阶段是能耗和成本最高的环节。对于炼化、气电、水泥和钢铁行业来说,要想实现在生产过程中的深度减排,CCUS技术是必不可少的,而且是可再生能源电力和节能技术不可替代的,对于我国践行低碳发展战略和实现绿色发展至关重要。

2024-02-08 13:16:34 120

原创 各种能源折标准煤参考系数

16 726~17 981千焦/(4 000~4 300千卡)/立方米。8 363~12 545千焦/(2 000~3 000千卡)/千克。41 816千焦/(10 000千卡)/千克。41 816千焦/(10 000千卡)/千克。43 070千焦/(10 300千卡)/千克。43 070千焦/(10 300千卡)/千克。50 179千焦/(12 000千卡)/千克。41 816千焦/(10 000千卡)/千克。20 908千焦/(5 000千卡)/立方米。20 908千焦/(5 000千卡)/千克。

2024-02-08 13:13:24 633

原创 二、什么是碳配额

碳配额,通常指的是政府或国际协议设定的一种排放上限,用于限制企业或国家在一定时间内可以释放到大气中的二氧化碳和其他温室气体的总量。这种制度是应对全球气候变暖的重要手段之一,旨在通过控制和减少温室气体排放来减缓气候变化的速度。

2024-02-07 15:47:32 120

原创 # 一、什么是碳管理

碳管理是指通过系统地监测、报告和减少温室气体排放,以提高能源效率、降低碳排放强度和减缓气候变化影响的过程。碳管理的目的是帮助企业和组织在经济、社会和环境层面实现可持续发展,同时遵守相关法规和政策要求。碳排放监测:通过收集和分析数据,了解企业或组织的碳排放情况,为制定减排策略提供依据。碳排放报告:根据相关法规和标准,定期向政府部门、监管机构和公众报告碳排放数据。碳排放减少:通过技术创新、管理优化和行为改变等手段,降低碳排放强度,实现减排目标。

2024-02-07 15:37:32 83

原创 储能技术:未来能源系统的关键

储能技术是实现可持续能源系统的重要组成部分。随着可再生能源的快速发展,如太阳能和风能,储能技术的需求也在不断增加。储能技术可以帮助平衡供需,提高电网的稳定性和可靠性,降低电力成本,减少对化石燃料的依赖,从而推动能源转型。

2024-01-19 14:48:13 58

原创 1401 位置编码公式详细理解补充

Self-Attention:对于每个词而言都是无位置关系,把每个词的顺序打乱,得到的注意力值依然不变。通过 t1 告诉你,x1 是在前面,x2 在 x1 的后面。

2023-10-26 06:51:04 229

原创 19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)

测试阶段:解码器也会有输入,但是此时,测试的时候是不知道目标语句是什么的,这个时候,你每生成一个词,就会有多一个词放入目标语句中,每次生成的时候,都是已经生成的词(测试阶段只会把已经生成的词告诉解码器)为了匹配,为了解决这个 gap,masked Self-Attention 就登场了,我在训练阶段,我就做一个 masked,当你生成第一个词,我啥也不告诉你,当你生成第二个词,我告诉第一个词。Q 是源语句,K,V 是已经生成的词,源语句去已经生成的词里找重点 ,找信息,已经生成的词里面压根就没有下一个词。

2023-10-26 06:43:30 171

原创 18 Transformer 的动态流程

机器翻译:德语(中文)翻译成英文。

2023-10-26 06:42:57 329

原创 17 Transformer 的解码器(Decoders)——我要生成一个又一个单词

编码器在干吗:词向量、图片向量,总而言之,编码器就是让计算机能够更合理地(不确定性的)认识人类世界客观存在的一些东西。训练阶段:目标词“我是一个学生”是已知的,然后 Self-Attention 是对“我是一个学生” 做计算。假如目标词“我是一个学生”—》masked Self-Attention。如果做 masked,Self-Attention 第一次对“我”做计算。解码器会接收编码器生成的词向量,然后通过这个词向量去生成翻译的结果。如果不做 masked,每次训练阶段,都会获得全部的信息。

2023-10-22 09:09:53 183

原创 15 Transformer 框架概述

预训练–》NNLM–》word2Vec–》ELMo–》AttentionNLP 中预训练的目的,其实就是为了生成词向量顺水推舟,transformer 其实就是 attention 的一个堆叠从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结总分总seq2seq一句话,一个视频序列(编码器)到序列(解码器)分成两部分,编码器和解码器。

2023-10-22 09:09:15 126

原创 16 Transformer 的编码器(Encodes)——我在做更优秀的词向量

》Feed Forward,Relu(w2(w1x+b1)+b2),(前面每一步都在做线性变换,wx+b,线性变化的叠加永远都是线性变化(线性变化就是空间中平移和扩大缩小),通过 Feed Forward中的 Relu 做一次非线性变换,这样的空间变换可以无限拟合任何一种状态了),得到 r1(是 thinking 的新的表征)1,x 就没了,【w3(w2(w1x+b1)+b2)+b3+x】),归一化(LayerNorm),做标准化(避免梯度爆炸),得到了深粉色的 z1。seq(编码器)2seq(解码器)

2023-10-21 16:57:43 134

原创 15 Transformer 框架概述

预训练–》NNLM–》word2Vec–》ELMo–》AttentionNLP 中预训练的目的,其实就是为了生成词向量顺水推舟,transformer 其实就是 attention 的一个堆叠从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结总分总seq2seq一句话,一个视频序列(编码器)到序列(解码器)分成两部分,编码器和解码器。

2023-10-21 16:57:10 310

原创 14 Positional Encoding (为什么 Self-Attention 需要位置编码)

既然可以并行,也就是说,词与词之间不存在顺序关系(打乱一句话,这句话里的每个词的词向量依然不会变),即无位置关系(既然没有,我就加一个,通过位置编码的形式加)pos+K=5,我在计算第 5 个单词的位置编码的时候。

2023-10-21 16:56:09 116

原创 13 Multi-Head Self-Attention(从空间角度解释为什么做多头)

multi-head attention(1231,23,3),把 X 切分成 8 块(8 个子空间),这样一个原先在一个位置上的 X,去了空间上 8 个位置,通过对 8 个点进行寻找,找到更合适的位置。给定一个 X,通过自注意力模型,得到一个 Z,这个 Z 就是对 X 的新的表征(词向量),Z 这个词向量相比较 X 拥有了句法特征和语义特征。Z 相比较 X 有了提升,通过 Multi-Head Self-Attention,得到的。多头自注意力,问题来了,多头是什么,多头的个数用 h 表示,一般。

2023-10-21 16:55:32 92

原创 12 Masked Self-Attention(掩码自注意力机制)

当我们做生成任务的时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的。自注意力机制明确的知道这句话有多少个单词,并且一次性给足,而掩码是分批次给,最后一次才给足。为什么要做这个改进:生成模型,生成单词,一个一个生成的。未来我们讲 Transformer 的时候会详细讲!I have 第二次,只有 I 和 have。I 第一次注意力计算,只有 I。掩码自注意力机制应运而生。

2023-10-21 16:54:56 224

原创 11 Self-Attention相比较 RNN和LSTM的优缺点

Self-Attention 得到的新的词向量具有句法特征和语义特征(词向量的表征更完善)LSTM 通过各种门,遗忘门,选择性的可以记忆之前的信息(200 词)无法做长序列,当一段话达到 50 个字,效果很差了。RNNs 长序列依赖问题,无法做并行。

2023-10-21 16:53:57 552 1

原创 LLAMA2(Meta大语言模型)可运行整合包的下载与安装

百度网盘链接:https://pan.baidu.com/s/1g1xknRdeHWPsAeZl9urXxg?百度网盘链接:https://pan.baidu.com/s/19gPNTTPc6cAdM2DLfmaE0w?根据你的系统,把generation_linux.py或者generation_win.py修改为generation.py。夸克网盘链接:https://pan.quark.cn/s/b6ceb2c6211b。1)进入工程目录运行download.sh。2)填入收到的邮件中的链接。

2023-09-26 22:39:08 4441

原创 Windows系统下环境安装

百度网盘链接:https://pan.baidu.com/s/1lbqhpIx-CAcBUfwSCjMNaA?参考文档:https://blog.csdn.net/jcfszxc/article/details/124004147。64位:http://www.winimage.com/zLibDll/zlib123dllx64.zip。32位:http://www.winimage.com/zLibDll/zlib123dll.zip。网络上有方法,是将cuDNN的文件存放CUDA的文件夹中,可供参考。

2023-09-26 22:38:36 138

原创 ChatGLM2_6b安装

在【api.py】、【web_demo.py】与【cli_demo.py】这3个文件中,指定模型文件的位置, AutoModel.from_pretrained(**量化后的模型:**如果你的内存不足,可以直接加载量化后的模型,即【chatglm2-6b-int4】文件夹内的模型。, trust_remote_code=True) 原文中模型路径的写法会实时去下载模型,建议修改成指向本地已经下载好的模型文件。【安装文件_备用】中可能用到的安装文件,如果没有安装的,可以安装一下。

2023-09-07 11:51:03 285 1

原创 chatGLM-Windows环境安装

百度网盘链接:https://pan.baidu.com/s/1lbqhpIx-CAcBUfwSCjMNaA?参考文档:https://blog.csdn.net/jcfszxc/article/details/124004147。64位:http://www.winimage.com/zLibDll/zlib123dllx64.zip。32位:http://www.winimage.com/zLibDll/zlib123dll.zip。网络上有方法,是将cuDNN的文件存放CUDA的文件夹中,可供参考。

2023-09-07 11:50:09 360

原创 chatGLM介绍

ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,可以在消费级的显卡上运行。

2023-09-07 11:49:11 507

原创 稚晖君人形机器人问世:大模型加持,会自己换胳膊,要上生产线造车

在框架中,机器人系统被分为不同层级,包括部署在云端的超脑,部署在端侧的大脑、小脑以及脑干,分别对应机器人任务不同级别的技能,包括技能级、指令级、伺服级等。在当前的具身智能领域,很多研究都在尝试将大模型作为机器人的大脑,稚晖君也不例外,他也想用多模态大模型的能力赋能智元机器人的行为动作编排。稚晖君表示:「远征 A1 是我们的第一台通用型智具身智能机器人,它融合了各种先进的本体控制、感知、认知和决策的智能技术,基于当前 AI 领域前沿的大语言模型,以及我们自研的视觉控制模型,完成了一系列创新。

2023-08-19 08:49:39 156

原创 06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pJRvexww-1691494480791)(https://imgmd.oss-cn-shanghai.aliyuncs.com/BERT_IMG/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B.jpg)]NNNL --》 重点是预测下一词,双层感知机softmax(w2(tanh((w1(xQ)+b1)))+b2)

2023-08-08 19:35:07 1307

原创 05 神经网络语言模型(独热编码+词向量的起源)

神经网络语言模型:通过神经网络解决两个人说的话的问题有一个副产品:Q 矩阵–》新的词向量(词向量可以选择词向量的维度,可以求两个词之间的相似程度)下游任务。

2023-08-08 19:34:32 354

原创 04 统计语言模型(n元语言模型)

Library/Application Support/typora-user-images/image-20220611203051818.png)]“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”P(w_next | “判断”,“这个”,“词”,“的”) (1)P(词性| “判断”,“这个”,“词”,“的”,……把 n 个词,取 2 个词(2 元),取 3 个词(3 元)P(词性| “判断”,“这个”,“词”,“的”)P(火星| “判断”,“这个”,“词”,“的”)

2023-08-08 19:34:00 741

原创 03 什么是预训练(Transformer 前奏)

一个任务 A,一个任务 B,两者极其相似,任务 A 已经训练处一个模型 A,使用模型 A 的浅层参数去训练任务 B,得到模型 B,1.

2023-08-08 19:33:30 715

转载 05 神经网络语言模型(独热编码+词向量的起源)

神经网络语言模型:通过神经网络解决两个人说的话的问题有一个副产品:Q 矩阵–》新的词向量(词向量可以选择词向量的维度,可以求两个词之间的相似程度)下游任务。

2023-07-08 17:46:15 76 1

原创 04 统计语言模型(n元语言模型)

Library/Application Support/typora-user-images/image-20220611203051818.png)]“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”P(w_next | “判断”,“这个”,“词”,“的”) (1)P(词性| “判断”,“这个”,“词”,“的”,……把 n 个词,取 2 个词(2 元),取 3 个词(3 元)P(词性| “判断”,“这个”,“词”,“的”)P(火星| “判断”,“这个”,“词”,“的”)

2023-07-08 17:45:40 600

转载 03 什么是预训练(Transformer 前奏)

一个任务 A,一个任务 B,两者极其相似,任务 A 已经训练处一个模型 A,使用模型 A 的浅层参数去训练任务 B,得到模型 B,1.

2023-07-08 17:44:50 69

原创 BERT模型蒸馏完全指南(原理&技巧&代码)

小朋友,关于模型蒸馏,你是否有很多问号:今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型,带大家把BERT蒸馏整到明明白白!注:文末附BERT面试点&相关模型汇总,还有NLP组队学习群的加群方式~Hinton在NIPS2014**[1]**提出了知识蒸馏(Knowledge Distillation)的概念,旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上,方便部署

2023-07-04 21:44:58 253

原创 大语言模型的进化树,这是一份超详细ChatGPT「食用」指南

在最后也是最重要的部分,本文会深入各种具体的 NLP 任务,介绍 LLM 是否适用于知识密集型任务、传统 NLU 任务和生成任务,此外还会描述这些模型不断获得的新能力以及具有挑战性的现实世界应用场景。不适用 LLM:对于大多数自然语言理解任务,比如 GLUE 和 SuperGLUE 中的任务,如果该任务已有丰富的标注良好的数据并且测试集中仅有非常少的数据在分布之外,那么微调模型的表现依然更好。(3)模型的能力并不总是会随规模提升,而且我们对大型语言模型的能力与规模的关系的理解还很有限。

2023-07-04 21:44:28 127

原创 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果,这个第二关键。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。

2023-07-04 21:43:56 1390

原创 国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布100亿参数规模的开源可商用大语言模型CPM-Bee

CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。

2023-07-04 21:42:41 190

原创 今日大模型日报

Github地址:https://github.com/VinAIResearch/XPhoneBERT论文地址:https://arxiv.org/abs/2305.19709XPhoneBERT是第一个预先训练用于学习下游文本到语音(TTS)任务的音素表示的多语言模型。我们的XPhoneBERT具有与BERT基础相同的模型架构,使用RoBERTa预训练方法对近100种语言和地区的3.3亿音素级句子进行训练。

2023-07-04 21:41:20 352

原创 Transfomer编码器中自注意力机制、前馈网络层、叠加和归一组件等讲解(图文解释)

Transformer中的编码器不止一个,而是由一组N个编码器串联而成,一个编码的输出作为下一个编码器的输入,如下图所示,每一个编码器都从下方接收数据,再输出给上方,以此类推,原句中的特征会由最后一个编码器输出,编码器模块的主要功能就是提取原句中的特征。以上句为例,我们的模型首先需要计算出单词A的特征值,其次计算dog的特征值,以此类推,当计算每个词的特征值时,模型都需要遍历每个词与句子中其他词的关系,模型可以通过词与词之间的关系来更好的理解当前词的意思。自注意力机制有助于解决这个问题。

2023-07-04 21:41:03 270

原创 Lion闭源大语言模型的对抗蒸馏框架实践

对抗蒸馏框架概述:我们基于高级闭源LLM的基础上提炼一个学生LLM,该LLM具有三个角色:教师、裁判和生成器。有三个迭代阶段:模仿阶段,对于一组指令,将学生的响应与老师的响应对齐;区分阶段,识别出难指令;生成阶段,根据识别出的难指令,产生新的难指令以增加对学生模型的挑战。

2023-07-04 21:40:31 990

阿里云双碳解决方案,双碳节能

阿里云双碳解决方案

2024-02-15

228项CCER方法学超强汇总

228项CCER方法学超强汇总

2024-02-15

《零碳工厂评价规范》(TCECA-G 0171-2022)

零碳工厂评价规范

2024-02-15

基于vmdk文件创建虚拟机.md

基于vmdk文件创建虚拟机.md

2022-12-22

通过sealos部署k8s

通过sealos部署k8s

2022-12-22

免安装版senseshield

免安装版senseshield

2022-02-28

JEECG开源项目本地部署,调试,使用说明相关介绍文档

JEECG开源项目本地部署,调试,使用说明相关介绍文档

2022-02-27

数据中台,详细介绍数据中台相关概念

数据中台,详细介绍数据中台相关概念

2022-02-27

中台实践,详细介绍如何实施中台项目

中台实践,详细介绍如何实施中台项目

2022-02-27

中台战略书籍,详细介绍中台战略如何部署

中台战略书籍,详细介绍中台战略如何部署

2022-02-27

ibm的heap analyzer.zip

ibm的heap analyzer.zip

2022-01-22

red gate for mysql 数据比对工具

red gate for mysql 数据比对工具

2022-01-22

red gate for sql server数据比对工具

red gate for sql server数据比对工具

2022-01-22

red gate for oracle数据库比对工具

red gate for oracle数据库比对工具

2022-01-22

k8s-yml.zip

k8s-yml.zip

2021-12-14

ibm的heap analyzer.zip

java堆栈日志分析工具

2021-12-03

编程猫-1.7.3.dmg

少儿编程软件,免费,易学,类似对积木,有免费课程,学校会组织参加相关竞赛,对培养孩子智利或者逻辑思维,有很好的帮助

2020-12-03

gridview操作大全

http://d.download.csdn.net/down/943798/amwukddx

2009-02-04

c sharp 教程

c sharp 教程c sharp 教程c sharp 教程c sharp 教程c sharp 教程c sharp 教程c sharp 教程

2008-12-17

socket程序使用说明

socket程序使用说明,socket程序的大体使用大致介绍

2008-12-17

在NET环境中如何数据库操作

在 NET环境中,如何操作数据库资源,在 NET环境中,如何操作数据库资源,

2008-11-19

NET中如何使用存储过程

使用存储过程,在NET 环境中如何使用存储过程

2008-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除