自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(551)
  • 资源 (9)
  • 收藏
  • 关注

原创 从零搭建机器学习平台Kubeflow

来自官网的一段介绍: Kubeflow 项目致力于使机器学习 (ML) 工作流在 Kubernetes 上的部署变得简单、可移植和可扩展。Kubeflow的目标不是重新创建其他服务,而是提供一种直接的方法,将用于 ML 的同类最佳开源系统部署到不同的基础设施中。在任何运行 Kubernetes 的地方,开发者都应该能够运行 Kubeflow。从官网这段介绍可以看出,Kubeflow与Kubernetes是形影不离的。

2022-12-25 03:59:33 8311 5

原创 Python人工智能之图片识别,Python3一行代码实现图片文字识别

自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_...

2017-09-20 14:15:00 23507

原创 Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)

斗图我不怕最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地。自己写这篇文章总结下这个项目的所涉及的知识,并将实现过程分享给大家。首先:分析网站,找到图片的src地址打开网址:https://www.doutula.com/a

2017-05-06 17:05:54 7151 20

原创 Python爬虫系列(一)初期学习爬虫的拾遗与总结

最近,为了提取裁判文书网的有关信息,自己迈入Python的学习之路,写了快两周的代码,自己写这篇文章总结下踩过的坑,还有遇到一些好的资料和博客等总结下,以便自己后期复习和参考和、分享给大家交流学习,也欢迎大家补充些精彩内容。一、环境搭建和工具准备1、为了省去时间投入学习,推荐直接安装集成环境 Anaconda2、IDE:Pycharm、Pydev3、工具:Jup

2017-04-16 20:22:01 2612

原创 【中科院计算所】WSDM 2024冠军方案:基于大模型进行多文档问答

对话式问答旨在根据对话中识别的用户意图生成正确且有意义的答案,在现代搜索引擎中发挥着至关重要的作用和对话系统。然而,这仍然具有挑战性,特别是对于当前或趋势主题,因为在语言模型的训练阶段无法获得及时的知识。尽管提供多个相关文档作为上下文信息似乎可行,但该模型仍然面临着被大量输入淹没或误导的风险。基于来自小红书的真实文本数据,WSDM Cup 20241提出了“对话式多文档QA”的挑战,以鼓励对问题的进一步探索。最近,ChatGPT 等大模型在多项自然语言处理任务上表现出了令人印象深刻的性能。

2024-02-29 22:25:45 1190

原创 千帆杯第二期赛题:贺岁灵感模型

报名链接:https://cloud.baidu.com/qianfandev/aimatch?

2024-02-14 12:16:54 883

原创 vllm的SamplingParams参数

【代码】vllm的SamplingParams参数。

2024-02-02 22:20:17 1101

原创 千帆杯AI原生应用开发挑战赛,每期10万,等你而战!

随着大模型技术的飞速发展,2024年将会成为AI原生应用爆发的元年,引领千行百业的创新变革。在这一时代背景下,百度智能云重磅推出千帆杯·AI原生应用开发挑战赛,旨在激发广大开发者的创意潜能,推动AI原生应用在中国市场的蓬勃发展。大赛以“创意无限·生成未来”为主题,紧密围绕当前AI技术的前沿动态和应用趋势,借助百度智能云千帆AppBuilder和ModelBuilder两大智能开发助手,鼓励参赛者打造出更多具有创新性、实用性和社会价值的AI原生应用。

2024-01-29 21:40:31 445

原创 500行Python代码构建的AI搜索工具!

后端是Mixtral-8x7b 模型,托管在 LeptonAI 上,输出速度能达到每秒大约200个 token,用的搜索引擎是 Bing 的搜索 API。一个500行Python代码构建的AI搜索工具,而且还会开源,试了一下麻雀虽小该有的都有。(2) 适当加入一些虚构内容实际上有助于补充摘要片段中缺失的“常识性信息”。(1) 搜索质量至关重要。优质的摘要片段是形成精准概括的关键。(3) 在进行内容概括时,开源模型表现出了卓越的效果。

2024-01-27 00:45:30 509

转载 【隐私保护】Presidio实现PII匿名化

当我们将PII匿名化应用于现实世界的应用程序时,可能会有不同的业务需求,这使得直接使用预训练的模型具有挑战性。例如,想象一下,挪威的一家公司联系你,希望你为他们开发一个文本匿名器。他们希望它支持英文和挪威文中的匿名PII。除了常见的PII实体外,您还需要检测遵循某些校验和规则的挪威国民身份证号码。预先训练的NER模型很好,但如果不使用额外的标记数据来微调模型以获得良好的性能,就无法轻松添加新的实体类型。因此,有一个工具可以利用预先训练的模型,并且很容易定制和扩展功能,这是很好的。

2024-01-25 23:54:48 78

原创 【推荐】️大模型课程,免费开源!

课程链接:https://github.com/mlabonne/llm-course。

2024-01-22 22:26:20 454

原创 推荐两个工具:DeepSpeed-FastGen和DataTrove

为了更好地理解问题空间,我们提供了详细的示例,说明LLM文本生成如何在两个不同的阶段(称为提示处理和生成)工作。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率,但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。DeepSpeed官方推出 DeepSpeed-FastGen,该系统通过利用所提出的动态 SplitFuse 技术克服了这些限制,与 vLLM 等最先进的系统相比,有效吞吐量提高了 2.3 倍。

2024-01-20 23:44:31 517

原创 使用KTO进行更好、更便宜、更快速的LLM对齐

KTO全称为Kahneman-Tversky Optimisation,这种对齐方法使在我们的数据上对大型语言模型(LLM)进行对齐变得前所未有地容易和便宜,而且不会损害性能。大型语言模型的成功在很大程度上得益于与人类反馈的对齐。如果ChatGPT曾经拒绝回答您的问题,很可能是因为它被训练为避免说出有争议的内容。然而,对于公司来说,对他们自己的LLM进行对齐一直是困难的。下面我们简单介绍下KTO方法,这种方法可以提高LLM的整体性能和质量,同时节省成本。

2024-01-19 23:48:20 1469

原创 RLHF 和 DPO:简化和增强语言模型的微调

人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。

2024-01-16 22:30:16 1295

原创 RAG常见七大坑

Meta AI 的研究人员引入了一种叫做检索增强生成(Retrieval Augmented Generation,RAG)的方法来完成这类知识密集型的任务。RAG 把一个信息检索组件和文本生成模型结合在一起。RAG 可以微调,其内部知识的修改方式很高效,不需要对整个模型进行重新训练。RAG 会接受输入并检索出一组相关/支撑的文档,并给出文档的来源(例如维基百科)。这些文档作为上下文和输入的原始提示词组合,送给文本生成器得到最终的输出。这样 RAG 更加适应事实会随时间变化的情况。

2024-01-15 22:14:14 1012

原创 大模型关于Lora论文集合

COLA 采用残差学习过程,将学习到的 LoRA 模块合并到预先训练的语言模型参数中,并重新启动对新诞生的 LoRA 模块的优化。在实验中,与由 9 个专家组成的不带注意层适配器的 MixLoRA 模型相比,由 8 个具有注意层适配器的专家组成的 MixLoRA 模型表现出更快的损失减少速度。但是,需要注意的是,这些模型必须基于相同的预训练模型。MixLora地址:https://github.com/TUDB-Labs/multi-lora-fine-tune/blob/main/MixLoRA.md。

2024-01-11 21:57:05 979

原创 【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

在Alpaca-NEFT回复中,该模型提供了一个更流畅的答案,对这些主题,更清晰的解释了叠加和量子纠缠,并提到了潜在的应用。然而,性能的提高没有全面微调的明显。然而,在NEFTune中,我们看到了相当大的额外性能增长10%,尽管我们注意到这个检查点模型的一些功能可能会受到影响,比如它避免输出有毒行为的能力。在本文中,我们提出在微调正向传递的过程中,在训练数据的嵌入向量中添加随机噪声,论文实验显示这个简单的技巧可以提高指令微调的效果,通常有很大的优势,而不需要额外的计算或数据开销。

2024-01-09 23:28:27 1311

原创 大模型生成解码参数速查

https://huggingface.co/docs/transformers/main_classes/text_generation

2024-01-08 23:18:40 430

原创 通义千问 - Code Qwen能力算法赛道季军方案

Human Eval- HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。

2024-01-07 11:59:59 1277

原创 百度智能云千帆大模型平台黑客马拉松报名开启!

创造是生成式 AI 的核心。无论是智能导购带来的线上购物体验升级,还是主图生成带来的素材生产效率提升,又或是游戏场景的快速设置、智能 NPC 的全新交互、数字广告的精准推荐和个性化定制,亦或者是为学生提供更符合真实的口语练习环境,生成式 AI 这一人工智能的范式升级,正在深入产业,引领效能革命。

2023-11-01 16:53:08 1365

原创 记录一次“top负1”比赛经历

自己在复现方案里面如实提到了,也不是故意使用的,后来和他们沟通,重新跑一次没有使用去年数据的模型提交也不行,就是直接取消成绩!你在键盘巧了几百字,几十行微信消息,可能被别人搪塞一句“我和主办方沟通了,确实不行”,其实是不是她下班回家,懒的管你?“各位评委老师,我是来自WOT团队的选手AMBT,口号是将中文语义病句识别与纠正提升到新高度”某日下午,“叮叮叮”,“叮叮叮”,“叮叮叮”,扭头一看桌面上手机响了,接了电话。后来扯皮了很久,后来苦苦婆心解释了一达通,就是直接取消成绩,对,就是这么残忍。

2023-08-26 00:40:32 1065 6

原创 讯飞星火认知大模型升级体验

分享续写:支持用户以页面链接的形式分享自己的对话内容,分享出去的对话内容其他 用户可以通过点击续写,自动带入自己的对话中,继续对话。助手结构化指令: 通过角色设定、目标任务、需求说明、风格设定等字段,帮助用户快 速定制自己的专属助手,并提高助手的大模型应用效果。音频生成:根据用户要求,生成符合要求的合成音频,并自动匹配发音人。虚拟人视频生成:根据用户要求,生成符合要求的虚拟人视频。图像生成:根据用户的描述,生成符合要求的图像。

2023-08-14 00:01:03 347

原创 【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”

或者有继续微调比较合适的方案也可以,不损失之前模型的效果(或者损失比较小),目前可以尝试Lora或者Qlora的方式微调底座模型,然后将训练好的Lora权重合并到原始模型,这样可以减轻多次微调对模型的影响。之前推理的时候,发现不加训练的时候prompt,直接输入模型性能会变差的,这个倒是可以理解。(3)另外通过实验发现,如果模型微调的时候使用模板,那么推理的时候应该也使用模板,否则效果会影响,直观上就是生成效果不理想,生成比较短,甚至“驴唇不对马嘴”;那高质量如何定义呢?和alpaca模板差不多。

2023-07-31 22:31:39 2480

原创 【LLM系列之踩坑记】你训练的大模型生成长度真的变短了吗

这个时候我们还是得分析底座的能力。其次,我们也可以构造一些搜索+生成的指令数据,这个需要注意的是答案怎么得到,可能检索文档基于本地检索系统或者搜索引擎去召回就可以,答案尽量是高质量的gpt4生成的,因为到时候我们是学习第一名的效果,那么我们近逼第一名的能力的,这个毋庸置疑。然后发现的问题是检索模型召回出的知识对大模型的生成效果是有影响的,那么直观就是自己训练的大模型生成的答案太短了。(2)训练大模型的时候尽量去拟合比较好的数据,这个好的数据可以是高昂成本人工标注的数据,也可以是chatgpt生成的数据。

2023-07-22 23:06:04 698

原创 大模型评测平台OpenCompass

OpenCompass 是面向大模型评测的一站式平台。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能灵活化拓展:想增加新模型或数据集?

2023-07-21 13:26:06 1656

原创 【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍!

🧮 7B、13B & 70B 参数版本🧠 70B模型采用分组查询注意力(GQA)🛠 聊天模型可以使用工具和插件🚀 LLaMA 2-CHAT 与 OpenAI ChatGPT 效果一样好🤗 发布在HuggingFace:https://huggingface.co/meta-llama公告: https://ai.meta.com/llama/

2023-07-19 03:27:14 4821

原创 CH福利发放:免费算力抽奖

小编前几天和揽睿星舟官方小伙伴在社区认识,为了推广平台,官方免费给出CH社区小伙伴社区送算力了,作为福利送给粉丝,无套路含泪送给大家( ̄▽ ̄)~,回馈粉丝长期关注于支持,请关注公众号ChallengeHub即可获取抽奖方式。揽睿星舟平台链接:下面给出平台使用教程。

2023-06-01 23:30:13 162

原创 【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize具体目标与粒度是什么呢?tokenize也有许多类别及优缺点,这篇文章总结一下各个方法及实际案例。tokenize的目标是把输入的文本流,切分成一个个子串,每个子串相对有完整的语义,便于学习embedding表达和后续模型的使用。tokenize有三种粒度:word/subword/char。

2023-05-19 23:46:00 2387 1

原创 【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

使用 ALiBi 位置嵌入,它根据键和查询的距离直接衰减注意力分数。与原始的 Transformer 和 Rotary 嵌入相比,它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入;相反,它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。Embedding Layer Norm 在第一个嵌入层之后立即使用,以避免训练不稳定。使用了 25 万个标记的词汇表。使用字节级 BPE。这样,标记化永远不会产生未知标记。

2023-05-18 23:45:12 2627

原创 【LLM系列之GPT】GPT(Generative Pre-trained Transformer)生成式预训练模型

GPT(Generative Pre-trained Transformer)是由OpenAI公司开发的一系列自然语言处理模型,采用多层Transformer结构来预测下一个单词的概率分布,通过在大型文本语料库中学习到的语言模式来生成自然语言文本。

2023-05-18 23:27:32 2331

原创 【LLM系列之BLOOM】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

预训练语言模型已经成为了现代自然语言处理pipeline中的基石,因为其在少量的标注数据上产生更好的结果。随着ELMo、ULMFiT、GPT和BERT的开发,使用预训练模型在下游任务上微调的范式被广泛使用。随后发现预训练语言模型在没有任何额外训练的情况下任务能执行有用的任务,进一步证明了其实用性。此外,根据经验观察,语言模型的性能随着模型的增大而增加(有时是可预测的,有时是突然的),这也导致了模型规模越来越多的趋势。抛开环境的问题,训练大语言模型(LLM)的代价仅有资源丰富的组织可以负担的起。

2023-05-16 23:27:55 628

原创 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源一系列语言模型,可以与SOTA模型竞争LLaMA-13B比GPT-3的性能更好,但是模型大小却是十分之一。

2023-05-15 14:40:24 873

原创 【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling

目前,已经有各种类型的预训练架构,包括自编码模型(例如BERT),自回归模型(例如GPT)和编码器-解码器模型(例如T5)。然而,没有一个预训练框架对三个主要类别的所有任务(自然语言理解(NLU),无条件生成和有条件生成)都表现最佳。提出了一种基于自回归空白填充的通用语言模型(GLM)来应对上述三种任务。GLM通过添加2D位置编码并允许任意顺序预测跨度来改进空白填充预训练,从而在NLU任务上比BERT和T5获得了性能提升。通过变化空白数量和长度,可以针对不同类型的任务对GLM进行预训练。

2023-05-14 23:46:32 1097

原创 【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways

PaLM 540B 在 1-shot 设置的 29 个任务中的 24 个和在 few-shot 设置的 29 个任务中的 28 个任务上优于之前的 SOTA。总体来说,该程序包含用于 pod 内前向+反向计算(包括 pod 内梯度减少)的组件 A,用于跨 pod 梯度传输的传输子图,以及用于优化器更新的组件 B(包括本地和远程梯度的求和) ).(2)提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B 中一样,使用的是标准“序列化”公式。

2023-05-14 01:24:35 1188

原创 LlamaIndex :面向QA 系统的全新文档摘要索引

在LlamaIndex中提出了一个新索引,它将为每个文档提取/索引非结构化文本摘要。该索引可以帮助提高检索性能,超越现有的检索方法。它有助于索引比单个文本块更多的信息,并且比关键字标签具有更多的语义。它还允许更灵活的检索形式:我们可以同时进行 LLM 检索和基于嵌入的检索。

2023-05-10 23:45:41 1121

原创 【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models

研究已经证明,在一组表述为指令的数据集上微调语言模型可以提高模型性能和对未知任务的泛化能力。(1)缩放任务数量;(2)缩放模型大小;(3)链式思维数据微调;论文发现,在上述方面进行指令微调可以显着提高各种模型(PaLM、T5、U-PaLM)、提示设置(零样本、少样本、CoT)和评估基准(MMLU、BBH、 TyDiQA、MGSM、开放式生成、RealToxicityPrompts)。

2023-05-08 23:11:08 944

原创 BigCode开放性能超越Copilot的代码生成模型Starcoder

StarCoder模型的优点之一,是可以处理比其他大型语言模型更多的输入,可以接受高达8,000个Token,而这将能支援更多样的应用,像是经过一系列的对话指示,便可使StarCoder成为技术助理。由于StarCoder是一个多语言模型,因此开发团队也使用MultiPL-E基准测试进行比较,在多语言上,StarCoder表现比OpenAI code-cushman-001模型更好,并在资料科学DS-1000基准测试上,击败其他开放存取模型。

2023-05-05 23:27:14 1701

原创 Chinese-LangChain:基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成

Chinese-LangChain:中文langchain项目,基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成俗称:小必应,Q.Talk,强聊,QiangTalk。

2023-04-19 03:15:52 4759 2

原创 研究LLMs之前,不如先读读这五篇论文!

论文链接:https://gwern.net/doc/www/s3-us-west-2.amazonaws.com/d73fdc5ffa8627bce44dcda2fc012da638ffb158.pdf。论文链接:https://arxiv.org/pdf/1706.03762.pdf。论文链接:https://arxiv.org/pdf/1810.04805.pdf。论文链接:https://arxiv.org/pdf/1910.13461.pdf。前两年火爆的论文:transformer。

2023-04-17 23:43:57 713 1

原创 ControlNet 1.1重磅发布,14个模型全部开源!

来源:https://github.com/lllyasviel/ControlNet-v1-1-nightlyControlNet 1.1 与 ControlNet 1.0 具有完全相同的体系结构,ControlNet 1.1 包括所有以前的模型,具有改进的稳健性和结果质量,并添加了几个新模型。

2023-04-15 21:49:03 13716

doutu-master

斗图网站表情包下载

2017-05-06

qt-Txt编辑器图标

qt-Txt编辑器图标

2016-06-27

Qt小实例-记事本notepad

Qt小实例-记事本notepad

2016-06-24

Yii2中文手册(完整版)pdf

Yii中文手册

2016-06-04

JSP实例编程100例

JSP实例编程100例

2016-05-12

C++编程实例100篇

C++编程实例100篇

2016-05-12

javascript——PDF教程大合集.rar

javascript——PDF教程大合集 1、100个直接可以拿来用的JavaScript实用功能代码片段 2、JavaScript DOM编程艺术(中文) 3、JavaScript高级程序设计(第3版)中文 高清 完整 4、JavaScript脚本特效编程给力起飞 5、JavaScript权威指南(第6版)(中文版) 6、JavaScript入门经典第4版修订版 7、javascript设计模式 8、JavaScript完全解析 9、JavaScript学习指南 10、JavaScript语言精粹 11、深入浅出JavaScript(中文版)

2016-05-12

HTML5 Canvas核心技术 图形、动画与游戏开发

HTML5 Canvas核心技术 图形、动画与游戏开发 希望可以帮助大家,

2016-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除