自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 linux中安装mysql服务

安装mysql方法常用命令登录:mysql -u root -p查看用户名和密码:cat /etc/shadow2

2024-04-22 10:29:38 204

原创 textcnn做多分类

【代码】textcnn做多分类。

2024-04-09 10:15:36 456

原创 gbm模型做分类

【代码】gbm模型做分类。

2024-04-05 10:58:05 453

原创 chabot项目介绍

整体的目录如下所示:datamodel:存放对话生成的模型- config.json:模型参数的配置文件- pytorch_model.bin:模型文件vocabsample:存放人机闲聊生成的历史聊天记录train.py:训练代码interact.py:人机交互代码preprocess.py:数据预处理代码。

2024-04-04 16:56:18 529

原创 git拉取master分支代码和本地的分支进行合并的方法

目前我在dev分支,现在要将远程的master分支合并到我本地这个分支。git merge master 将master分支合并到我这个分支。git push 推送代码到自己的远程分支(这一步也可以不用操作)git checkout master 切换分支到master。git pull 拉取远程分支,目的是确保当前分支是最新代码。git checkout dev 切换到自己的分支。

2024-04-01 11:36:20 94

原创 matplotlib的x轴进行旋转

【代码】matplotlib的x轴进行旋转。

2024-03-30 15:20:45 119

原创 xgb和gbm做回归代码sklearn

【代码】xgb和gbm做回归代码sklearn。

2024-03-24 10:21:03 584

原创 视频整体代码逻辑如下所示

【代码】视频整体代码逻辑如下所示。

2024-03-23 08:59:44 263

原创 erine做文本分类

【代码】erine做文本分类。

2024-03-16 12:23:31 391

原创 大模型不同参数下的模型显存计算公式

在这个基础上跑一次原始参数量的推理(不需要梯度和优化器状态,但仍然需要一些显存来存储运算过程的数据),合起来就是LoRA的所需要的显存。例:原本需要微调1024×512的参数,用了LoRA之后,如果选择的 Rank=8,则只需要微调这么多参数:1024×8+512×8。以 7B-BF16 版本为例,需要显存 = 数量 * 类型大小 = 70亿 * 2字节 = 140亿字节。LoRA 只需要给原始模型做推理,训练一个更小的模型来实现和训练原始参数差不多的效果。优化器的状态:参数量的2倍。

2024-03-16 09:54:19 1145

原创 cnn的相关代码如下所示

【代码】cnn的相关代码如下所示。

2024-03-12 21:28:07 323

原创 树模型分裂节点可视化

【代码】树模型分裂节点可视化话。

2024-02-28 18:49:45 369

原创 BERT模型输出pooler_output和last_hidden_state以及用法

加载bert模型输出解释如下所示# 加载BertTokenizer和BertModel# 定义输入文本text = '这是一个测试句子'# 对输入文本进行分词和填充# 获取Bert模型的embedding结果# 输出结果其中每个输出部分的解释如下所示:last_hidden_state:shape是(batch_size, sequence_length, hidden_size),hidden_size=768,它是模型最后一层输出的隐藏状态,序列标注通常用。

2023-10-09 10:56:11 1834

原创 mac电脑词云和matplotlib画图显示中文乱码最简单办法

【代码】mac电脑词云和matplotlib画图显示中文乱码最简单办法。

2023-09-30 17:07:37 427

原创 tensorflow中model.sumay出来的参数解释

在进行机器学习建模时,我们通过tensorflow搭建的模型网络结构主要学习的是模型中的w和b,这个也是模型的参数量的大小,这个也决定了模型的复杂度和大小,具体每层的网络的参数量计算方法如下所示:如下的网络结构:其中参数的计算方式为:Param = (输入数据维度+1)* 神经元个数之所以要加1,是考虑到每个神经元都有一个Bias。因此上述的图表的参数为(64+1)*32=2080和(32+1)*1=33。

2023-09-29 10:05:51 142

原创 使用conda处理docker崩溃导致的conda环境得重新配置

目前大公司基本都通过docker的方式管理开发机器,如果docker一旦重新启动很有可能conda环境就全部得重新配置了,之前安装的tensorflow和pytroch环境也需要重新配置比较麻烦,可以使用conda pack方式来处理这个问题。

2023-09-28 17:17:06 118

原创 mac中使用idea搭建java开发环境

目前大部分的大公司基本都使用java语言(1.8)作为后端的开发语言,除百度用c++,大部分的公司都使用java语言,目前有在转go的趋势,下面为java开发环境的搭建流程总体的工具为:idea+java+maven。

2023-09-28 16:02:47 211

原创 使用SRILM 工具对n-gram建模实战

n-gram模型是一种统计语言模型,用于预测给定一个文本序列中下一个词或单词序列的概率。本文通过srilm工具对n-gram模型进行建模实战

2023-09-26 13:35:10 85

原创 pyspark中 --archives上传bert文件进行预测

pyspark中 --archives上传bert文件进行预测。

2023-09-21 23:56:57 98

原创 python正则表达式处理各类异常符号总结

正则表达式是从左到右来匹配一个字符串的。“Regular Expression” 这个词太长了,我们通常使用它的缩写 “regex” 或者 “regexp”。正则表达式可以被用来替换字符串中的文本、验证表单、基于模式匹配从一个字符串中提取字符串等等。正整数^\d+$负整数^-\d+$电话号码^+?电话代码^+?[\d\s]+(?整数^-?\d+$用户名字母数字字符带空格的字母数字字符密码^(?=.*[A-Z])(?电子邮件IPv4 地址^((?:(?[0-9][0-9]?)\.){3}(?

2023-09-15 23:52:38 211

原创 企业prompt工程业务实践总结

Prompt 工程是创建提示或指导像 ChatGPT 这样的语言模型输出的过程。它允许用户控制模型的输出并生成符合其特定需求的文本。prompt的设计一定要有逻辑和系统性,现在大模型对于文本的分类、抽取、生成、理解等nlp任务都特别的强大,在通用的领域里面基本不会比传统的模型效果差,但是受限于gpu资源和预算,目前对于大规模的任务很多都是通过大模型进行样本的修正和标注,在用小模型进行在线部署,后续如果性能提高、费用降低很多之前的小模型都会基于大模型进行任务的处理。

2023-09-15 11:05:49 79

原创 pandas读取文本数据跳过数据异常error_bad_lines字段

【代码】pandas读取文本数据跳过数据异常error_bad_lines字段。

2023-09-08 22:25:38 896 6

原创 pandas使用总结大全-增加、删除、去重、表连接等

使用pandas对数据进行各种处理:增加、删除、查找已经表的连接,行操作、列操作总结,掌握pandas的各种骚操作处理!

2023-09-08 22:12:13 153

原创 Pyspark使用总结

pyspark的基本介绍和一些常用的使用总结,包括对dataframe的一些常用使用;pyspark处理dataframe格式数据的增删修改使用总结;

2023-09-03 22:31:49 56

转载 seaborn 常用画图

python seaborn画图以前觉得用markdown写图文混排的文字应该很麻烦,后来发现CSDN的markdown真是好用的。在做分析时候,有时需要画几个图看看数据分布情况,但总记不住python的绘图函数。今天有空顺便整理下python的seaborn绘图函数库。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seabo...

2018-07-03 23:17:12 7311

原创 ubutun中非root用户使用过程中出现sudo问题

提示用户不再sudoers文件中,此事将被报告。的错误时。

2017-03-22 18:39:39 518

原创 hive安装时注意的东西和容易出错的地方

Hvie的安装出错的原因:4.配置hive()cp hive-default.xml.template hive-site.xml 修改hive-site.xml(删除所有内容,只留一个)添加如下内容: javax.jdo.option.ConnectionURL jdbc:mysql://localhost:3306/hive?createDatabaseIfNotE

2017-03-02 21:05:26 445

pandas数据骚操作总结

pandas在工作中的使用总结,以及使用pandas进行特征工程比较常用的方法总结。

2019-02-17

python处理pandas读取文件名有中文报错问题解决方法

python处理pandas读取文件名有中文报错问题解决方法,

2018-05-17

windows10下已经编译好了的LightGBM安装包

亲自已测可以直接使用安装的LightGBM包,希望帮助不想安装vs的小伙伴们安装python包/

2018-05-16

现在就职了,分享去年各大互联网公司的机器学习与数据挖掘面积以及总结,望各位都能找个好工作。

现在就职了,分享去年各大互联网公司的机器学习与数据挖掘面积以及总结,望各位都能找个好工作。

2018-05-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除