财天椒-CSDN博客

原创 linux中安装mysql服务

安装mysql方法常用命令登录：mysql -u root -p查看用户名和密码：cat /etc/shadow2

2024-04-22 10:29:38 204

原创 chabot项目介绍

整体的目录如下所示：datamodel:存放对话生成的模型- config.json:模型参数的配置文件- pytorch_model.bin:模型文件vocabsample:存放人机闲聊生成的历史聊天记录train.py:训练代码interact.py:人机交互代码preprocess.py:数据预处理代码。

2024-04-04 16:56:18 529

原创 git拉取master分支代码和本地的分支进行合并的方法

目前我在dev分支，现在要将远程的master分支合并到我本地这个分支。git merge master 将master分支合并到我这个分支。git push 推送代码到自己的远程分支（这一步也可以不用操作）git checkout master 切换分支到master。git pull 拉取远程分支，目的是确保当前分支是最新代码。git checkout dev 切换到自己的分支。

2024-04-01 11:36:20 94

原创 matplotlib的x轴进行旋转

【代码】matplotlib的x轴进行旋转。

2024-03-30 15:20:45 119

原创 xgb和gbm做回归代码sklearn

【代码】xgb和gbm做回归代码sklearn。

2024-03-24 10:21:03 584

原创视频整体代码逻辑如下所示

【代码】视频整体代码逻辑如下所示。

2024-03-23 08:59:44 263

在这个基础上跑一次原始参数量的推理（不需要梯度和优化器状态，但仍然需要一些显存来存储运算过程的数据），合起来就是LoRA的所需要的显存。例：原本需要微调1024×512的参数，用了LoRA之后，如果选择的 Rank=8，则只需要微调这么多参数：1024×8+512×8。以 7B-BF16 版本为例，需要显存 = 数量 * 类型大小 = 70亿 * 2字节 = 140亿字节。LoRA 只需要给原始模型做推理，训练一个更小的模型来实现和训练原始参数差不多的效果。优化器的状态：参数量的2倍。

2024-03-16 09:54:19 1145

原创 cnn的相关代码如下所示

【代码】cnn的相关代码如下所示。

2024-03-12 21:28:07 323

原创树模型分裂节点可视化

【代码】树模型分裂节点可视化话。

2024-02-28 18:49:45 369

原创 BERT模型输出pooler_output和last_hidden_state以及用法

加载bert模型输出解释如下所示# 加载BertTokenizer和BertModel# 定义输入文本text = '这是一个测试句子'# 对输入文本进行分词和填充# 获取Bert模型的embedding结果# 输出结果其中每个输出部分的解释如下所示：last_hidden_state：shape是(batch_size, sequence_length, hidden_size)，hidden_size=768,它是模型最后一层输出的隐藏状态，序列标注通常用。

2023-10-09 10:56:11 1834

原创 mac电脑词云和matplotlib画图显示中文乱码最简单办法

【代码】mac电脑词云和matplotlib画图显示中文乱码最简单办法。

2023-09-30 17:07:37 427

原创 tensorflow中model.sumay出来的参数解释

在进行机器学习建模时，我们通过tensorflow搭建的模型网络结构主要学习的是模型中的w和b，这个也是模型的参数量的大小，这个也决定了模型的复杂度和大小，具体每层的网络的参数量计算方法如下所示：如下的网络结构：其中参数的计算方式为：Param = （输入数据维度+1）* 神经元个数之所以要加1，是考虑到每个神经元都有一个Bias。因此上述的图表的参数为（64+1）*32=2080和（32+1）*1=33。

2023-09-29 10:05:51 142

原创使用conda处理docker崩溃导致的conda环境得重新配置

目前大公司基本都通过docker的方式管理开发机器，如果docker一旦重新启动很有可能conda环境就全部得重新配置了，之前安装的tensorflow和pytroch环境也需要重新配置比较麻烦，可以使用conda pack方式来处理这个问题。

2023-09-28 17:17:06 118

原创 mac中使用idea搭建java开发环境

目前大部分的大公司基本都使用java语言（1.8）作为后端的开发语言，除百度用c++，大部分的公司都使用java语言，目前有在转go的趋势，下面为java开发环境的搭建流程总体的工具为：idea+java+maven。

2023-09-28 16:02:47 211

原创使用SRILM 工具对n-gram建模实战

n-gram模型是一种统计语言模型，用于预测给定一个文本序列中下一个词或单词序列的概率。本文通过srilm工具对n-gram模型进行建模实战

2023-09-26 13:35:10 85

原创 pyspark中 --archives上传bert文件进行预测

pyspark中 --archives上传bert文件进行预测。

2023-09-21 23:56:57 98

原创 python正则表达式处理各类异常符号总结

正则表达式是从左到右来匹配一个字符串的。“Regular Expression” 这个词太长了，我们通常使用它的缩写 “regex” 或者 “regexp”。正则表达式可以被用来替换字符串中的文本、验证表单、基于模式匹配从一个字符串中提取字符串等等。正整数^\d+$负整数^-\d+$电话号码^+?电话代码^+?[\d\s]+(?整数^-?\d+$用户名字母数字字符带空格的字母数字字符密码^(?=.*[A-Z])(?电子邮件IPv4 地址^((?:(?[0-9][0-9]?)\.){3}(?

2023-09-15 23:52:38 211

原创企业prompt工程业务实践总结

Prompt 工程是创建提示或指导像 ChatGPT 这样的语言模型输出的过程。它允许用户控制模型的输出并生成符合其特定需求的文本。prompt的设计一定要有逻辑和系统性，现在大模型对于文本的分类、抽取、生成、理解等nlp任务都特别的强大，在通用的领域里面基本不会比传统的模型效果差，但是受限于gpu资源和预算，目前对于大规模的任务很多都是通过大模型进行样本的修正和标注，在用小模型进行在线部署，后续如果性能提高、费用降低很多之前的小模型都会基于大模型进行任务的处理。

2023-09-15 11:05:49 79

原创 pandas读取文本数据跳过数据异常error_bad_lines字段

【代码】pandas读取文本数据跳过数据异常error_bad_lines字段。

2023-09-08 22:25:38 896 6

原创 pandas使用总结大全-增加、删除、去重、表连接等

使用pandas对数据进行各种处理：增加、删除、查找已经表的连接，行操作、列操作总结，掌握pandas的各种骚操作处理！

2023-09-08 22:12:13 153

原创 Pyspark使用总结

pyspark的基本介绍和一些常用的使用总结，包括对dataframe的一些常用使用；pyspark处理dataframe格式数据的增删修改使用总结；

2023-09-03 22:31:49 56

转载 seaborn 常用画图

python seaborn画图以前觉得用markdown写图文混排的文字应该很麻烦，后来发现CSDN的markdown真是好用的。在做分析时候，有时需要画几个图看看数据分布情况，但总记不住python的绘图函数。今天有空顺便整理下python的seaborn绘图函数库。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seabo...

2018-07-03 23:17:12 7311

原创 ubutun中非root用户使用过程中出现sudo问题

提示用户不再sudoers文件中，此事将被报告。的错误时。

2017-03-22 18:39:39 518

原创 hive安装时注意的东西和容易出错的地方

Hvie的安装出错的原因：4.配置hive（）cp hive-default.xml.template hive-site.xml 修改hive-site.xml（删除所有内容，只留一个）添加如下内容： javax.jdo.option.ConnectionURL jdbc:mysql://localhost:3306/hive?createDatabaseIfNotE

2017-03-02 21:05:26 445

pandas数据骚操作总结

pandas在工作中的使用总结，以及使用pandas进行特征工程比较常用的方法总结。

2019-02-17

python处理pandas读取文件名有中文报错问题解决方法

python处理pandas读取文件名有中文报错问题解决方法，

2018-05-17

windows10下已经编译好了的LightGBM安装包

亲自已测可以直接使用安装的LightGBM包，希望帮助不想安装vs的小伙伴们安装python包/

2018-05-16

现在就职了，分享去年各大互联网公司的机器学习与数据挖掘面积以及总结，望各位都能找个好工作。