- 博客(198)
- 收藏
- 关注
原创 保存带 numpy.ndarray 的 dataframe
使用 pickle,import picklesave_path = "./result/tmp/text_embedding_df.pkl"with open(save_path, 'wb') as f: pickle.dump(df, f)
2024-03-14 11:21:25 167
原创 pandas: groupby() 分组求向量平均值
data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']对向量求均值,向量类型需为 numpy.ndarray,不能为list会报错
2024-03-12 12:00:03 331
原创 python使用 concurrent.futures 启动并行任务
以相同的方式工作,它使用多进程而不是多线程作为工作池。顾名思义,创建一个可以提交作业的线程池。
2024-02-28 11:17:50 274
原创 超平面介绍
(1) 超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中,一条直线是一维的,它把平面分成了两部分;三维空间中,一个平面是二维的,它把空间分成了两部分。(2) 法向量是指垂直于超平面的向量。为 N 维向量,b为标量,表示超平面于原点之间的距离。(垂直于超平面) ,已知超平面中的一点。,需要求它到超平面之间的距离。,对于超平面中的任意一点。
2024-02-20 20:58:52 1328
原创 BPE原理及代码简单演示
BPE(Byte pair encoding)是对字节编码,BPE 算法是在 UTF-8 编码的字符串上运行的,所以它是“字节级”的。 理论上任何 UTF-8 编码的字符串都可以统一使用 BPE
2024-02-19 18:26:32 498
原创 tqdm和zip一起用进度条不显示的解决方法
for a,b in tqdm(zip(x, y), total=len(x)): # 添加一个参数 total 即可
2024-01-31 10:12:17 252
原创 GPT-SoVITS 测试
AutoDL地址:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official。Blili 地址:https://www.bilibili.com/video/BV12g4y1m7Uw。GitHub地址:https://github.com/RVC-Boss/GPT-SoVITS。step2 创建好实例之后,进入命令行,输入命令。step4 完成之后,点击 tab 栏,随后选择公网地址打开,进入Web页面。step1 打开地址。
2024-01-27 20:34:37 2098
原创 Amphion tts(Text to Speech) 语音合成
强烈推荐使用带 GPU 的 Ubuntu 或 Centos 系统运行,可以租一个比较便宜的机器实例运行
2023-12-29 16:55:00 583
原创 fill-in-the-middle(FIM) 实现与简单应用
传统训练的 GPT 模型只能根据前文内容预测后文内容,但有些应用比如代码生成器,需要我们给出上文和下文,使模型可以预测中间的内容,传统训练的 GPT 就不能完成这类任务。FIM 是一种新的训练技巧,使得 GPT 类模型能够根据上下问填充中间部分。调换 suffix 与 middle 位置,此为 PSM 模式。通过添加特殊 token, 使得训练数据包含上下文内容。传统训练的 GPT 只能根据上文预测下文。使用 FIM 训练的能够正确填充中间部分。另外还有 SPM 模型。
2023-12-20 21:11:30 848
原创 本地运行大语言模型并可视化(Ollama+big-AGI方案)
其中 Ollama 目前只支持 Mac,LM Studio目前支持 Mac 和 Windows。该服务启动在 3000 端口:http://localhost:3000/ ,直接在浏览器中打开,界面窗口中 vendor 记得选择 ollama。命令行终端运行命令 ollama run llama2,该命令会下载 llama2 模型,随后运行这个模型,现在我们就可以在终端对话了。执行 npm install 可能报错: zsh: command not found: npm。查看是否安装成功:npm -v。
2023-12-16 18:20:55 2365
原创 numpy.memmap 用法与注意事项
当处理大数组时,内存可能不够用。numpy 提供了一个函数 np.memmap() 让我们可以处理大数组。np.memmap() 可以读取大磁盘文件中的一小段到内存,所以它占内存较小。
2023-12-12 16:55:08 784
原创 jupyter notebook中添加内核kernel
进入对应路径,可以看到一个 kernel.json 文件,里面记录了 kernel 对应的 python 执行路径。jupyter kernelspec list 命令之后可以看到每个内核配置路径。step5 重启 jupyter notebook 可以选择需要使用的内核。step2 若没有kernel,则需要安装 kernel。step1 检查环境中是否有kernel。step3 查看已添加的内核。step4 添加内核。
2023-12-05 11:37:07 1491
翻译 深度学习术语:词嵌入 Word Embedding
word2vec 有两种方法:CBOW (Continuous Bag-Of-Words) 和 Skip-gramSkip-gram方法就是取句子中固定单词数量(如 5),使用中间单词去预测周围 4 个单词。输入是 one-hot 向量,经过隐层线性层,随后经过softmax层(结果值为正,加起来为 1)输出预测结果。中间的隐藏层权重即为嵌入矩阵embedding matrix,也即查找表。嵌入矩阵的大小为单词总数词向量维度,假如单词总数为 10000,并且隐藏神经元为 300。
2023-11-21 22:01:55 54
原创 python 打印与去除不可见字符 \x00
其中strip()只能去掉\r,\n,\t,无法去掉\x00。所以 text.strip()==“boot_1__normal/” 两者不相等。
2023-10-31 16:09:42 572
原创 Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问
【代码】Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问。
2023-10-30 09:32:05 218
原创 如何开通 Medium会员
首先你需要一张可以支付的外国卡选择开通 WildCard 卡,优点:1 无需上传身份证件,支付宝认证即可2 可以使用国内手机号注册3 可以使用支付宝、微信充值一步一步按步骤操作即可,在邀请码中输入(HONGSHU1),可以享受开卡 88 折优惠(不填就没有优惠哦)。开卡之后,最低充值 20美元。
2023-10-27 16:06:44 346
原创 pandas读取json文件,文件中包含多个json对象
可以使用 jsonlines 库,读取多个json对象的json文件。, 内容如下,里面包含多个 json 对象。直接使用 json 读取会报错。也可以使用 pandas 读取。
2023-10-26 10:58:04 334
原创 linux下安装 Chrome 和 chromedriver 以及 selenium webdriver 使用
https://googlechromelabs.github.io/chrome-for-testing/ (推荐,包含最新稳定版)现在就可以使用 selenium 的 webdriver 爬取内容了。chromedriver对应下载地址。
2023-10-25 17:04:33 5079
原创 scrapy typeerror: attrs() got an unexpected keyword argument ‘eq‘
scrapy typeerror: attrs() got an unexpected keyword argument 'eq'
2023-10-25 13:56:13 280
原创 DBeaver导数据抛错 Java heap space
找到配置文件:安装目录->dbeaver.init。Xmx为最大内存,默认 1024M,调大此值即可,如10240M。
2023-08-15 15:27:28 2366
原创 Linux 命令之 - scp(从远端机器拉取数据)
scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器,而且scp传输是加密的。
2023-08-08 17:38:01 1694
原创 Linux 命令之 - chown(改变文件拥有者及所属组)
R : 进行递归( recursive )的持续更改,即连同子目录下的所有文件、目录。chown [-R] 账号名称:用户组名称 文件或目录。都更新成为这个用户组。常常用在更改某一目录的情况。chown [-R] 账号名称 文件或目录。
2023-08-08 17:30:51 505
原创 xpath提取文本时忽略空格换行符
p是一个Selector对象,现在需要提取其中的文本,p.xpath(‘.//text()’) 提取时需要忽略文本中的空格换行符。
2023-08-04 16:20:42 754
https://github.com/PlayVoice/so-vits-svc 预训练文件
2023-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人