Mars_阿火-CSDN博客

原创云端敏捷部署单节点MySQl与Redis服务（以Ubuntu为例）

[client]default-character-set=utf8[mysql]default-character-set=utf8[mysqld]init_connect='SET collation_connection = utf8_unicode_ci'init_connect='SET NAMES utf8'character-set-server=utf8collation-server=utf8_unicode_ciskip-character-set-client-han

2022-04-01 01:45:47 233

原创 1分钟分清大端序和小端序

自大的人眼高手低定义大端序就是高字节放在低地址小端序就是高字节放在高地址字节（数据）的高低从左到右，由高到低。如有一个int 0x11223344，0x11是最高的字节，0x44是最低的字节；0x22相对于0x11是低字节，相对于0x33是高字节地址的高低越靠近0x00000000的地址越低，越靠近0xffffffff的地址越低两种方法的数据存储方式现有0x0000001~0x00000004合计4个字节的地址，用来存储0x11223344这个32位数，那么大端序是按照原顺序储存数.

2021-12-30 11:30:21 1041

原创 flask高性能框架下部署的关键词提取API

项目地址：https://github.com/Orekisiori/keyword_extract项目大量参考：https://github.com/zmy537565154/flask-project分享一个flask高并发部署方案框架结构为了实现linux系统下的高性能并发，我们还需要一个高性能的框架同时需保证服务器安装有nginx、gunicorn、并安装gevent库，nginx用于配置负载均衡，gunicorn+gevent保证启用python多线程和正确的工作模式flask是一

2021-08-06 01:13:17 435

原创完美解决安装annoy包报错 error: command ‘cl.exe‘ failed: No such file or directory

问题原因报错告诉你了，是缺少cl.exe这个程序。cl.exe是微软的一款C/C++编译器，我们用pip install下载python库时，会直接下载源代码，如果代码中有C/C++的内容，则会默认调用cl.exe进行编译，找不到的话就会报错解决方法完美解决最简单的办法就是跳过编译这个环节先上网址：https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站中存放着所有python库的已经编译好的.whl文件，将文件放在你的site-packages文件夹下使用

2021-08-06 01:03:13 6374

原创基于协同过滤的简略商品推荐算法

项目地址：https://github.com/Orekisiori/cf-rs我们限定一下范围，假设现在给你一个用户-商品的评分矩阵(1~5)，矩阵中的每个数代表用户对该商品的喜爱程度，问如何设计一个推荐系统这个问题的本质就是对用户对商品的评分进行预测，将预测评分高的商品推荐给用户，这里我们用到的算法就是协同过滤协同过滤有两个维度：商品维度：将与该用户喜爱的商品相似的商品推荐给用户，也就是说与用户最喜欢的商品最相似的商品评分最高；用户维度：将与该用户相似的用户喜爱的商品推荐给用户。问题进一步转化成如

2021-08-06 00:04:06 533

原创【关键词语义泛化系统】Day3

本周工作：首周的工作内容主要是学习框架，Flask虽然是个轻量级的拓展性框架，但有良好的拓展性，对于本系统的要求而言是足以满足的。在次基础上组内成员了解了API的编写、数据库连接和面向网页的编程，写好了一些测试类，等待前端交接工作后可以尝试进一步优化和上线运行。...

2021-07-05 00:16:21 91

原创【关键词泛化系统】Day2

本日工作：学习Flask框架，包括模块安装，基本操作，路由选择，JInja模板引擎和WTF表单

2021-07-02 00:39:23 87

原创【关键词泛化系统】Day1

【关键词泛化系统】Day1本日工作：交接项目，领取工位，理解项目内容，熟悉工作环境，项目运行环境搭建与配置。

2021-06-29 20:46:03 74

原创【ChatBot开发笔记】语料预处理——tokenize

GPT2模型的期望粒度是字而非词，故建立字典，通过tokenize完成两件事：切分语料，以[CLS]标志语料开头，以[SEP]划分说话对象完成字到字典id（tokenize_id）的转变def preprocess_raw_data(args, tokenizer, n_ctx): """ 对原始语料进行处理，将原始语料转换为用于train的token id，对于每个dialogue，将其处于成如下形式"[CLS]utterance1[SEP]utterance2[SEP]utte

2021-04-21 23:39:27 484 2

原创【ChatBot开发笔记】随机数种

随机数种计算机内的随机都是伪随机，python就是基于Mersenne Twister。Mersenne Twister是现存最广泛测试的随机数发生器之一，但是它是完全确定的。在python中如果直接使用random.random()，那可以获取到均匀的随机数（随机数种随机），也可以可以通过设置随机数种然后调用random.random()，来得到完全一样的随机数，所以它并不适合安全用途。实验总需要打乱数据来操作，但如果每次都打乱数据后与上一次数据有差异，则实验结果没办法复现，改进的DEBUG也会变得

2021-04-21 23:38:47 142

原创【ChatBot开发笔记】损失函数及准确率估计

def calculate_loss_and_accuracy(outputs, labels, device): """ 计算非pad_id的平均loss和准确率 :param outputs: :param labels: :param device: :return: """ logits = outputs[0] # 每个token用来预测下一个token的prediction_score,维度:[batch_size,token_l

2021-04-21 23:38:11 482

原创【ChatBot开发笔记】GPT2模型的导入、使用和分析，模型训练

Transformers是一个先进的NLP框架，适用于pytorch和tensorflow2.0，这边使用的GPT2框架是一个OpenAI的先进技术，在上下文连贯性和情感表达上有相当好的表现，实际使用时可以直接从transformer库导入：from transformers.models.gpt2.modeling_gpt2 import GPT2Config, GPT2LMHeadModel其实OpenAI还推出了GPT3——1750亿的参数和千万级别的算力需求就不是笔记本显卡带的动的了。GPT2有

2021-04-21 23:37:05 3781

qq_44776055的博客