自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(283)
  • 资源 (2)
  • 收藏
  • 关注

原创 泰国行政区划(英文)、邮编

数据来源:https://www.flashexpress.co.th/en/zip-code数据预览:下载链接:博客园(把后缀改为.csv即可使用)

2023-07-07 20:01:00 226

原创 conda环境已经安装了xxx依赖包,为何pip install yyy包时,pip还去寻找xxx依赖包

我在离线的服务器上通过conda activate gpt进入gpt环境后,想更新gpt中的transformers包(v4.26.1升级到4.29.1),于是手动去清华源(https://pypi.tuna.tsinghua.edu.cn/simple/) 下载好transformers4.29.1.whl包之后,想通过pip install transformers4.29.1.whl来升...

2023-06-09 16:51:00 179

原创 回顾Python的可迭代对象、迭代器、生成器

一、可迭代对象:可以用for遍历的对象,包括list、set、dict等。二、迭代器:能够记录当前迭代位置的可迭代对象,就是迭代器。1)把list、set、dict等简单的可迭代对象用iter()函数包装一下,就成了迭代器。例如x=iter([1,2,3]) # type(x) 输出 list_iteratory=iter({1,2,3}) # type(y) 输出 set_iter...

2023-04-25 10:44:00 111

原创 ner任务中subword对tag序列的影响

https://tianchi.aliyun.com/forum/post/336310由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如:[CLS]和[SEP]。tokenizer有一个word_ids方法可以帮助我们解决...

2023-04-17 14:26:00 80

原创 解决javascript调用本地sanic接口报跨域错误的问题

在py代码中利用middleware()方法修饰request/response即可,无需别的操作。from sanic import Sanic, HTTPResponse, Requestapp=Sanic('Sanic_Server')@app.middleware("request")def cors_middle_req(request: Request): """...

2023-04-11 13:04:00 101

原创 jmeter压力测试报错

用jmeter 压力测试GPU版本的模型服务时,发现增加jmeter线程数(20个线程时),在压测的后半段会报错,进去查看结果树发现这样的错误:Response code:Non HTTP response code: java.net.NoRouteToHostExceptionResponse message:Non HTTP response message: Cannot ass...

2023-03-28 19:40:00 119

原创 sanic+nginx配置负载均衡--一台服务器上开启多个站点,用同一个nginx代理

参考链接:Using nginx as HTTP load balancer1)如果只是想用一个端口转发请求然后调用多个站点(也可以是同一个服务,例如sanic包装的模型服务接口,启动多次) 只需在nginx/conf/nginx.conf中配置如下,其他配置项目不用写:http { upstream myapp1 { server localhost:8661 w...

2023-03-08 19:38:00 264

原创 泰国地址书写的一般格式

泰国地址的书写格式跟西方国家类似,先写小地址,后写大地址,可分成7级的书写格式一般为:1、地块 / 楼栋 编号 --泰国人少,不像中国到处是高楼大厦,没有小区的概念,所有一般独栋小楼比较多。地块上2、村 [名称] 编号 --村(Village,泰国称之为Moo、Murban),一般郊区或乡村的地址才会写上村这一级,名称可省略。3、巷子 [名称]编号 -- 巷子(Alley,泰国称之为Soi)一...

2023-02-01 16:58:00 5588

原创 shell命令:linux进程按内存使用、CPU使用率排序,查找进程对应的可执行文件

top命令下按键shift+M,对各进程按内存使用率排序按键shift+P,对各进程按CPU使用率排序按键C 显示各进程的完整命令查找进程对应的可执行文件的路径:ls -l /proc/进程号/exe参考:https://www.cnblogs.com/jiqing9006/p/9270504.htmlhttps://blog.csdn.net/weixin_45030965/arti...

2022-12-08 12:05:00 757

原创 pytorch GPU/CPU版本离线whl python包

https://download.pytorch.org/whl/torch_stable.html

2022-10-19 17:12:00 108

原创 torch进行多GPU卡训练时,报错RuntimeError: Address already in use

torch进行GPU卡训练时,报错RuntimeError: Address already in use参考:https://www.it610.com/article/1279180977062559744.htm问题在于,TCP的端口被占用,一种解决方法是,运行程序的同时指定端口,端口号随意给出:--master_port 29501例如:nohup python3 -m torch.di...

2022-10-14 12:04:00 1709

原创 Python解析Xml

Python解析Xmlfrom lxml import etreedef get_info_from_xml(xml_text): try: parser = etree.XMLParser(recover=True) tree = etree.fromstring(bytes(xml_text, encoding='gbk'), parser=pa...

2022-10-13 15:31:00 94

原创 GPU多卡训练torch模型

用命令即可:python3 -m torch.distributed.launch --nproc_per_node 8 train.py或者使用Accelerator:https://huggingface.co/docs/transformers/v4.21.2/en/accelerate

2022-09-01 18:08:00 158

原创 基于Hugging Face的transformers包的微调模型训练

transformers API参考链接:https://huggingface.co/docs/transformers/v4.21.2/en/trainingtrain.pyfrom datasets import load_datasetfrom transformers import AutoTokenizer,AutoConfigfrom transformers impor...

2022-09-01 18:02:00 641

原创 【转】word2vec 中的数学原理详解

https://www.cnblogs.com/peghoty/p/3857839.html

2022-08-23 19:18:00 79

原创 GO module的正确用法

参考:https://go.dev/blog/using-go-modulesgo mod initcreates a new module, initializing thego.modfile that describes it.go build,go test, and other package-building commands add new dependencies ...

2022-07-22 18:38:00 107

原创 【转】PV操作,看完了进程同步与互斥机制,我终于彻底理解了 PV 操作

参考:https://cloud.tencent.com/developer/article/1803377使用信号量和 PV 操作实现进程的同步也非常方便,三步走:定义一个同步信号量,并初始化为当前可用资源的数量在优先级较「高」的操作的「后」面执行 V 操作,释放资源在优先级较「低」的操作的「前」面执行 P 操作,申请占用资源举个例子,以下两个进程 P1、P2 并发执行,由于存在...

2022-06-12 12:21:00 475

原创 使用go routine的一般范式及web线程池

参考:https://blog.csdn.net/weixin_44211968/article/details/123048160最近在用golang改写一个模型服务接口,之前的开发人员用的echo框架,是常见的http方式,不支持多线程的方式,为了提高并发 ,想用多线程(go routine)。若直接go func()的方式,每次来请求,都开一个线程,会导致线程的数量不受控制。在请求数量未...

2022-06-10 19:15:00 108

原创 无法go get,Golang手动安装依赖包【package】

在国内用go get安装golang包经常报错,很折磨人,可以采用手动安装的方式解决:手动安装golang的第三方依赖包的步骤:1、去github等网站下载代码库(.zip压缩包)到本地,解压之后放进GOROOT或者GOPATH下的src目录下(若GOPATH下没有src目录,可自己创建一个),建议最好是放在GOPATH的src下面,并且把解压之后的文件夹的根目录名设置为github.com...

2022-05-18 20:25:00 1610

原创 golang chan(管道)

一、channel的理解可参考:[系列] Go - chan 通道 - 新亮笔记 - 博客园 (cnblogs.com)主要点:1、管道类似队列:队满时,入队会导致阻塞,队空时出队也会阻塞;不带缓冲的通道,进和出都会立刻阻塞。不带缓冲的管道类似ch:=make(chan data_type,N),其中不带缓冲区是指大小参数N=0,或省略,则为非缓冲管道,即管道容量为N=0。2、go 关键...

2022-05-12 17:29:00 313

原创 对Golang函数的返回值参数进行命名

对Golang函数的返回值参数进行命名,相当于在函数的内部首先就定义了变量作为返回值,并将其初始化为零值。package mainimport ( "fmt")func main() { fmt.Println("goooooo") nums := []int{9, 8, 5, 6, 1, 7, 3} max_v, min_v, msg := MaxMin(nums) f...

2022-05-10 20:40:00 457

原创 Golang入门注意事项

1)在golang v1.11之后的版本,自己开发的项目代码不用放进系统变量$GOPATH目录的src子目录下,见:https://www.cnblogs.com/mayanan/p/15401036.html2)golang的package相当于命名空间,是一个逻辑组织;3)一个项目只能有一个main函数,main函数所在的文件的头部的package名称应该为main。4)如果其他文件...

2022-05-10 17:18:00 78

原创 crontab执行feat_gen.sh时,报错找不到pyspark

crontab执行feat_gen.sh时,报错找不到pyspark module解决办法:在bash脚本中添加source ~/.bash_profile这一行在行首。其中在~/.bash_profile中配置好PATH和PYTHONPATH(把$SPARK_HOME下的python加到PYTHONPATH中即可)feat_gen.sh:source ~/.bash_profilep...

2021-12-17 21:54:00 662

原创 ROC与AUC

参考:ROC与AUC1. 总结:绘制ROC曲线时,横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate),ROC曲线上的每一个点由一个分类器(例如逻辑回归分类器)取某一个概率阈值(例如取0.8作为阈值,则预测的概率大于0.8视为正样本,否则为负样本)作为区分正负样本时,进而得到的TPR,FPR的值。这样遍历所有阈值(0-1),得到每一个...

2021-12-07 11:56:00 143

原创 连续性特征(变量)如何计算卡方值

Say you have one feature and a target with 3 possible valuesX = np.array([3.4, 3.4, 3. , 2.8, 2.7, 2.9, 3.3, 3. , 3.8, 2.5])y = np.array([0, 0, 0, 1, 1, 1, 2, 2, 2, 2]) X y0 3.4 01 3....

2021-12-06 21:10:00 700

原创 partition by 用法

参考:https://blog.csdn.net/weixin_44547599/article/details/88764558

2021-12-03 00:40:00 192

原创 SQL同一个字段出现null和0值,有何区别,原因是什么?left join导致null值出现,case when导致0值出现...

-- 1.表结构-- create table visit_hist(-- customer_id int comment '客户id'-- ,visit_date int comment '访问日期'-- )-- 2.造测试数据-- insert into visit_hist(customer_id,visit_date) values-- (11,11),(11,7),(2...

2021-12-02 15:07:00 264

原创 linux 定时任务crontab的用法

1、创建一个定时任务:执行crontab -e回车,在弹出的编辑器中添加一行,代表一个要定时执行的任务(每行代表一个任务),输入完wq保存即开始定时执行,无需启动操作。每行的格式:分 时 日 月份 周几 用户名(缺省则为当前用户) 要执行的命令(或者可执行文件)其中分、时、日(几号)、月份、周几都是数字,若设置为*代表所有分钟、时、日、月份、周几都执行该任务(执行的频率最频繁为每分钟执...

2021-11-25 20:11:00 213

原创 卡方检验

参考:什么是卡方检验连续投掷硬币50次,其中22次为正面,28次为方面,问这枚硬币是否是正常硬币?这是个假设检验的问题。若用卡方检验来做,需要先用上面的公式计算卡方值X2,然后查表看卡方值有没有落入指定区间,即可判定是否应该接受假设。类似的抛骰子的例子:抛36次,已知各个点数朝上的次数,问是否骰子均衡?卡方检验在机器学习中可以用来筛选特征,判断某个特征与标签之间是否存在显著...

2021-11-19 16:00:00 646

原创 PySpark DataFrame选择某几行

1、collect():print(dataframe.collect()[index])2、dataframe.first()3、dataframe.head(num_rows)、dataframe.tail(num_rows),head、tail配合使用可以取得中间指定位置的行4、dataframe.select([columns]).collect()[index]5、dataf...

2021-10-28 16:54:00 3099

原创 PySpark利用udf新增一列

在PySpark中,对DataFrame新增一列有几种写法:df=spark.createDataFrame([('p1',56),('p2',23),('p3',11),('p4',40),('p5',29)],['name','age'])df.show()===>>+----+---+|name|age|+----+---+| p1| 56|| p2| 23...

2021-10-27 16:50:00 391

原创 PySpark用法速查

https://www.cnblogs.com/liaowuhen1314/p/12792202.htmlhttps://zhuanlan.zhihu.com/p/260171469https://sparkbyexamples.com/pyspark/pyspark-window-functions/

2021-10-25 17:01:00 48

原创 如何抑制SettingWithCopyWarning

disable SettingWithCopyWarning:import pandas as pdpd.options.mode.chained_assignment = None一了百了。

2021-08-20 00:05:00 62

原创 时间复杂度分析--公式法

公式法可以说是计算递归函数复杂度最方便的工具,当递归函数的时间执行函数满足如下的关系式时,我们可以利用公式法:T(n) = a×T(n/b) + f(n)。其中,f(n) 是每次递归完毕之后额外的计算执行时间。例如,在归并排序中,每次递归处理完两边的数组后,我们需要执行合并的操作,那么这个操作的执行时间就是 f(n)。当参数 a、b 都确定的时候,光看递归的部分,它的时间复杂度就是:O(n^...

2021-07-22 09:33:00 1318 1

原创 Golang项目如何引用一个第三方的库

Golang项目如何引用一个第三方的库?写好test.go文件后执行go run test.go的时候报错,其实是因为golang配置或者自己的项目没有配置正确。1、首先,安装完Golang之后,需要配置一些系统变量,就像Java一样【这点没有Python方便,Python是开箱即用】。其中最重要的变量是GOPATH(必须大写),这个变量是一个目录的绝对地址,Go语言使用这个目录进行第三方库和...

2021-07-21 17:43:00 2222

原创 Java如何实现类似Python的装饰器效果

Java如何实现类似Python的装饰器效果?我发现用Java实现的装饰器模式非常复杂,类似的还有AOP概念,但Python的装饰器其实就是一个对函数做修饰的函数,其接收被修饰的函数作为参数,这是它的主要特征。Java可采用模板模式,把Runnable或其他接口的函数作为参数模板函数的参数:// 模板private void taggingTemplate(String table,S...

2021-06-16 20:39:00 529

原创 Golang的入门踩坑笔记

1.安装go+vscode:参考:https://www.c-sharpcorner.com/article/how-to-setup-golang-with-vscode/对于vscode新手来说,goland比vscode更容易使用,goland的终端也更好用(有时vscode的终端下载不了的,goland可以),问题更少,vscode的launch.json就不如goland的配置好理解...

2021-06-01 12:07:00 128 1

原创 word2vec层次化softmax理解

在外网发现一篇把word2vec的hierarchical softmax优化讲得比较好的博客,详见:http://building-babylon.net/2017/08/01/hierarchical-softmax/总结:1、层次化softmax是为了解决用softmax进行V分类时(V是词典大小),由于词典巨大导致计算目标词的似然概率的低效问题。2、层次化softmax通常和CBO...

2021-03-09 16:30:00 633

原创 python动态加载模块,并获取模块中的类与方法(类似反射)

temp.py:def func(): print('func is called.')class A: def __init__(self,name='A'): self.name=name def _say(self,msg): print(msg) def sayhello(self): print...

2021-01-20 11:04:00 429 1

原创 用Python装饰器给函数自动加上try except

用装饰器实现把函数用try...except包起来:import loggingimport tracebackfrom functools import wrapslogging.basicConfig(filename='error.log', level=logging.INFO, format='...

2021-01-18 19:38:00 406

手写数字识别数据集mnist.npz使用方法

mnist.npz-深度学习入门demo--手写数字识别数据集,方便离线环境下使用

2022-07-12

Python Cookbook 第3版 中文版

Python Cookbook 第3版 中文版

2016-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除