自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (2)
  • 收藏
  • 关注

原创 解决pandas写入excel时的ValueError: All strings must be XML compatible报错

用pands批量写入excel文件,发生编码报错。很多方法都是针对自己任务中遇到的特定违法字符进行的替换操作,不具备一般性。所以这里列出了一个最终解法——逐个字符的判断是否符合xml编译规则,只保留符合规则的编码。[1] 在python中过滤掉某些字节_python_Mangs-Python

2024-02-02 16:54:11 562

转载 解决git pull/push每次都需要输入密码问题

如果我们git clone的下载代码的时候是连接的https://而不是git@git (ssh)的形式,当我们操作git pull/push到远程的时候,总是提示我们输入账号和密码才能操作成功,频繁的输入账号和密码会很麻烦。解决办法:git bash进入你的项目目录,输入:git config --global credential.helper store然后你会在你本地生成一个文本,上边记录你的账号和密码。当然这些你可以不用关心。然后你使用上述的命令配置好之后,再操作一次git p

2021-09-13 16:38:49 1327

原创 Python装饰器——四两拨千斤还是杀鸡用牛刀?

本文首先给大伙简单熟悉一下装饰器这个工具的原理,然后对其进行一个从应用场景和个人使用上的讨论,希望能对大家有一些小小的帮助。

2021-09-12 20:01:02 219

原创 shell脚本的if条件句写法 不会if分分钟删库

事情是这样的,昨晚本来我可以早早睡觉,但是,卷王的血液突然就小小的燃烧了起来,心想睡前跑个bert,早上起来就有结果岂不是美滋滋,但是没想到,这个想法竟是导致我整个数据文件被删除的导火索……

2021-08-04 12:30:32 288

原创 NLP文档挖宝(3)——能够快速设计参数的TrainingArguments类

整个任务中的调参“源泉”就是这个TrainingArguments类,这个类是使用dataclass装饰器进行包装,然后再利用HfArgumentParser进行参数的解析,最后获得了对应的内容。这个包可以调的参数有很多,有用的也有很多,所以还是有必要一起看一下的。

2021-05-29 00:09:17 6990 4

原创 NLP文档挖宝(2)——通过Huggingface Transformers 分享与上传自己的预训练模型

最近团队完成了一个面向古文语料的预训练模型,准备拥抱开源,但是没想到被中文的上传指南坑了,看了官网提供的文档,发现中文的翻译文档已经过时了,所以重写来写一下上传的方法。

2021-05-08 21:27:38 3262 11

原创 NLP文档挖宝(1)——tokenizer的诞生

此次推荐的文档是transformers包下tokenizer的综述性文档,它介绍了整个tokenizer的进化历程,以及tokenizer在不同预训练模型中使用的差异。对这个知识点感兴趣的朋友强烈推荐去看一下官方文档,会对整个tokenizer有更体系化的认识。

2021-04-15 21:48:26 5216

原创 发布文章管理系统开发中遇到的问题整理 Django + Ckeditor + Apache

挑战实现给网站增加动态发布文章的需求,有点类似博客管理,构建一个可以发布文章的后台,然后通过循环的方式将数据库内容展示到前端。好久没有这么开心的编程了,那种山重水复的快乐,调通bug那一刻感觉自己就是个天才!

2021-03-11 18:31:06 317 1

原创 BERT多语言版本预训练模型上线前需要对句子进行人工分字

BERT多语言版本用于处理混合了中英文单词的文本前需要这样一下下。

2021-01-19 17:40:09 1187

原创 Transformers包中BERT类预训练模型下载链接备份

pytorch版本BERT预训练模型,需要啥直接下载

2020-12-29 16:22:55 1124

转载 使用alembic进行数据库版本管理

alembic,搭配SQLAlchemy和pymysql包,你的数据库管理好助手。好文必须收藏!

2020-12-15 14:37:55 684

原创 BERT tokenization 处理英文句子 Wordpiece之后的处理技巧

WoTransformers包中自带了tokenizer方法可以帮助我们实现Wordpiece,那么这种格式如何应用到序列标注问题中呢?

2020-12-01 15:12:30 3354 5

原创 两个ORM的pk初体验:Peewee VS SQLAlchemy

带我的师兄说peewee就别用了,sqlalchemy很香的。此文简单记录一下我使用这两个ORM工具的感受。

2020-11-30 17:29:07 7117

原创 Transformers(Huggingface)包调用Roberta需要修改预训练文件名称

修改下载好的Roberta预训练模型中的文件名,以及如何使用加载语句。就是如此简单。

2020-11-06 17:17:02 7990 13

原创 2021自然语言处理NLP秋招经历复盘分享

一切过往,皆为序章。OC之后,新的开始。

2020-10-21 22:48:33 3123 6

原创 工欲善其事:VS Code远程开发并托管代码到GitLab的相关配置

改用VS Code 一下子还是有点不适应,想到这样情况的同学还是不少的,所以在此记录一下,以此帮助其他准备上手用VSCode做远程开发的同学们。

2020-10-21 16:26:47 2392 5

原创 VScode连接linux服务器timed out [Could not establish connection * SSH timed out] 解决方案集合,总有一个能成功

每个人的电脑环境不同,所以解决方案也不同,以下是我解决这个问题过程中尝试的方法集合,可以都试一试。

2020-10-12 08:59:02 10434 5

原创 那一天,人们终于想起被【扔鸡蛋问题】统治的恐惧,直呼不变通的动态规划太辣鸡了

达芬奇画鸡蛋画了很久才画好,那是没遇到扔鸡蛋问题。

2020-08-27 23:03:08 212 2

原创 安装torchtext记录—没有什么安装失败是重装一遍解决不了的

pip uninstall 带我走向胜利

2020-08-18 11:09:22 1302 2

原创 送丹入炉:学会使用Dataloader方法包装我们的数据 【PyTorch】

Dataloader可以帮我们返回封装好的batch内容,采用迭代读取的方式完成训练,占用更少内存。

2020-08-16 23:50:38 2072

原创 老生常谈:动态规划求解背包问题思路记录

8.13参加了B站的笔试,最后一个大题类似背包问题,但是卡在了的动态规划的获取上,很是可惜。再做最后亿次!

2020-08-14 15:36:44 311

转载 【基础必备】pycharm远程开发调试linux上的python项目

看到了一个不错的配置pycharm远程linux的配置方法,是我见过整理的最完整的(原文链接:https://blog.csdn.net/JENREY/article/details/86496800)

2020-08-09 18:11:17 2751 2

原创 十大排序算法及其时间、空间复杂度学习 [Python实现]

数组题很多情况就是结合排序进行的,比如merge sort,quick sort等,所以要学好排序,并且掌握如何分析最好和最坏的情况下的时间空间复杂度是如何推导的。

2020-07-30 10:11:24 328

原创 回溯法求解硬币找零问题的Python实现与个人理解

我寻思着,不能只会暴力求解和动态规划吧,所以看了一下回溯法。脑瓜嗡嗡的。

2020-06-09 00:31:41 1758

原创 python爬虫中使用Xpath方法定位a标签中所有的子标签的方法

xpath在解析标题的时候遇到了问题,a标签中混合了i、sub、sup标签,不能直接使用text方法获取,所以在这里记录一下自己的解决方案。(想不到,做完这个任务,我顺便学会了希腊字母的读音:^)

2020-05-29 23:34:33 9222 1

原创 动态规划理解——以4道力扣题为例

导师问我最近在家待得是不是有点“怂”了?害,今天,就盘一下一直弄不清楚的“动态规划”吧。一点不怂,好吧!?

2020-05-07 01:01:34 374

原创 Transformers包tokenizer.encode()方法源码阅读笔记

1 引言Hugging Face公司出的transformer包,能够超级方便的引入预训练模型,BERT、ALBERT、GPT2… tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertForTokenClassification.from_pretrained('bert-bas...

2020-04-10 18:46:01 28961 23

原创 讲真,别再用win32com包来实现Word文档转PDF了

这几天有件大爽事。之前一直放在Django原生的服务器的网站,终于放到Apache上了。并不是配置多难,也不是我懒,问题出在了用win32com实现word转pdf,我不能使用这个插件读取word,一直返回None。下面的代码是win32com进行文件转化的标准代码,当时也是修改了好久才弄出来的,留给有需要的人吧。# 这是我当时的语句# 本地跑或者用Django原生服务器跑一点...

2020-04-06 17:43:29 1349

原创 对Python中lambda方法的理解——以词典(dic)值(value)排序为例

每次在任务中需要以词典的值排序,我都会百度一下解决,巧的是每次解决之后,我都会说下次一定不百度。嗯,“真香”。所以趁着这次在家,抽出时间好好理解一下其中看起来最复杂的lambda部分,到底是干什么的。1. 简述lambda 首先,lambda可以理解为函数式的另一种写法,这种写法没有函数名、不能写判断、循环和输出等,且定义之后不能共享使用。关于lambda和def的区别可以看文...

2020-01-28 20:33:25 4075

原创 用Django自带MySQL ORM操作外键前的正确修改方式

在给网站数据库优化的过程中,需要给几张表增加外键限制,方便管理员界面的联表操作。调研发现,网上提供的几种models的配置都不能让我的插入程序成功运行,在经过尝试之后总结出了一个终极解决方案。我的环境:Django==2.1.7,Python==3.6.1我建表一般先过Navicat这种可视化软件来生成mysql数据库,所以我们直接在建表之后使用下面语句直接生成。python...

2020-01-19 14:06:40 1788 2

原创 一段Js代码限制网页上传文件大小、类型

搭建网站需要收集用户提交的信息,限定用户提交的文件大小不超过1MB,并且文件类型为pdf。虽然input 标签中有文件类型的选项(如下代码段,设定了传入的是文件类型,设定可接受的为pdf)。<input type="file" accept="application/pdf"/>但是在实际上传的过程中,如果用户想要强行上传各种类型的文件,也能上传得了,如图1。图1...

2020-01-14 19:35:51 994

原创 解决pythoncom和win32com下docx文件转化为pdf文件过程中Word后台进程无法关闭的问题

1 目的笔者在python3.6环境下,想把一个word文档转化为pdf文件。使用了以下的方式from win32com import clientimport pythoncomdoc2pdf(doc_path, filename) def doc2pdf(doc_name, pdf_name): """ :word文件转pdf :param d...

2020-01-13 21:23:59 2042

原创 老板让我一周上线一个网站的一些记录(下)

在我的上一篇博客写了些在建站的过程中,阿里云服务器的选择,以及服务器环境配置时遇到的坑。本篇打算分享一下在使用Django后的感受,以及搭建网站后台管理员界面(admin.py)时遇到的问题。1 Django使用后感受 使用之后的第一个感觉就是Django的组成很简单。 首先,其规定了html、css、js等文件的存放位置(template、static等)...

2019-12-13 16:05:38 707 1

原创 老板让我一周上线一个网站的一些记录(上)

本人IR方向情报学硕士一枚,记得上周二本是一个平静的调参之夜,老板突然来了电话让我去找他一趟。到了办公室之后,老板说,我们最近发布了一个数据集,需要搭个网站。正当我想问“哦?谁来搭呢”,我发现,老板的眼里,都是我……本文讲讲笔者在本个项目里购买服务器和服务器环境配置时踩过的那些坑。1 需求分析经过对老板的需求整理,这次网站看起来不是很复杂,简而言之有三个要实现的功能:第一,主页信息...

2019-12-11 09:58:02 527 3

原创 一个正则表达式搞定http开头的的url识别

正则表达式核心部分:(http|https):\/\/([\w.!@#$%^&*()_+-=])*\s*Python的实现:pattern = re.compile(r'(http|https):\/\/([\w.!@#$%^&*()_+-=])*\s*')如果在URL中遇到很少见的字符,可以在[\w....]中继续添加。...

2019-07-26 10:09:02 3336 1

原创 利用PhantomJS插件爬取SSCI目录的几点收获

0 前言       我们打算构建一个有关ssci中收录的期刊信息的数据库,但是官网上并没有提供可以直接下载的目录信息,所以着手对其目录网页(http://mjl.clarivate.com/cgi-bin/jrnlst/jlsubcatg.cgi?PC=SS)进行爬取。页面调研发现,检索框内的类别url可以通过定位li标签直接获取,但是进入到每个页面之后,需要通过动态点击进行翻页,所以本...

2018-12-06 14:35:56 387

原创 python3下使用openpyxl对xlsx进行写入操作

笔者之前都是用xlwt进行excel文件写入的,直到今天要处理长语料的时候发生了报错:Exception: string longer than 32767 characters....

2018-11-12 13:57:37 13969 14

原创 一种MSSQLDatabaseException:18456的解决方案

连接sql server数据库时使用下列语句:from pymssql import connect conn = connect(host="localhost", user="sa",password="123456", database="test", charset="UTF-8")冒出报错信息如下:_mssql.MSSQLDatabaseException:(18456,b"\xe7\.

2018-07-10 23:14:06 11081

原创 WinXp下的PyQt5与PyInstaller的使用实现

这几天老板让做一个实现数据导入的小程序,在win10上用pyqt5+pyinstaller行云流水编好了,结果老师说他同事的电脑不能用。。一看,XP??32位??fine,生活还是要继续的。装了个虚拟机后就开始了填坑之路。。。坑1:XP下只能兼容到python3.4版本,所以下载的时候下载Anaconda2.3.0-x86的版本。坑2:pyqt5在python3.4上不兼容。感谢万能的csdn,我...

2018-06-15 13:24:20 1967 4

原创 Python 最大逆向匹配算法

第三次重新写这个算法,每次写都有新的体会。这次最大的感受是把访问文件夹的包都熟悉了一下,os和shutil。后者用来删除整个文件,这种破坏力还是慎用吧。def mk_new_dir(filename): # 新建一个文件夹,如果存在,则删除并重建。 if os.path.exists(filename) is True: shutil.rmtree(filename) ...

2018-02-18 22:31:40 5246 6

机器翻译translation2019zh.zip

翻译语料(translation2019zh),520万个中英文句子对;来自项目nlp_chinese_corpus,其中只有谷歌云盘的连接,国内访问很不方便,所以搬运下来,希望帮助到大家。该语料可以用于机器翻译训练。搬运。

2020-08-24

RankLib-2.1-patched.jar

RankLib-2.1补丁版,在2.1不能使用的情况下,可以试试这个版本,命令和RankLib2.1相同,亲测有效。

2019-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除