AI驿站-CSDN博客

原创天池-小布助手对话短文本语义匹配复赛rank3、决赛rank4代码及解决方案

0.前言决赛答辩已经过去一段时间了，我们队伍ac milan最终获得了复赛第3，决赛第4的成绩。在此首先感谢一些队友的carry～经过2个多月的比赛，学习收获了很多，也认识了很多大佬，在这里记录一下自己的参赛体验和学习收获。github地址: https://github.com/daniellibin/gaiic2021_track3_querySim比赛地址: https://tianchi.aliyun.com/competition/entrance/531851/introduction

2021-06-19 21:24:42 2392 7

原创 bert系列模型继续预训练(Pytorch)

1、前言在数据脱敏比赛或者某些锤类领域中，使用该领域的文本继续预训练，往往可以取得一个更好的结果。这篇文章主要讲怎么继续预训练。2、两种训练框架（1）采用transformer中Trainer可根据实际情况，通过 model.resize_token_embeddings(len(tokenizer)) 重新定义词表的大小。输入data格式为：以每行一个文本为单位进行mask，具体mask策略在DataCollatorForLanguageModeling中，可根据需要自行修改。（2）采用涂涂乐

2021-04-14 13:17:26 2992 1

原创 Leetcode第 234 场周赛

字符串中不同整数的数目给你一个字符串 word ，该字符串由数字和小写英文字母组成。请你用空格替换每个不是数字的字符。例如，“a123bc34d8ef34” 将会变成 " 123 34 8 34" 。注意，剩下的这些整数间至少要用一个空格隔开：“123”、“34”、“8” 和 “34” 。返回对 word 完成替换后形成的不同整数的数目。如果两个整数的不含前导零的十进制表示不同，则认为这两个整数也不同。示例 1：输入：word = “a123bc34d8ef34”输出：3解释.

2021-03-28 17:20:27 207

原创 Leetcode第232场周赛

仅执行一次字符串交换能否使两个字符串相等class Solution: def areAlmostEqual(self, s1: str, s2: str) -> bool: count = 0 dic1 = defaultdict(int) dic2 = defaultdict(int) for i in range(len(s1)): if s1[i] != s2[i]:.

2021-03-14 17:30:20 105

原创 Leetcode第231 场周赛

5697. 检查二进制字符串字段给你一个二进制字符串 s ，该字符串不含前导零。如果 s 最多包含一个由连续的 ‘1’ 组成的字段，返回 true 。否则，返回 false 。示例 1：输入：s = “1001”输出：false解释：字符串中的 1 没有形成一个连续字段。示例 2：输入：s = “110”输出：true提示：1 <= s.length <= 100s[i] 为 ‘0’ 或 ‘1’s[0] 为 ‘1’class Solution:

2021-03-07 17:37:49 174

原创面向数据安全治理的数据内容智能发现与分级分类 A榜rank7 B榜rank10

0.前言去年10月、11月的时候参加了DataFountain的面向数据安全治理的数据内容智能发现与分级分类比赛https://www.datafountain.cn/competitions/471，最终获得了A榜第7、B榜第10的成绩。着这里记录一下此次比赛历程。github，欢迎star~1.赛题背景随着企业信息化水平的不断提高，数据共享与开放对企业发展的作用日益凸显，数据已成为重要生产要素之一，企业在产业与服务、营销支持、业务运营、风险管控、信息披露和分析决策等经营管理活动中涉及到大量的业务

2021-02-28 17:18:10 922

原创 linux系统运行任务nohup和&的区别

使用&后台运行程序：结果会输出到终端使用Ctrl + C发送SIGINT信号，程序免疫关闭session发送SIGHUP信号，程序关闭使用nohup运行程序：结果默认会输出到nohup.out使用Ctrl + C发送SIGINT信号，程序关闭关闭session发送SIGHUP信号，程序免疫日后使用平日线上经常使用nohup和&配合来启动程序nohup ./test &：同时免疫SIGINT和SIGHUP信号...

2021-02-24 20:49:22 67

原创 Leetcode 第 225 场周赛

Leetcode 第 225 场周赛5661. 替换隐藏数字得到的最晚时间给你一个字符串 time ，格式为 hh:mm（小时：分钟），其中某几位数字被隐藏（用 ? 表示）。有效的时间为 00:00 到 23:59 之间的所有时间，包括 00:00 和 23:59 。替换 time 中隐藏的数字，返回你可以得到的最晚有效时间。示例 1：输入：time = “2?:?0”输出：“23:50”解释：以数字 ‘2’ 开头的最晚一小时是 23 ，以 ‘0’ 结尾的最晚一分钟是 50 。

2021-01-24 18:21:09 248

原创 Kesci公众健康问句分类决赛第8名解决方案

0. 前言前段时间参加了Kesci的公众健康问句分类比赛，主要是一个健康领域的多标签分类问题。除去前面弃权的一些小伙伴，有幸拿到了决赛的第8名，记录一下自己的比赛经历，希望对大家有所帮助。github链接，欢迎start~1. 任务分析1.1问题背景随着健康医疗信息化的发展以及云计算、物联网、移动智能等技术在健康医疗领域的广泛应用，医疗行业汇聚了大量可以发挥出实际价值的海量的医学数据。这些医学数据是医疗研究与进步的基石。1.2相关工作多标签分类，首先是一个文本分类任务，然后是一个多标签的任务。

2020-10-25 14:18:14 984

原创 leetcode第 211 场周赛

两个相同字符之间的最长子字符串class Solution: def maxLengthBetweenEqualCharacters(self, s: str) -> int: dic = defaultdict(list) for i in range(len(s)): dic[s[i]].append(i) res = -1 for k in dic.keys(): .

2020-10-18 20:19:28 131

原创 leetcode第 210 场周赛

2020-10-11 18:46:29 83

原创疫情期间网民情绪识别比赛分享+top1~3解决方案

0.前言3、4月份的时候参加了datafounction的情绪识别比赛，最终获得了B榜第46名的成绩。虽然不太理想，但还是想记录一下自己的参赛历程，学习一下前排大佬的解决方案，在这里分享一下，希望对大家能有所帮助。github链接，欢迎star~1.赛题背景2019新型冠状病毒（COVID-19）感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响，并引发国内舆论的广泛关注，众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况，科学高效地做好防控宣传和舆情引导工作，本赛题针对疫情相关

2020-09-05 21:35:56 6830 5

原创天池-新冠疫情相似句对判定大赛 Rank8

nCoV-2019 sentence similarity比赛地址https://tianchi.aliyun.com/competition/entrance/231776/introduction竞赛题目比赛主打疫情相关的呼吸领域的真实数据积累，数据粒度更加细化，判定难度相比多科室文本相似度匹配更高，同时问答数据也更具时效性。本着宁缺毋滥的原则，问题的场地限制在20字以内，形成相对规...

2020-03-31 20:01:22 2586 3

原创基于seq2seq的中文聊天机器人（三）

5 可视化前端5.1聊天机器人结构设计一个聊天机器人需要：浏览器前端：为用户提供友好的机器聊天页面；机器聊天API服务：前后端通过异步的HTTP调用实现通讯，前端将对话请求提交给机器对话Web服务，完成后将结果返回前端进行展示；机器聊天后端：使用tf-seq2seq进行机器聊天模型训练，得到对应语言的模型文件。然后通过Python命令可以进行句级的聊天，机器聊天API服务调用该命令。逻...

2019-11-28 11:49:33 6967 25

原创基于seq2seq的中文聊天机器人（二）

4 Seq2Seq训练模型4.1Seq2Seq模型简介Seq2Seq模型是输出的长度不确定时采用的模型，这种情况一般是在机器翻译的任务中出现，将一句中文翻译成英文，那么这句英文的长度有可能会比中文短，也有可能会比中文长，所以输出的长度就不确定了。如下图所，输入的中文长度为4，输出的英文长度为2。在网络结构中，输入一个中文序列，然后输出它对应的中文翻译，输出的部分的结果预测后面，根据上面的例...

2019-11-28 11:43:16 7510 17

原创基于seq2seq的中文聊天机器人（一）

1 背景介绍聊天机器人的研究可以追溯到上个世纪五十年代，阿兰图灵提出了一个图灵测试来回答“机器能思考吗”的问题，随后掀起了人工智能研究的热潮。聊天机器人可应用于多个人机交互场景，比如问答系统、谈判、电子商务、辅导等。最近，随着移动终端数量的急剧增加，它也可以用于手机终端的虚拟助理，如Apple的Siri、微软的Cortana、Facebook的Messenger，Google助手等，让用户更容易...

2019-11-28 11:26:40 15190 23

原创 Ubuntu18.04安装完VMTools却不能复制拖拉文件怎么办？

安装Open-vm-tools替代VMware tools能够完美实现自动适应客户机的分辨率，随意改变窗和与宿主机之间文件的复制粘贴功能。命令：apt-get install open-vm-tools-desktop fuse这个东西搞了我快两天~~...

2019-11-25 12:06:17 5074 4

原创 Google Colaboratory中有多个py文件时的使用技巧

1.安装必要的库，授权，连接你的Google drive这个Colaboratory很牛逼的一点就是，它不光是一个notebook，还可以当命令行用！我们在所有代码前面，加一个单元格，粘贴如下命令：!apt-get install -y -qq software-properties-common python-software-properties module-init-tools!a...

2019-10-27 13:42:55 7269 5

转载基于seq2seq的中文聊天机器人

基于seq2seq的中文聊天机器人一、系统设计思路和框架二、源码结构三、源码详解一、系统设计思路和框架本次系统全部使用 Python 编写，在系统设计上遵循着配置灵活、代码模块化的思路，分为数据预处理器、数据处理器、执行器、深度学习模型、可视化展示五个模块。模块间的逻辑关系大致为：1）数据预处理是将原始语料进行初步的处理以满足于数据处理模块的要求；2）执行器是整个系统引擎分别在运转的时候...

2019-10-26 17:24:55 4498 17

NLP_机器翻译实验

本次NMT task为英文翻译为中文, 参考指标为BLEU(暂定). 实验报告(pdf) 源码; tensorboard日志文件 test2数据集结果(格式应和test1中文数据集相同). 实验报告至少应该包括: 预处理过程, 模型结构, 超参数配置, 评估方法; test1上的最终结果(非test2); 5个较低分数的翻译结果对比; attention对比: soft, hard, global, local. 如果采用transformer架构, 请加入self-attention的对比

2020-06-07

classification.zip

本次文本分类实验为多分类实验, 数据集中文本类别为 5 类: news_culture, news_car, news_edu, news_house, news_agriculture. 实验采用TextCNN、TextRNN(单、双向)、TextRCNN、TextRNN+Attertion共4个模型进行对比实验

2020-06-07

中科大软院复试资料.zip

2019科软复试手册V1.0+2019软院宝典+软院复试资料为2019年的资料，大家可以参考一下~ 祝大家成功上岸~

2020-01-05

正方教务系统公选课抢课

这是一个用Python写的正方教务抢公选课脚本，由于每个学校的教务系统可能存在改动，所以不一定可用。使用方法： config.json配置文件中填写教务系统的url，学号与密码，要抢的课程名称以及课程代码即可运行main.py 如果出现 “与************* 上课时间冲突！！” 字样，若之前该时间段无课的情况下，则证明选课成功，可停止脚本运行。

2019-12-08

23.北京交通大学初试复试汇总.zip

北交软件工程

2019-10-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人