自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(270)
  • 资源 (1)
  • 收藏
  • 关注

原创 词表匹配工具FlashText

1、安装pip install flashtext2、使用示例提取文本中字典涉及的关键词并将多个词归一化为某个关键词from flashtext import KeywordProcessorkeyword_processor = KeywordProcessor()# keyword_processor.add_keyword(<unclean name>, <standardised name>)keyword_processor.add_keyword

2021-08-06 11:43:15 739

原创 pandas多列筛选

df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6], [2, 3, 6])),columns=['one', 'two', 'three'])df执行筛选条件:one列 > 1 and three列 > 2df_filter = df[(df['one'] >1) & (df['three'] > 2)]df_filter注意:每个筛选条件需要使用括号限制,and并列条件使用 &,or并列条..

2021-07-23 12:47:19 3656 1

原创 问题error while loading shared libraries: xxxx.so.0: cannot open shared object file 解决

1、问题表现执行时出现:error while loading shared libraries:xxx.so.0: cannot open shared object file: No such file or directory2、问题原因及解决原因:未找到需要的链接库解决办法:使用export加该文件xxx.so.0所在目录(/home/work/test/.lib),加入到LD_LIBRARY_PATH路径命令:export LD_LIBRARY_PATH=/home/wo.

2021-05-06 18:48:08 539

原创 leetcode 2. 两数相加

leetcode2. 两数相加1、题目描述给你两个非空 的链表,表示两个非负的整数。它们每位数字都是按照逆序的方式存储的,并且每个节点只能存储一位数字。请你将两个数相加,并以相同形式返回一个表示和的链表。你可以假设除了数字 0 之外,这两个数都不会以 0开头。示例 1:输入:l1 = [2,4,3], l2 = [5,6,4]输出:[7,0,8]解释:342 + 465 = 807.示例 2:输入:l1 = [0], l2 = [0]输出:[0]示...

2021-01-25 21:23:29 132

原创 leetcode 1 两数之和

leetcode 1两数之和1、题目描述:给定一个整数数组 nums和一个整数目标值 target,请你在该数组中找出 和为目标值 的那两个整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。你可以按任意顺序返回答案。示例 1:输入:nums = [2,7,11,15], target = 9输出:[0,1]解释:因为 nums[0] + nums[1] == 9 ,返回 [0, 1] 。示例 2:输入:nums = ...

2021-01-24 22:37:52 69

原创 leetcode 402. 移掉K位数字 题解

题目描述给定一个以字符串表示的非负整数num,移除这个数中的 k 位数字,使得剩下的数字最小。注意:num 的长度小于 10002 且≥ k。num 不会包含任何前导零。示例 1 :输入: num = "1432219", k = 3输出: "1219"解释: 移除掉三个数字 4, 3, 和 2 形成一个新的最小的数字 1219。示例 2 :输入: num = "...

2020-01-10 15:26:15 248

原创 leetcode 摆动序列 题解

题目描述如果连续数字之间的差严格地在正数和负数之间交替,则数字序列称为摆动序列。第一个差(如果存在的话)可能是正数或负数。少于两个元素的序列也是摆动序列。例如,[1,7,4,9,2,5] 是一个摆动序列,因为差值 (6,-3,5,-7,3)是正负交替出现的。相反, [1,4,7,2,5]和[1,7,4,5,5] 不是摆动序列,第一个序列是因为它的前两个差值都是正数,第二个序列是因为...

2020-01-09 10:04:30 166

原创 leetcode 加油站 题解

题目描述在一条环路上有N个加油站,其中第i个加油站有汽油gas[i]升。你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i+1个加油站需要消耗汽油cost[i]升。你从其中的一个加油站出发,开始时油箱为空。如果你可以绕环路行驶一周,则返回出发时加油站的编号,否则返回 -1。说明:如果题目有解,该答案即为唯一答案。输入数组均为非空数组,且长度相同。...

2020-01-09 09:27:30 472

原创 python json操作

python操作json数据可以使用json包json包包含四个函数,load,dump,loads,dumps,四个函数作用如下:load:将json数据从文件中读入内存,json数据以字典数据类型存储dump:将字典数据类型转换为json数据格式,并将json数据写入文件中load和dump主要是涉及到json数据的文件操作dumps:将字典类型转换为json数据...

2019-12-26 10:35:30 164

原创 Ubuntu 下创建用户

创建用户sudo useradd -m test -s /bin/bash创建用户名为test的用户,并使用 /bin/bash 作为 shellsudo passwd test给test用户设置密码sudo adduser test sudo给test用户增加管理员权限...

2019-12-13 14:24:11 201

原创 jupyter notebook设置一个执行单元多个输出

问题描述日常我们在使用jupyter时,默认最后一个变量输出,前面的变量没有任何输出,情况下图所示,我们可以通过简单设置来解决这个问题。解决方法通过加入这两行命令,即可设置多个输出。from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity...

2019-12-08 13:28:56 2778 2

原创 jupyer notebook使用argparse报错问题解决方法

问题描述如下代码使用在使用命令行启动时不会出现问题,但是在jupyter notebook执行会出现报错,如图所示import argparseparser = argparse.ArgumentParser(description='PyTorch implementation of Deep GCN')# baseparser.add_argument('--phase', ...

2019-12-02 10:58:17 1732 4

原创 python解决实时写入文件问题

问题描述Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。在程序未执行到bug时,不会报错。所以在文件写入过程中,如果没有实时写入,可能导致出错前执行的待写入文件的在缓存中未及时写入文件而导致文件丢失。比如下面这段程序:fout = open("test.log","w+")for i in range(10): fout.write(str(i...

2019-12-02 10:49:48 5096 1

原创 leetcode K 个一组翻转链表 题解

题目描述给你一个链表,每k个节点一组进行翻转,请你返回翻转后的链表。k是一个正整数,它的值小于或等于链表的长度。如果节点总数不是k的整数倍,那么请将最后剩余的节点保持原有顺序。示例 :给定这个链表:1->2->3->4->5当k= 2 时,应当返回: 2->1->4->3->5当k= 3 时,应当返回: ...

2019-11-17 11:45:37 90

原创 leetcode 复制带随机指针的链表 题解

题目描述给定一个链表,每个节点包含一个额外增加的随机指针,该指针可以指向链表中的任何节点或空节点。要求返回这个链表的深拷贝。示例:输入:{"$id":"1","next":{"$id":"2","next":null,"random":{"$ref":"2"},"val":2},"random":{"$ref":"2"},"val":1}解释:节点 1 的值是 1,...

2019-11-17 10:54:55 125

原创 keras学习之深度学习模型评估

自动评估keras将数据集的一部分分成评估数据集,在每个epoch中使用评估数据集对模型进行评估。实现可以通过fit()函数的validation_split设置数据集大小的百分比a来进行实现,评估数据集大小=全量数据集*a获取,训练数据集大小=全量数据集*(1-a)。#keras 深度模型评估from keras.models import Sequentialfrom keras...

2019-10-30 15:47:36 1060

原创 keras学习之多层感知机对Pima Indians Diabetes数据集分类

Pima Indians Diabetes1. Number of times pregnant2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test3. Diastolic blood pressure (mm Hg)4. Triceps skin fold thickness (mm)5...

2019-10-30 11:19:06 1473

原创 keras学习之环境安装

环境安装:1、安装anaconda,或者miniconda都行2、conda create -n keras python = 3.63、安装numpy,pandas,scikit-learn,matplotlib,TensorFlow,keras使用conda install pkg 或者pip install pkg都行TensorFlow和keras版本环境测...

2019-10-30 10:30:41 205

原创 pytorch gpu变成常用命令

官方文档:https://pytorch.org/docs/stable/cuda.html0、设备命名:cpu,cuda:0(0代表gpu编号),......,cuda:n1、测试gpu是否可用:torch.cuda.is_available()2、返回gpu可用数量:torch.cuda.device_count()3、默认选择某一个gpu,若不存在,使用cpu:device ...

2019-09-30 11:23:44 612

原创 基于pandas实现K折交叉验证数据集划分

k折交叉验证将训练集分为k份,取其中一份成为验证集,剩下成为训练集,称为k折数据划分,使用得到的k个训练集、验证集,训练k个模型,k个模型做简单的模型融合,可提升模型稳定性、准确率。数据介绍数据共有四列,列名分别为id,title,content,id,抽样了20行方便进行试验。代码实现#以下代码得到上图的数据train=pd.read_csv("data_0/tr...

2019-09-23 14:36:24 4819

原创 linux下限制下载速度

起因实验室在无人的时候网速飞快,但是只能坚持几秒就挂了,所以需要限制网速来下载东西,不限制网速百兆的资源只能下载10%左右就断网了。解决方法使用wget参数设置限制网速,将网速限制到规定的范围,具体命令wget --limit-rate=500k https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64....

2019-09-17 14:46:29 1983

原创 leetcode 57. 插入区间

题目描述给出一个无重叠的 ,按照区间起始端点排序的区间列表。在列表中插入一个新的区间,你需要确保列表中的区间仍然有序且不重叠(如果有必要的话,可以合并区间)。示例1:输入: intervals = [[1,3],[6,9]], newInterval = [2,5]输出: [[1,5],[6,9]]示例2:输入: intervals = [[1,2],[3,5],[6,...

2019-09-16 16:24:02 114

原创 leetcode 287. 寻找重复数

题目描述给定一个包含n + 1 个整数的数组nums,其数字都在 1 到 n之间(包括 1 和 n),可知至少存在一个重复的整数。假设只有一个重复的整数,找出这个重复的数。示例 1:输入: [1,3,4,2,2]输出: 2示例 2:输入: [3,1,3,4,2]输出: 3说明:不能更改原数组(假设数组是只读的)。只能使用额外的 O(1) 的空间。时间复杂度小于...

2019-09-16 15:45:26 69

原创 leetcode 41. 缺失的第一个正数

题目描述给定一个未排序的整数数组,找出其中没有出现的最小的正整数。示例1:输入: [1,2,0]输出: 3示例2:输入: [3,4,-1,1]输出: 2示例3:输入: [7,8,9,11,12]输出: 1说明:你的算法的时间复杂度应为O(n),并且只能使用常数级别的空间。解题思路异常情况:当元素个数为0或者1,必须考虑,接下来找出数组的最大值和最小...

2019-09-16 14:46:15 68

原创 DataFountain-互联网新闻情感分析fasttext篇

fasttext版本0.9.1 参考文本分类官方教程:https://fasttext.cc/docs/en/supervised-tutorial.html数据集格式" ".join(["__label__classId"]+["我们","中国"]),标签用特定的__label__连接,和分词共同使用空格分割拼接在一起。官方给的参考数据下载地址:https://dl.fbaipu...

2019-09-07 10:45:04 946

原创 DataFountain-互联网新闻情感分析Baseline篇

赛题背景随着各种社交平台的兴起,网络上用户的生成内容越来越多,产生大量的文本信息,如新闻、微博、博客等,面对如此庞大且富有情绪表达的文本信息,完全可以考虑通过探索他们潜在的价值为人们服务。因此近年来情绪分析受到计算机语言学领域研究者们的密切关注,成为一项进本的热点研究任务。本赛题目标为在庞大的数据集中精准的区分文本的情感极性,情感分为正中负三类。面对浩如烟海的新闻信息,精确识别蕴藏在其中的情...

2019-09-05 15:38:29 6083 7

原创 校招-美团现场两面+电话hr,京东现场四面+专场hr

立贴,有时间整理

2019-08-30 09:45:23 228

原创 校招-腾讯技术研究一面面经

1、时间2018年8月29日 上午十点半2、部门:TEG,语言偏向c++,python也能接受3、面试流程:1)自我介绍2)写代码:一共三题a、输入:两个区间,区间是左闭右开的输出:这两个区间是否有交集示例: 输入 [3,5) [6,11) 输出 false输入 [3,5) [4,11) 输出true写一个函数,可以用任何语言,自行组织输入结构思路:首先...

2019-08-30 09:44:24 921 1

原创 python 解一元一次方程组

def solve(equation,var='X'): equation = equation.replace("=","-(")+")" result = eval(equation,{var:1j}) return -result.real/result.imagprint(solve("2*X=6"))

2019-08-26 09:44:12 3241

原创 leetcode 合并K个排序链表题解

题目描述:合并k个排序链表,返回合并后的排序链表。请分析和描述算法的复杂度。示例:输入:[1->4->5,1->3->4,2->6]输出: 1->1->2->3->4->4->5->6来源:力扣(LeetCode)链接:https://leetcode-cn.com/problem...

2019-08-15 11:08:50 214

原创 校招-快手机器学习算法一面凉经

1、时间:2019年8月13日2、面试流程:面试比较简短,一面没有自我介绍,没有问项目,直接写个代码。题目:存在一个递增正整数数组,其中a[i]>2*a[i-1],问是否存在两个元素之和为给定值。如果没有数组相邻元素的限制条件直接双指针start、end直接遍历,时间复杂度O(N),面试官让继续优化。面试官提示的点:1)数组中如果存在这样的两个元素,是否是唯一的,根据...

2019-08-13 16:12:53 768

原创 python 异常处理常用方式

import sysimport timeimport jsonimport osimport tracebackif __name__ == "__main__": try: for line in sys.stdin: line = line.strip('\n').split('\t') pass ...

2019-08-01 15:54:24 249

原创 校招提前批-字节跳动安全风控部门算法工程师

一面(2019年7月28日)1、自我介绍2、融360实习项目,详细问了思路,实现方案等等细节3、问了百度实习的标题模板挖掘、团伙挖掘的思路,同时出了场景题,主要是spark的一些用法4、算法题:求二叉树中的最大路径长度二面(2019年7月28日):1、自我介绍2、由于上一面问了项目,所以这一面主要问的是机器学习基础手推了支持向量机公式,我主要是以感知机引起,从...

2019-07-29 20:55:30 2083

原创 校招阶段性总结

暑期实习从3月中序开始,先后面试了腾讯地图算法岗、腾讯云算法岗,均倒在了二面,阿里暑期实习面试了阿里妈妈、淘宝搜索部门的算法,均倒在了一面,京东广告架构组三面通过,拼多多大数据一面挂,暑期实习投递了很多,遇到算法岗艰难,也对岗位进行了调整,当时的调整主要是因为百度实习的转正不明确导致的,也算是很无奈吧。 进入校招提前批之后,面了寒武纪、vivo都是一面凉,面了阿里的三...

2019-07-23 22:00:53 172

原创 暑期实习-京东广告架构组三面面经

一面(太久远记不太清了):1、自我介绍2、百度实习项目3、是否使用过hive的时间窗口函数,以取最近十条新闻为例4、MapReduce原理5、hdfs原理二面:二面面试官主要以java开发为主1、自我介绍2、java多线程中的lock和synchronize区别3、设计模式4、手写快速排序5、java虚拟机中常用的垃圾收集器,垃圾回收算法具...

2019-07-23 21:47:34 424

原创 校招提前批-阿里校招提前批

业务中台部一面:1、算法:两个栈实现队列import java.util.Stack;public class twoStackImplementQueue { //stack1作为主栈,stack2作为辅助栈 private Stack<Integer> stack1 = new Stack<Integer>(); private St...

2019-07-23 21:39:00 592

原创 校招提前批-百度核心搜索算法工程师一面凉经

一面:就是写算法题,一个小时一共写了两题,思路不够清洗,自己做题通过即可,没有注意最优解法,导致现场要求最优解法时卡克。1、求平方根,使用二分法,我由于未使用二分法,导致后面优化思路出了问题,同时面试官问会不会溢出,这个问题我一直不是很理解,为啥会溢出,在作业帮面试同样问了二分法溢出的问题,这个需要认真思考。2、判断两个链表是否有交集第一部分——判断单个链表是否有环使用两个...

2019-07-23 21:25:00 171

原创 校招提前批-阿里大文娱优酷java提前批现场三面

一面(2019年7月23日):很多问题记不清了,最近感觉记忆力衰退太快了1、自我介绍2、问百度实习项目3、死锁发生的条件4、场景题:有十万识别的黑词库,优酷有评论和弹幕,设计接口判断评论或者弹幕中是够存在黑词5、有哪些offer,回答了头条三面结束等通知,百度内部面试一面结束等二面6、问问题二面:技术细节问得不是很多,主要问的是项目的一些大的问题1、自我介...

2019-07-23 21:18:40 256

原创 校招提前批-字节跳动data后台研发三面面经

一面(2019年7月11日):时间太久了,有些模糊了,大概记录问的问题1、自我介绍2、排序算法时间复杂度3、操作系统的虚拟内存的作用及页面置换算法,同时会出现的问题。4、问项目,在百度实习的项目介绍5、场景设计题:根据头条的文章推送,设计后台存储每个用户的推荐记录6、写题:链表合并、二叉树的先序非递归遍历、二分查找相关的题7、多线程相关知识8、jvm内存区域介绍...

2019-07-23 21:04:38 2079

原创 校招提前批-作业帮机器学习/数据挖掘一面面经

1、时间2019年7月3日2、面试内容:1)自我介绍2)项目介绍,主要介绍了在百度做的反作弊数据挖掘相关的工作。3)根据业务场景写代码:a、给出每个节点的权重,以及节点之间的连接关系,给出每个联通子图中权重最大的节点权重,面试官提示不需要用图遍历的算法,故使用了python中的set,首先构建所有连接边的set,如果具有子集,合并set,最后得到所有子图的set,返回每个s...

2019-07-23 20:31:43 247

DataFountain 互联网新闻情感分析数据集

比赛原始数据集,包括了提交示例,训练集、测试集四个文件 随着各种社交平台的兴起,网络上用户的生成内容越来越多,产生大量的文本信息,如新闻、微博、博客等,面对如此庞大且富有情绪表达的文本信息,完全可以考虑通过探索他们潜在的价值为人们服务。因此近年来情绪分析受到计算机语言学领域研究者们的密切关注,成为一项进本的热点研究任务。

2019-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除