自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(504)
  • 收藏
  • 关注

转载 java中HashMap的遍历方法

转:https://blog.csdn.net/gary0917/article/details/79783713一、使用迭代器第一种:效率高  Map map = new HashMap();  Iterator iter = map.entrySet().iterator();  while (iter.hasNext()) {  Map.Entry entry = (Ma...

2019-07-11 21:40:34 1353

原创 常用Hadoop命令

官方文档:http://hadoop.apache.org/docs/r1.0.4/file_system_shell.html将自己工作中常用的Hadoop命令整理如下:1. 查看hadoop文件hadoop fs -ls /2. 新建文件夹hadoop dfs -mkdir /input3. 上传本地文件终端输入: vim test1.txt键入内容保存:...

2019-06-12 17:59:17 723

原创 常用LINUX命令

1. 查找文件中重复的值文件中的值111222888999111命令:sort ./test.log | uniq -d 输出:111sort命令的常见用法:https://www.cnblogs.com/fulucky/p/8022718.html2.查看文件行数wc -l vocab.en.txt3.查看字符串“-”所在的行数...

2019-05-15 15:51:23 705

原创 KMP匹配算法实现

包含匹配算法和获取next数组的方法class Solution { public int strStr(String haystack, String needle) { if(needle.isEmpty()) return 0; int i=-1,j=-1; int m=haystack.length(); int...

2019-05-05 23:08:40 1025

原创 java:键盘输入

1.未知数组长度逗号分隔的键盘输入两个变量的输入:Scanner sc=new Scanner(System.in);String line=sc.nextLine().trim();String[] array=line.split(",");int n=Integer.parseInt(array[0]);int k=Integer.parseInt(array[1]...

2019-04-07 12:36:57 684

转载 ssh连接服务器报错:server responded “Algorithm negotiation failes” 解决办法

转自:https://blog.csdn.net/wyx100/article/details/52078985ssh工具下载地址:ssh secure file transferhttp://download.csdn.net/detail/wyx100/9591076问题:ssh连接ubunt16.04系统出现错误:server  responded “Algorithm negotiatio...

2018-06-08 13:39:47 5437 1

原创 2023-mac rz sz 安装

之前安装过一次,没问题,这次按照之前教程装了就不管上传下载都会卡住;step3: 建立软连接。

2023-11-04 18:46:36 463

原创 排序数组中寻找指定的数所对应的起止索引

给定一个按照升序排列的整数数组 nums,和一个目标值 target。找出给定目标值在数组中的开始位置和结束位置。你的算法时间复杂度必须是O(log n) 级别。如果数组中不存在目标值,返回[-1, -1]。示例 1:输入: nums = [5,7,7,8,8,10], target = 8输出: [3,4]示例2:输入: nums = [5,7,7,8,8,10], target = 6输出:[-1,-1]...

2021-02-28 15:30:03 448

原创 下一个更大的排列

实现获取下一个排列的函数,算法需要将给定数字序列重新排列成字典序中下一个更大的排列。如果不存在下一个更大的排列,则将数字重新排列成最小的排列(即升序排列)。必须原地修改,只允许使用额外常数空间。以下是一些例子,输入位于左侧列,其相应输出位于右侧列。1,2,3 → 1,3,23,2,1 → 1,2,31,1,5 → 1,5,1...

2021-02-28 15:29:06 382

原创 Python安装mysql报错EnvironmentError: mysql_config not found

报错信息如下: raise EnvironmentError("%s not found" % (mysql_config.path,)) EnvironmentError: mysql_config not found ----------------------------------------ERROR: Command errored out with exit status 1: python setup.py egg_info Check the logs f...

2020-08-11 18:06:51 972

原创 elasticsearch.exceptions.AuthenticationException: AuthenticationException(401, u‘{“status“:401,“mess

报错信息如上:第一种原因:用户的search权限没有开通第二种原因:es.search() 方法默认的是post请求,而我们只允许get的权限。因此需要给post请求授权

2020-07-29 16:17:08 4350 1

原创 Python统计数据的区间分布

通过itertools中的groupby进行统计,区间可以自定义,我定义的是10.from itertools import groupbylst=[]with open(path,'r',encoding='utf-8') as f: lines=f.readlines() for i,line in enumerate(lines): cnt=int(line.strip()) lst.append(cnt)print(len(lst))

2020-07-28 21:55:58 7924

原创 去掉字符串两端的引号

用sql查询下载的数据带了多个引号,数据格式如:'"顶楼漏雨维修由谁承担费用?","6"\n'去掉两边的引号对数据进行分割:tmp=eval(line.strip())query=tmp[0]label=tmp[1]通过eval()分割后的数据是元组类型,直接按索引即可取出字段。...

2020-07-28 21:52:32 2849

原创 TypeError:‘dict‘ object is not callable

报这个错是因为在取字典的某个key对应的value时错误的使用了mydict('key'),正确的是mydict['key']

2020-07-28 21:49:04 1292

原创 Linux文本处理之sort,uniq

准备文本:test.txt按列分别是学号 姓名 年龄 语文 数学 英语成绩一、sort1. sort默认:以行为单位对文件进行排序,按ASCII码值进行比较升序输出。 cat test.txt sort test.txt2. sort -u test.txt 对test.txt按默认规则进行排序后去除重复行可以看出重复行“李明”对应的这一...

2020-04-28 23:49:43 418

原创 TypeError: a bytes-like object is required, not 'str'

matplotlib画注意力机制的图时,中文坐标不显示,与是加了下载中文字体的代码:def get_matplot_zh_font(): fm = FontManager() mat_fonts = set(f.name for f in fm.ttflist) output = subprocess.check_output('fc-list :lang=zh -...

2020-03-10 09:08:37 1050

原创 Linux下用parallel并行处理大文件

parallel官网文档:https://www.gnu.org/software/parallel/parallel_tutorial.html安装parallel(wget -O - pi.dk/3 || curl pi.dk/3/) | bash使用:并行化处理文件awk-F"\t"'{print$1}'~/download/20190916|iconv...

2019-12-25 16:34:46 2052

转载 安装kenlm依赖时报Tomcat错误

报错信息如下:sudo apt-get install aptitude正在读取软件包列表... 完成正在分析软件包的依赖关系树 正在读取状态信息... 完成 将会同时安装下列软件: aptitude-common libcwidget3v5建议安装: apt-xapian-index aptitude-doc-en | aptitude-doc de...

2019-12-23 17:58:11 534

原创 numpy-np.where

np.where()用于三目运算:如果A%2==0成立,则执行A+1,否则执行A-1a=array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])>>> np.where(a < 5, a, 10*a)array([ 0,1,2,3,4, 50, 60, 70, 80, 90]) 小于5的,保持不变,不满足小于5这个...

2019-12-21 16:38:34 344

原创 git 工程太大,clone失败的解决办法

设置:git config --global http.postBuffer 524288000git clone https://XXX.git --depth 1git clone 是克隆所有历史版本而 --depth 1 是克隆最近一次的commit, 1 代表克隆深度...

2019-12-17 15:17:09 3071

原创 利用GIZA++和Moses生成双向对齐文件

踩了两周的坑今天终于解决了,本来觉得晚上关于GIZA++生成对齐文件的教程已经很多了没准备写,但是因为我的这个坑我不得不记录一下。利用GIZA++获得单向对齐文件的同时会获得双语词表,但是我从始至终都没看到哪里有什么双语词表。然后研究了三四天的moses,关于moses的整体步骤分为以下几步: Prepare data Run GIZA++ Align words ...

2019-12-13 22:56:38 1748

转载 使用GIZA++进行词对齐

GIZA++的github地址:https://github.com/moses-smt/giza-pp准备双语语料zh.txt:源语言海洋 是 一个 非常 复杂 的 事物 。人类 的 健康 也 是 一 件 非常 复杂 的 事情 。将 两者 统一 起来 看 起来 是 一 件 艰巨 的 任务 。 但 我 想 要 试图 去 说明 的 是 即使 是 如此 复杂 的 情况 , 也 存在 ...

2019-12-13 16:20:56 1964 3

原创 统计语言模型工具-kenlm的安装

在最近的工作到需要一个语言模型,为句子打分,本来准备用srilm来做,后来调研发现kenlm无论在内存还是速度上都比srilm好很多。srilm很好安装,安装过程中基本没遇到什么问题,kenlm的安装就是一个大坑,至今自己都觉得是玄学安装,这边记录下安装过程。源码地址:https://github.com/kpu/kenlm在安装kenlm之前需要先安装很多依赖包,主要有:1.去b...

2019-12-11 10:28:03 750

原创 使用mosesdecoder对机器翻译语料进行处理

之前在进行机器翻译时,一般除了与句子长度做了长度限制外,几乎没有做任何额外的操作,直接暴力的使用BPE算法对语料进行预处理。接触的都是BPE子词级别的,我们都知道,bpe算法的强大性,30000个子词几乎可以表示词典中所有的单词。但是如果我们要用词级别的翻译,那词典太大了,在机器翻译中词典受限的情况下,很多词就会变为未登录词。为了让词典尽可能的能囊括更多的单词,必须对双语语料进行预处理操作。关...

2019-11-27 16:45:21 1885 2

转载 中英文维基百科语料上的word2vec实验

在做的实验中需要使用词向量,由于是特定的方法对比,需要自己训练词向量。中英文除了自己已有的语料外,需要下载更多的单语语料数据来扩充数据集,于是选择了维基百科语料。其中英文语料下载地址:https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2获取的数据是xml格式的,需要自己处理下,使...

2019-11-27 16:15:44 640

转载 NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the lat

在服务器上跑代码时指定了GPU,但程序运行完提示我指定的GPU不存在,然后还报了如题的错误,解决方法:方法一:cd /usr/src 查看驱动版本号(我的是410.93)sudo apt-get install dkmssudo dkms install -m nvidia -v 410.93无需重启即可成功看到输入nvidia-smi后熟悉的界面我用了上面方法就解决了,如果...

2019-11-21 15:24:41 193

原创 机器翻译-subword-nmt预处理语料

在机器翻译中,目前都采用的方法是bpe切分子词的方法来处理翻译中的未登录词。如何使用?https://github.com/rsennrich/subword-nmt这里面已经写了详细的方法,本文主要记录我处理中英语料时的步骤。1.共享词典直接clone了这个项目,但是没有安装的情况下,我们使用python命令来处理。否则参考原文给出的命令处理语料。如果我们进行翻译的双语是共享...

2019-11-13 10:48:07 6211 3

转载 机器翻译-词对齐

在上一步预处理完成之后,平行句对中的中文部分都被切分成了相应的短语,而英文的大小写、格式、相应的空格也都加上了,在这之后就可以完成词语对齐的过程了。词语对齐的目标是得到中英文词或短语的对齐信息,便于翻译系统做解码时寻找相应的phrase。 词语对齐这一步一般都采用开源工具完成,比如现在用的最多的GIZA++,但是在平行语料数据量大的情况下,可能其完成整个词语对齐的过程耗时较长。现在也...

2019-10-27 19:33:06 3457

转载 IOError: [Errno 2] No such file or directory的解决方法

https://blog.csdn.net/johinieli/article/details/70855058

2019-09-05 01:13:22 50395

原创 java 输出保留小数点后2位

在函数中返回值以double的类型返回,最后打印的时候利用:System.out.printf("%.2f ",rs);

2019-09-03 17:57:41 8394

转载 python--字典初始化

如果说deque是加强版的list的话,那加强版的字典又是什么的呢?没错,就是今天学习的defaultdict,它与deque一样,都是在collections库中的模块。先来看这样一个问题:s = [('Tom', 5), ('Jone', 2), ('Susan', 4), ('Tom', 4), ('Tom', 1)]对于这样一个元组列表,如果我们想要将它转化为字典,该如何操...

2019-09-02 00:29:39 642

原创 leetcode 945. Minimum Increment to Make Array Unique

题目描述:Given an array of integers A, amoveconsists of choosing anyA[i], and incrementing it by1.Return the least number of moves to make every value inAunique.Example 1:Input: [1,2,2]...

2019-09-01 00:41:14 192

原创 对给定的数组按正负数分类

题目描述:给定一个包含正负数和0的数组,将负数分到数组的左边,正数分到右边,0在中间。实现:1.首先想到的是空间换时间的方法;2.若不允许开辟新的数组,则用双指针从数组两端寻找并交换。思路同https://blog.csdn.net/orangefly0214/article/details/83271061private void clf(int[] nums){ i...

2019-08-27 10:52:59 888

转载 python 多线程处理文件

https://blog.csdn.net/shanliangliuxing/article/details/9172595

2019-08-26 10:04:29 1778

原创 leetcode 42. Trapping Rain Water

题目描述:Givennnon-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.The above elevation map is represented b...

2019-08-25 15:58:25 127

转载 Python 共现矩阵

https://blog.csdn.net/Dity_Lee/article/details/69663610

2019-08-22 19:11:34 1114

原创 mac上使用sz,rz命令上传和下载文件

window下我们在服务器上使用sz,rz命令就可以直接实现本地文件得上传和服务器文件得下载,但是mac上不能直接使用,如果在mac下使用这个命令,就需要使用item2.在使用item2之前我们必须安装了Homebrew,安装brew时直接用一个命令就可以,但是我在安装完成后仍然不能使用brew,所以参考了下面这篇博文:https://www.jianshu.com/p/c8d998903...

2019-08-22 16:54:03 2528

原创 leetcode 48. Rotate Image

题目描述:You are given annxn2D matrix representing an image.Rotate the image by 90 degrees (clockwise).Note:You have to rotate the imagein-place, which means you have to modify the input 2D m...

2019-08-19 18:03:41 102

原创 leetcode 153. Find Minimum in Rotated Sorted Array

题目描述:Suppose an array sorted in ascending order is rotated at some pivot unknown to you beforehand.(i.e., [0,1,2,4,5,6,7]might become [4,5,6,7,0,1,2]).Find the minimum element.You may assum...

2019-08-19 11:45:12 131

原创 leetcode 173. Binary Search Tree Iterator

题目描述:Implement an iterator over a binary search tree (BST). Your iterator will be initialized with the root node of a BST.Callingnext()will return the next smallest number in the BST.Exampl...

2019-08-18 22:05:32 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除