自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 关于使用windows启动terminal有时会卡住需要按回车才能继续进行的问题

参见:https://www.v2ex.com/t/472771https://www.v2ex.com/t/351238如题,使用windows启动powerLinux或者cmd时偶尔会遇到这种问题,(powerShell暂时还没遇到),没由来的会卡住,按下回车之后才能继续,大概原因是,windows Powershell 分快速编辑模式和标准模式. 当处于快速编辑模式时, 鼠...

2019-07-19 15:32:00 4996

原创 t2t模型启动web服务

t2t中是自带api实现web服务的,参考地址https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/serving按照给出的步骤进行即可,1、首先将模型进行export,这里不需要安装任何依赖t2t-exporter --model=${MODEL} \ --hparams_set=$...

2019-05-15 16:54:51 1014 5

原创 反反爬虫策略

反反爬虫的思路:http://www.cnblogs.com/junrong624/p/5533655.html常见网站反爬虫策略:https://www.itcodemonkey.com/article/7936.html

2019-04-25 14:08:39 440

原创 git基本操作

http://rogerdudler.github.io/git-guide/index.zh.html已经连接上了某个远程仓库,如何将改动提交:将文件myfile.txt添加到缓冲区:git add myfile.txt (git add *)提交改动:git commit -m "add a test file"提交到远程仓库:git pus...

2019-03-11 15:34:05 200

原创 sublime修改注释颜色及默认语言

下载sublime:https://www.sublimetext.com/注:最好下原版,中文版有点坑的,慎重下载安装完成后启动,默认的主题为Monokai,看起来还是可以的,就是注释的颜色灰不溜秋不好看,进行修改1、ctrl + shift + p,调出命令面板,然后手动输入 Package Control 第一次运行时可能没有这个,会自动下载,等告诉你下载好了之...

2019-03-07 14:31:42 3350

原创 合并子目录下的文件

比如在当前路径下有这么一个文件系统:./0/mytest.en./1/mytest.en./2/mytest.en./3/mytest.en./4/mytest.en./5/mytest.en./6/mytest.en./7/mytest.en./8/mytest.en要把所有的mytest.en粘贴到同一个文件内,可以使用以下命令:cat `find ./*/my...

2019-02-20 10:49:56 894

原创 shell for循环

linux下想要实现0到9的循环,共有三种写法:#可在bash、sh下运行for i in `seq 0 9`do echo $idone#以下两个只能在bash下运行for ((i=0;i<=9;i++))do echo $idonefor i in {0..9}do echo $idone注意:1、注意方法1中是反引号(1...

2019-02-20 09:44:13 3211

原创 python中json文件的读写

https://www.cnblogs.com/bigberg/p/6430095.html JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C、C++、Java、JavaScript、Perl、Python等)。这些特性使JS...

2019-02-13 16:46:21 249

原创 python中的tqdm和retry模块

两个简单的小模块https://blog.csdn.net/langb2014/article/details/54798823https://blog.csdn.net/ricky110/article/details/77727397一、tqdmTqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tq...

2019-02-13 16:18:54 1355

原创 Universal Transformer

参考:https://arxiv.org/pdf/1807.03819.pdf学界 | 谷歌的机器翻译模型 Transformer,现在可以用来做任何事了https://juejin.im/post/5b8f40776fb9a019e04ebe09https://www.leiphone.com/news/201808/1nhPCi9jWWNGv6aw.htmlhttps://...

2019-02-11 21:12:42 1210

原创 文档的标点符号转换

https://www.biaodianfu.com/python-convert-between-unicode-fullwidth-halfwidth-characters.html 在文本处理的时候,经常会遇到全角半角不一致的问题。于是需要程序能够快速的在两者之间互转。由于全角半角本身存在着映射关系,所以处理起来并不复杂。具体规则为:全角字符unicode编码从65281~653...

2019-01-31 10:47:54 864 1

原创 linux中单引号、双引号、反引号的作用

在网上一搜一大堆,摘抄一个写的比较好的内容如下:(原地址: https://blog.csdn.net/iamlaosong/article/details/54728393)1、由单引号括起来的字符都作为普通字符出现。特殊字符用单引号括起来以后,也会失去原有意义,而只作为普通字符解释。如:$ string=’$PATH’$ echo $string$PATH$可见$保持了其本身...

2019-01-29 20:16:01 3877

原创 反向翻译back-translations

参考论文:Rico Sennrich, Barry Haddow, and Alexandra Birch.2016. Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891.Rico Sennrich, Barry Haddow, and Alexandra Birc...

2019-01-19 16:20:51 4965 1

原创 字节对编码BPE

参考论文:Rico Sennrich, Barry Haddow, and Alexandra Birch.2016. Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891.Rico Sennrich, Barry Haddow,and Alexandra Birch...

2019-01-19 15:52:30 4767

原创 conda环境共享

可以参考:https://blog.csdn.net/weixin_40240670/article/details/80784204以及:https://conda.io/docs/user-guide/tasks/manage-environments.html#creating-an-environment-from-an-environment-yml-file 注意:以下操作...

2019-01-17 11:45:34 7663

原创 机器翻译中的一些名词解释

1、语言模型(language model)与翻译模型(translate model)参考:https://zh.wikipedia.org/wiki/%E7%BB%9F%E8%AE%A1%E6%9C%BA%E5%99%A8%E7%BF%BB%E8%AF%91经常接触两个名词,语言模型(LM)和翻译模型(TM),这一概念最早是从统计机器翻译中来的,统计机器翻译的首要任务是为语言的产生构造...

2019-01-16 16:25:24 2717

原创 Pointer Networks简介及其应用

原文: https://zhuanlan.zhihu.com/p/48959800 本文介绍15年发表在NIPS上的一篇文章:Pointer Networks[1],以及后续应用了Pointer Networks的三篇文章:Get To The Point: Summarization with Pointer-Generator Networks[2]、Incorporating Cop...

2019-01-14 21:00:11 17955 3

原创 使用Python构建简单的HTTPServer,服务器之间相互传递文件

假设要传递的文件处于当前路径下原服务器上输入python -m SimpleHTTPServer 8989这里为python2的写法,python3有略微不同,8989为端口号,自己随便写一个,不与已有的冲突就行确定服务器的ip地址,可用ifconfig,寻找第一次出现的 inet addr:后跟着的内容,即为其ip 在目标服务器上输入wget 172.31.138.2...

2019-01-14 15:21:13 1717

原创 fast_align工具包使用踩坑记录

一个小小的任务用了两天时间,踩了无数坑,记录下来以作警示:1、任务:构建双语词典,用于对新语料的质量进行评分2、思路:由已有的质量较高的语料构建双语词典,在新的语料上计算每句翻译对应成功的概率,有一个阈值,得分较低的语料认为质量差3、流程:对已有的较高质量语料进行预处理-->双语语料进行合并-->利用fast_align工具进行对齐-->构建字典4、遇...

2019-01-10 16:19:52 2922 1

原创 fast_align工具包的使用

fast_align是一个优秀的快速词对齐工具包,在GitHub上有详细的介绍https://github.com/clab/fast_align 注意:使用前必须先进行分词,特别是汉语语料。否则没有实际意义需要注意的是,这里对文件的格式有一定要求,每行是源语言句子及其目标语言翻译,由带有前导和尾随空格(|||)的三重管道符号分隔。例如3句德语 - 英语平行语料库是:doch...

2019-01-09 12:04:11 7084 10

原创 阿里巴巴WMT18平行语料过滤 Alibaba Submission to the WMT18 Parallel Corpus Filtering Task

https://zhuanlan.zhihu.com/p/51843485 一、简介在评估平行语料库的质量时,研究语料库的三个特征,即1)语言/翻译质量,2)单语质量,3)语料库多样性。 基于规则和基于模型的方法都适用于对并行句子对进行评分。语料库清理任务分为三个部分:高质量的并行句子对应该具有,其目标句子精确地转换为源句子的特性,反之亦然。通过量化翻译质量(也称为双语分数)和...

2019-01-09 10:13:43 1403

原创 关于seq2seq中的beam search

参考链接:https://www.zhihu.com/question/54356960https://zhuanlan.zhihu.com/p/36029811?group_id=972420376412762112讲的很详细清晰 作者:习翔宇链接:https://www.zhihu.com/question/54356960/answer/375588742来源:知乎...

2019-01-08 17:36:18 750

原创 NMT十篇必读论文(九)Sequence to Sequence Learning with Neural Networks

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List 又回到神经机器翻译,这篇论文present a general end-to-end approach to sequence learning that makes minimal assumptions on the ...

2019-01-08 17:30:23 785

原创 NMT十篇必读论文(八)Statistical Phrase-Based Translation

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List  这是统计机器翻译中一篇具有代表性的论文,在原来基于单词的翻译的基础上,增加了类似n-gram的机制(本文中取n=3,实验结果),将原句分割为若干个短语,对短语进行了翻译和重新排列。同时,构建模型时用到了多种不同方法以...

2019-01-08 14:48:10 999

原创 NMT十篇必读论文(七)Hierarchical Phrase-Based Translation

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List 应用于统计机器翻译,结合了句法翻译和词法翻译,提出了一种基于分层短语的翻译模型,并与传统对齐模型进行了对比...

2019-01-07 19:40:26 432

原创 NMT十篇必读论文(六)The Mathematics of Statistical Machine Translation:Parameter Estimation

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List 这篇主要讲基于统计机器翻译下的参数估计,1993年写的,足足有50页,太长不想看...

2019-01-07 16:45:14 892

原创 NMT十篇必读论文(五)Minimum Error Rate Training in Statistical Machine Translation

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List 这篇文章的应用背景是统计机器翻译,大概意思是说,在传统的参数调整方法中,参数的确定和最终的翻译质量并没有什么紧密的联系,比如在统计机器翻译的对数线性模型中feature的权重需要调整,使用的准则就是如下的公式:这个...

2019-01-07 16:35:05 754

原创 NMT十篇必读论文(四)Neural Machine Translation by Jointly Learning to Align and Translate

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List 此篇是Bahdanau首先在NLP领域提出attention机制的论文,具有重要意义可以参考:  https://blog.csdn.net/weixin_40240670/article/details/812248...

2019-01-07 14:04:23 706

原创 NMT十篇必读论文(三)Adam: A Method for Stochastic Optimization

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List 本文提到的Adam是一种基于一阶梯度的随机优化算法,具体操作如下: 改进:AdaMAX将vt的更新公式进行了修改,在 Adam 中,单个权重的更新规则是将其梯度与当前和过去梯度的 L^2 范数(标量)成...

2019-01-03 19:12:39 6119

原创 NMT十篇必读论文(二)Neural Machine Translation of Rare Words with Subword Units

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List GitHub地址:https://github.com/rsennrich/subword-nmt本文介绍了一种处理oov词的方法(out-of-vocabulary words),将未知词表示为其子词的序列首先,...

2019-01-03 15:09:22 1953

原创 NMT十篇必读论文(一)attention is all you need

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文https://github.com/THUNLP-MT/MT-Reading-List 本文抛弃了惯用的以CNN、RNN作为位置编码的方法,单纯依靠注意力机制以及简单的三角函数进行了位置编码,起到了不错的效果。对应模型为Tensor2Tensor框架下的Transformer模型。GitHub地址:  h...

2019-01-02 15:45:28 768

原创 python和anaconda版本对应关系及踩坑实录(持续更新)

1、一定要注意对应关系,不要贸然下载Python3.72、TensorFlow好像对Python3.5不友好,安装时会报错3、干净卸载已安装的anaconda:conda install anaconda-cleananaconda-cleanrm -rf ~/anaconda3rm -rf ~/.anaconda_backup4、安装的时候注意着点屏幕,会问是否需要帮你...

2018-12-24 17:44:45 7162 1

原创 win10自带ubuntu开启和安装pip过程记录

开启win10自带ubuntu进入【设置--更新和安全--针对开发人员模式】,选择开发人员模式,等待系统自动安装,安装完成后,提示“已安装开发人员模式程序包...”,如下图所示。控制面板--程序--程序和功能--启用或关闭windows功能,勾选适用于Linux的windows子系统。如下图所示。点击确定,重新启动电脑按win+r输入bash,没反应就进入cmd下输入bas...

2018-12-20 14:49:32 4443

原创 NMT十篇必读论文(十)BLEU:a Method for Automatic Evaluation of Machine Translation

原文链接:https://www.jianshu.com/p/15c22fadcba5BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to an...

2018-12-20 10:41:46 1999

原创 Tensor2Tensor的使用(基础)

原文链接:https://cloud.tencent.com/developer/article/1153079 Tensor2Tensor的使用是比较方便的,对于系统中可以支持的问题,直接给系统设置好下面的信息就可以运行了:数据,问题(problem),模型,超参集合,运行设备。这里的实现其实是采用了设计模型中的工厂模式,即给定一个问题名字,返回给相应的处理类;给定一个超参名,返回一套超参的...

2018-12-19 16:50:37 6443 2

原创 Win10安装tensorflow和tensor2tensor过程记录

特别注意版本问题,截至2018年12月19日,tensorflow的win版本只支持到python3.6https://pypi.org/project/tensorflow/#files所以安装了python3.7再pip install tensorflow时会报错: 在https://repo.anaconda.com/archive/下载python3.6对应的an...

2018-12-19 14:39:22 1910

原创 机器学习常用损失函数

原文 : http://www.cnblogs.com/guoyaohua/p/9217206.html损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,...

2018-09-19 15:28:08 560

转载 python绘图

原地址: https://blog.csdn.net/lucky_greenegg/article/details/77109484 1、画直线 import numpy as np import matplotlib.pyplot as plt   x=[0,1] y=[0,1] plt.figure() plt.plot(x,y...

2018-09-18 09:28:57 556

原创 itertools函数解析

原始网页:https://www.cnblogs.com/fengshuihuan/p/7105545.html这货很强大, 必须掌握文档 链接 http://docs.python.org/2/library/itertools.htmlpymotw 链接 http://pymotw.com/2/itertools/基本是基于文档的翻译和补充,相当于翻译了itertools用...

2018-08-23 22:32:40 537

原创 NLP一些资源

(1) 中科院自动化所的博士,用神经网络做自然语言处理:http://licstar.net(2) 分词项目:https://github.com/fxsjy/jieba(3) 清华大学搞的中文分词等NLP开源项目:https://github.com/thunlp(4)一个轻量级的分词开源软件:https://github.com/lionsoul2014/jcseg(5) 有一些...

2018-08-10 09:37:42 417

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除