自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 标准化序列数据

标准化一个数据集涉及重新调整值的分布,以便使得观测值的平均值为0,标准差为1。这可以被认为是数据都减去了一个平均数或者中心化数据。与归一化一样,标准化可能是有用的,甚至在某些机器学习算法中,当您的数据具有不同尺度的输入值时也是需要的。标准化假设您的观察值符合高斯分布(贝尔曲线),具有良好的均值和标准差。不满足这个期望,你仍然可以标准化你的时间序列数据,但是可能不会得到可靠的结果。标准化需要...

2019-02-19 21:41:48 1594

原创 归一化序列数据

归一化是从原始范围的数据重新缩放,使得所有的值都在0到1的范围之内。规范化要求您指导或能够准确地最小和最大可观测值。您可以从可用的数据中估计这些值。如果您可以从可用的数据中估计这些值。如果您的序列是呈增长趋势的或者下降趋势的,估计这些期望值可能是困难的,并且规范化可能不是解决您问题的最好办法。如果要缩放的值超过最小值和最大值的边界,则所得到的值的范围不在0到1的范围之内。在进行预测之前,你可以...

2019-02-19 16:07:49 1260

原创 jieba分词(添加分词词典)

为了分词效果更好,可以自己建立分词词典加入到jieba词典中:jieba.load_userdict()()内为分词词典路径+名称。写一个分词的小函数:import jiebadef preprocess(path): text = "" fenci = open(path, "r", encoding="utf-8").read() jieba.lo...

2019-02-17 09:07:25 7492

原创 第6章 实战之聊天语料处理

代码学习:extract_conv.py文件:函数1: def make_split(line): if re.match(r'.*([,…?!\.,!?])$', ''.join(line)): return [] return [', ']首先,定义函数 make_split():其主要实现功能是匹配开头为.*([,…?!\.,!?]...

2019-01-21 21:21:42 521

原创 tf.matmul() 和tf.multiply() 的区别

1.tf.multiply()两个矩阵中对应元素各自相乘格式: tf.multiply(x, y, name=None) 参数: x: 一个类型为:half, float32, float64, uint8, int8, uint16, int16, int32, int64, complex64, complex128的张量。 y: 一个类型跟张量x相同的张量。  返回值: x * ...

2019-01-10 19:52:13 138

原创 softmax手札

softmax详细内容参考https://blog.csdn.net/u014380165/article/details/77284921 softmax公式:tf.nn.softmax():import tensorflow as tfA = [1.0, 2.0, 3.0, 4.0, 5.0, 6.0]B = tf.nn.softmax(A)with tf.Sessio...

2019-01-10 16:48:43 121

原创 python的占位符%d 与%i的区别?

占位符说明%s字符串(采用str()的显示)%r字符串(采用repr()的显示)%c单个字符%b二进制整数%d十进制整数%i十进制整数%o八进制整数%x十六进制整数%e指数 (基底写为e)%E指数 (基底写为E)%f浮点数%F浮点数,与上相同%g指数(e)或浮点数 (根据显示长度)%G指数(E)或浮点数 (根据显示长度...

2019-01-10 08:05:49 10076

转载 滴滴披露语音识别新进展:基于Attention显著提升中文识别率

论文原文地址:https://arxiv.org/pdf/1805.03832.pdf据滴滴语音团队介绍,该模型已经在滴滴相关语音产品中上线,替代了基于长短时记忆单元(LSTM)和连接时许分类(CTC)的语音识别系统,取得了 15%~25% 的相对性能提升。滴滴语音团队同时指出,虽然在实际应用产品中,基于 attention 的语音识别取得了显著的性能提升,但仍然有很多问题需要进一步探索。...

2018-12-24 20:40:52 757

转载 python神图。。。

转自:https://blog.csdn.net/gavin__zhou/article/details/49874141

2018-12-02 17:25:50 185

原创 Tensorflow开发基本流程:

Tensorflow开发基本流程:(1)定义TensorFlow输入节点: 目录Tensorflow开发基本流程:(1)定义TensorFlow输入节点:a.通过占位符定义:b.通过字典类型定义:c.直接定义法:(2)定义“学习参数”变量a.直接定义:b.字典定义(3)定义“运算”a.正向传播模型 b.定义损失函数(4)优化函数、优化目标...

2018-12-01 09:53:59 1335

原创 错误01 run.pl: 4 / 4 failed, log is in exp/make_mfcc/train/make_mfcc_train.*.log

用kaldi分布求mfcc的过程中遇到了“错误01 run.pl: 4 / 4 failed, log is in exp/make_mfcc/train/make_mfcc_train.*.log”在log文件中显示是“Permission denied”检查了一下个部分文件,s5文件下的mfcc文件夹有打开权限,所以将sudo chmod -R 777 /home/chz/kaldi/...

2018-10-22 15:55:08 1919 2

转载 linux命令分号&&和&,|和||的用法(转)

在用linux命令时候,我们可以一行执行多条命令或者有条件的执行下一条命令,下面我们讲解一下linux命令分号&&和&,|和||的用法(转)https://www.jb51.net/article/136261.htm“;”分号用法方式:command1 ; command2用;号隔开每个命令, 每个命令按照从左到右的顺序,顺序执行, 彼此之间不关心是否失败, ...

2018-10-22 09:44:29 710

原创 kaldi安装

首先,虚拟机调用不了显卡。这么基础的问题一定要切记。所以说如果用VMware安装ubuntu来跑kaldi就不用安装NVIDIA和cuda等一系列步骤!!!但是就是不需要安装一些列显卡驱动,安装kaldi对我来说也废了不少时间。开始说下自己安装kaldi的步骤吧。首先,像之前所说,我是在虚拟机上安装的ubuntu16.04。虚拟机选用的是VMware WorkStation14。(很感谢Q...

2018-08-08 22:15:20 2006 2

原创 HTK跑程序遇到的问题

因为自己脑子不好使,再加上老板额外的一大堆任务,所以HTK的学习花费自己好长时间。首先说有关sil的训练吧,因为在sil段音频训练时总是出错,起初开始误以为需要额外录静音段的音频,自己就录了很多静音音频,做mfcc,lab之类的。随后才发现是因为在语音标识阶段因为sil和语音的间隔太近了,造成sil训练失败。所以大家在标注的时候一定还有一定的间隔。这样才能成功。...

2018-07-10 22:06:57 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除