Chz9523-CSDN博客

原创标准化序列数据

标准化一个数据集涉及重新调整值的分布，以便使得观测值的平均值为0，标准差为1。这可以被认为是数据都减去了一个平均数或者中心化数据。与归一化一样，标准化可能是有用的，甚至在某些机器学习算法中，当您的数据具有不同尺度的输入值时也是需要的。标准化假设您的观察值符合高斯分布（贝尔曲线），具有良好的均值和标准差。不满足这个期望，你仍然可以标准化你的时间序列数据，但是可能不会得到可靠的结果。标准化需要...

2019-02-19 21:41:48 1594

归一化是从原始范围的数据重新缩放，使得所有的值都在0到1的范围之内。规范化要求您指导或能够准确地最小和最大可观测值。您可以从可用的数据中估计这些值。如果您可以从可用的数据中估计这些值。如果您的序列是呈增长趋势的或者下降趋势的，估计这些期望值可能是困难的，并且规范化可能不是解决您问题的最好办法。如果要缩放的值超过最小值和最大值的边界，则所得到的值的范围不在0到1的范围之内。在进行预测之前，你可以...

2019-02-19 16:07:49 1260

原创 jieba分词（添加分词词典）

为了分词效果更好，可以自己建立分词词典加入到jieba词典中：jieba.load_userdict（）（）内为分词词典路径+名称。写一个分词的小函数：import jiebadef preprocess(path): text = "" fenci = open(path, "r", encoding="utf-8").read() jieba.lo...

2019-02-17 09:07:25 7492

原创第6章实战之聊天语料处理

代码学习：extract_conv.py文件：函数1： def make_split(line): if re.match(r'.*([，…?!\.,!？])$', ''.join(line)): return [] return [', ']首先，定义函数 make_split()：其主要实现功能是匹配开头为.*([，…?!\.,!？]...

2019-01-21 21:21:42 521

原创 tf.matmul() 和tf.multiply() 的区别

1.tf.multiply（）两个矩阵中对应元素各自相乘格式: tf.multiply(x, y, name=None) 参数: x: 一个类型为:half, float32, float64, uint8, int8, uint16, int16, int32, int64, complex64, complex128的张量。 y: 一个类型跟张量x相同的张量。返回值： x * ...

2019-01-10 19:52:13 138

原创 softmax手札

softmax详细内容参考https://blog.csdn.net/u014380165/article/details/77284921 softmax公式：tf.nn.softmax()：import tensorflow as tfA = [1.0, 2.0, 3.0, 4.0, 5.0, 6.0]B = tf.nn.softmax(A)with tf.Sessio...

2019-01-10 16:48:43 121

原创 python的占位符%d 与%i的区别？

占位符说明%s字符串(采用str()的显示)%r字符串(采用repr()的显示)%c单个字符%b二进制整数%d十进制整数%i十进制整数%o八进制整数%x十六进制整数%e指数 (基底写为e)%E指数 (基底写为E)%f浮点数%F浮点数，与上相同%g指数(e)或浮点数 (根据显示长度)%G指数(E)或浮点数 (根据显示长度...

2019-01-10 08:05:49 10076

转载滴滴披露语音识别新进展：基于Attention显著提升中文识别率

论文原文地址：https://arxiv.org/pdf/1805.03832.pdf据滴滴语音团队介绍，该模型已经在滴滴相关语音产品中上线，替代了基于长短时记忆单元（LSTM）和连接时许分类（CTC）的语音识别系统，取得了 15%~25% 的相对性能提升。滴滴语音团队同时指出，虽然在实际应用产品中，基于 attention 的语音识别取得了显著的性能提升，但仍然有很多问题需要进一步探索。...

2018-12-24 20:40:52 757

转载 python神图。。。

转自：https://blog.csdn.net/gavin__zhou/article/details/49874141

2018-12-02 17:25:50 185

原创 Tensorflow开发基本流程：

Tensorflow开发基本流程：（1）定义TensorFlow输入节点：目录Tensorflow开发基本流程：（1）定义TensorFlow输入节点：a.通过占位符定义：b.通过字典类型定义：c.直接定义法：（2）定义“学习参数”变量a.直接定义：b.字典定义（3）定义“运算”a.正向传播模型 b.定义损失函数（4）优化函数、优化目标...

2018-12-01 09:53:59 1335

原创错误01 run.pl: 4 / 4 failed, log is in exp/make_mfcc/train/make_mfcc_train.*.log

用kaldi分布求mfcc的过程中遇到了“错误01 run.pl: 4 / 4 failed, log is in exp/make_mfcc/train/make_mfcc_train.*.log”在log文件中显示是“Permission denied”检查了一下个部分文件，s5文件下的mfcc文件夹有打开权限，所以将sudo chmod -R 777 /home/chz/kaldi/...

2018-10-22 15:55:08 1919 2

转载 linux命令分号&&和&，|和||的用法（转）

在用linux命令时候,我们可以一行执行多条命令或者有条件的执行下一条命令，下面我们讲解一下linux命令分号&&和&，|和||的用法（转）https://www.jb51.net/article/136261.htm“;”分号用法方式：command1 ; command2用;号隔开每个命令, 每个命令按照从左到右的顺序,顺序执行，彼此之间不关心是否失败， ...

2018-10-22 09:44:29 710

原创 kaldi安装

首先，虚拟机调用不了显卡。这么基础的问题一定要切记。所以说如果用VMware安装ubuntu来跑kaldi就不用安装NVIDIA和cuda等一系列步骤！！！但是就是不需要安装一些列显卡驱动，安装kaldi对我来说也废了不少时间。开始说下自己安装kaldi的步骤吧。首先，像之前所说，我是在虚拟机上安装的ubuntu16.04。虚拟机选用的是VMware WorkStation14。（很感谢Q...

2018-08-08 22:15:20 2006 2

原创 HTK跑程序遇到的问题

因为自己脑子不好使，再加上老板额外的一大堆任务，所以HTK的学习花费自己好长时间。首先说有关sil的训练吧，因为在sil段音频训练时总是出错，起初开始误以为需要额外录静音段的音频，自己就录了很多静音音频，做mfcc，lab之类的。随后才发现是因为在语音标识阶段因为sil和语音的间隔太近了，造成sil训练失败。所以大家在标注的时候一定还有一定的间隔。这样才能成功。...

2018-07-10 22:06:57 169

weixin_40789411的博客