jinmingz-CSDN博客

原创 OpenSmile 修改配置文件，抽取 IS13_ComParE 的 LLDs 特征

OpenSmile 之前也一直用，但是都是用现成的改好的配置文件，如今想自己根据需求抽取里面的部分特征，比如现在以抽取 IS13_ComParE_core.lld.conf.inc 中的特征为例子。另外提供 IS09_emotion.conf 自定义抽取 frame=0.4s, shift=0.05s 为例子。这里没有提供基本的格式说明，可以参考：https://blog.csdn.n...

2019-10-01 20:11:36 2069 3

原创 Stanford中文分词

参考：https://stackoverflow.com/questions/45663121/about-stanford-word-segmenter/45668849https://cloud.tencent.com/developer/article/1346917主要解决方法： https://github.com/nltk/nltk/pull/1735 命令行： ...

2019-06-18 00:14:51 1065

原创 seq2seq模型中最后的Loss该如何计算

#!coding=utf-8import numpy as npimport tensorflow as tffrom tensorflow.contrib.seq2seq import sequence_loss'''为了探究 seq2seq 中的loss具体改如何计算, 依据的标准是 tensorflow.contrib.seq2seq.sequence_loss'''# l...

2019-03-24 16:37:18 5564

原创 TF多层 LSTM 以及 State 之间的融合

第一是实现多层的LSTM的网络;第二是实现两个LSTM的state的concat操作, 分析 state 的结构.对于第一个问题,之前一直没有注意过, 看下面两个例子:在这里插入代码片import tensorflow as tfnum_units = [20, 20]#Unit1, OK# X = tf.random_normal(shape=[3, 5, 6], dtype=...

2019-02-21 18:07:25 1117

原创 Facebook/LASER 应用到Paraphrase任务

首先跑通xnli的代码,根据xnli的中间结果或者数据格式来修改我们自己的任务.修改 xnli 任务记得的几个坑:1. 下载 XNLI-1.0.zip 报错了, 下载地址的问题, 根据ReadMe找到原始的下载地址, 修改为 xnli_http="https://www.nyu.edu/projects/bowman/xnli"2. 安装 pip install jieba ...

2019-02-18 16:47:09 438

原创安装scipy的时候要可以安装 pillow

直接安装scipy, 然后在保存image的时候会提示找到方法.需要事先装一个 pillow 或者其他的然后卸载scipy 再重新安装 scipypip install pillowpip install scipy

2019-01-13 22:05:06 1167

原创 tf.tile() 和 tf.contrib.seq2seq.tile_batch()

简单介绍这两个函数的基本用法, 以及区别. 以及在 BeamSearch 的时候用哪个?# 将input的某一维度复制多少次, len(input.shape()) 等于 len(multiples)# tf.tile(input, multiples, name=None)t = tf.constant([[1, 1, 1, 9], [2, 2, 2, 9], [7, 7, 7, 9]]...

2019-01-03 18:02:16 1918

原创 tf.strided_slice() 函数

这个函数本身的注释看起来不太清晰, 这里举个小例子, 介绍一下最基本的用法:首先参数列表是 tf.strided_slice(input, begin, end, stride, ...)tf.fill( dims, value, name=None)dims 是1-D的向量表示shape, value 是一个实数, 表示整个矩阵填充的值. 实例: 定义 decoder_input...

2019-01-03 11:20:03 664

原创 pythob 浮点数比较(0.3)

关于浮点数的比较, 比如下面, 当等于0.3的是时候是不想等的,而其他的数值都可以.这是因为0.3在计算机内部转二进制, 然后再转浮点数的时候, 会得到一个比0.3稍微大一点的数, 所以在浮点数比较的时候一定不要直接比较,而是要加 round(0.3, 1).计算机组成原理已经彻底还给老师了…for i in np.arange(start=0.1, stop=0.5, step=0.1)...

2018-11-29 21:15:17 526

原创 tensorflow 中的获取动态获取 BatchSzie 的大小

import tensorflow as tfimport syswith tf.variable_scope('ha'): a1 = tf.get_variable('a', shape=[], dtype=tf.int32) with tf.variable_scope('haha'): a2 = tf.get_variable('a', shape=[]...

2018-10-07 16:39:05 5667

原创 python2 与 python3 编码问题总结

之前遇到过好多各种各样的问题, 特别是在python2下, 先在准备总结, 遇到一个总结一个:unicode 字符在python2下采用 ,在python3下统一为 string 类型. 那么如何在python2下将一句话中的所有unicode字符转化为str类型呢? 下面几种都试试, 不行就直接换python3吧.# 数字true = u'1'print(type(true...

2018-09-16 14:26:35 256

原创 python 调用 java 的 ansj_seg 分词工具

解决方案链接: https://github.com/NLPchina/ansj_seg/issues/681提供给对于 java不熟, 不想用jiaba分词, 对 ansj_seg 念念不忘的同学们一个 python 一个解决方案: 环境: python2.7 jdk1.8.0_161 tree_split-1.5.jar, nlp-lang-1.7.7.jar和 ansj_seg-5....

2018-09-11 23:34:26 2493 2

原创 word2vec 几点理解

1. one-hot 表示形式的缺点： a. 一般任务词汇量至少1w+，维度灾难 b. 没有考虑词之间的联系，“词汇鸿沟”2. 小概念术语： word embedding 和 word2vec。 Word embedding 是词嵌入，是所有word represent 方法的总称，而word2vec只是其中的一种方式。3. word2vec 一般常用的两个工具，分别是go...

2018-08-02 00:21:47 1969

转载 Q-learning 理解以及简单实现

强化学习（reinforcement learning）的过程，强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素。智能体需要根据当前状态来采取动作，获得相应的奖赏之后，再去改进这些动作，使得下次再到相同状态时，智能体能做出更优的动作。下面以一个综合全面的例子来理解Q-learning的过程。 http://mnemstudio.org/path-f...

2018-05-12 21:48:45 19592 2

原创 m4a 转 wav

sox 不行， ffmpeg 很麻烦，考虑用 avconv 很简单：安装： apt-get install libav-tools 然后 avconv -i xx.m4a -ar 16000 xx.wav

2018-04-30 12:07:38 10349 1

原创 python pylot 画图

本文主要是记录最基本的用法：def plot_cccs(cccs, target_index): import matplotlib.pyplot as plt # 创建一个图片窗体 plt.figure(figsize=(10, 10)) # 设置横坐标的刻度 plt.xticks(np.arange(len(cccs))) # 先画一...

2018-04-09 22:54:37 1229

原创 kaldi中跑thchs30

按照github上的版本直接跑的过程中遇到两个问题：在 make word graph的过程中字典正确的没有拷贝到本地：在 14.04 下面没有问题，在16.04 下面出现问题了。 cat $thchs/resource/dict/lexicon.txt $thchs/data_thchs30/lm_word/lexicon.txt | grep -v '<s>' | grep -v '<

2017-12-17 23:20:50 2158 1

原创 sidekit(二)两个小bug

之前发过的一封邮件，是1.2.2版本的，但是1.2.3版本还存在这个issue2问题。My machine environments is: python=2.7 sidekit=1.2.2Issue1: ＃这个问题在3.5中没有，在2.x存在这个问题 in the anaconda2/lib/python2.7/site-packages/sidekit/frontend/io.py li

2017-12-12 23:15:45 1126

https://github.com/CMU-Perceptual-Computing-Lab/openposeQ1：ImportError: /root/anaconda2/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.21' not found ref：http://blog.csdn.net/u010987458/article/detail

2017-11-16 17:53:02 4516

原创 ubuntu16.04 安装 Caffe

首先根据官方给的, 注意版本，不同版本需要装的不一样： http://caffe.berkeleyvision.org/install_apt.html然后官方给的ubuntu16.04不需要装：sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev但是不装会报错，所以这三个都必须装。然后修改 Makefile.conf

2017-11-16 12:13:27 578

原创 opencv3.x 安装报错解决方法

这里就说一点注意事项：install 的页面在： https://docs.opencv.org/master/d7/d9f/tutorial_linux_install.html如果缺少包： https://github.com/chudur-budur/opencv#notes-from-chudur-budur如果报错： /home/jr/anaconda/lib/libssl.so.

2017-11-06 22:27:54 1486

转载 tfrecords notice

tfrecords is not support random access! tfrecords is not support read by the index!

2017-10-31 21:55:31 400

原创 numpy tostring() fromstring()

must specify the right dtype !!!aOut[54]: array([1, 2, 3])b = a.tostring()np.fromstring(b)Out[52]: array([ 4.94065646e-324, 9.88131292e-324, 1.48219694e-323]) #Wrong!Out[56]: array([1, 2, 3])

2017-10-30 13:16:04 12054 1

转载 sftp error: Couldn't canonicalize

sftp> put -r nvidia/ Uploading nvidia/ to /data2/zjm/libs/nvidia Couldn’t canonicalize: No such file or directory Unable to canonicalize path “/data2/zjm/libs/nvidia”决解办法是： sftp> mkdir nvidia ＃现在远程

2017-10-23 01:51:17 5507

原创 docker 常用命令

docker 操作images:还有一些再来补充docker info 可以查看 images 的路径docker 操作 containers:docker ps #查看正在运行的dockerdocker ps -a #查看所有的 container，如果对container做了修改，要删除重建docker start container_name/contrainer_id ＃已经启动

2017-10-22 23:34:35 478

原创 wav 文件按起止时间切割

step1: sox不能直接切，先转化为 sph os.system(‘sox {} -f sph {}’.format(wav_filepath, sph_filepath))step2: 用kaldi 的 sph2pipe 工具切 os.system(‘/data2/zjm/kaldi_env/tools/sph2pipe_v2.5/sph2pipe -t {0}:{1} {} {}’.f

2017-10-20 22:00:46 3891

原创 python 画三维散图以及在图上加均值点

分析VAD情感的数据分布，画出对应的散点图，并在图上标记处每个类别的均值点。import matplotlib.pyplot as pltimport numpy as npfrom mpl_toolkits.mplot3d import Axes3D # 必须要加这个,否则下面的projection会报错＃new_line = re.sub('[,\[\]\n\%\t-]', ' ', lin

2017-10-18 23:34:09 2746

原创 python import 不同层级导入

比如现在有这么一个问题：toolkit --eval_cap --bleu --bleu.pycaption --expr --run1.py要在run1.py中调用bleu.py中的函数，现在需要导入 bleu.py。step1: 首先在 toolkit,eval_cap, bleu **分别** 新建空的 __init

2017-10-16 00:25:12 1371

原创 sklearn 的 Normalizer的L1和 L2

Normalizer 正则化，跟z-score，对数转换，指数转换这种数据转换方式不同。 L1 norm 是指对每个样本的每一个元素都除以该样本的L1范数. L2 norm 是指对每个样本的每一个元素都除以该样本的L2范数. bag of words features need to normalize with L1 norm fisher vector features need...

2017-09-06 21:59:11 6308 2

原创 relu和crelu使用

之前不了解crelu，随便将网络中的relu换成crelu, 然后调了半天的bug。 —–自己写bug,自己调bug, 死循环ing ——先看写一段代码：import tensorflow as tfimport collectionsslim = tf.contrib.slimweights_initializer = tf.contrib.layers.xavier_initializer

2017-08-23 17:53:18 3391

原创 sort函数慎用

今天晚上一个大坑，python自带的sort函数，首先他是原地排序的方法，就是会改变自身的值，没有返回值。但是比如我一个numpy矩阵 M.shape(10, 8):N = M[:,3] #取M的第三列作为NN.sort() #对N自排序，这是N是有序的！！！但是 M这时候也是第三列有序的！！！

2017-08-11 00:05:33 1045

原创 map(macro average precision) 与 F1score

之前写过关于准确率和召回率： http://blog.csdn.net/zjm750617105/article/details/54914184map， macro average precision，宏平均准确率：其实就是各个类别的准确率的平均值，每个类别的准确率计算参考上面的链接。具体例子： [[ 7 28 0 0 0 0 0 93] [ 5 28

2017-08-09 13:53:53 4835 2

原创 python多进程demo

任务需求，在声纹识别任务中，模型库可能比较大，如果单线程的话，每个测试句都跟几百个模型计算得分，那么测试过程太慢了。这里采用多进程和多线程（暂时空白）的方式进行处理。多进程版本（省略了内部函数实现）print("Test Stage")print("test length ", len(testList))#这个test的数据太多了,并且每一个要跟500个model进行计算,所以必须采用

2017-08-05 15:48:55 584

原创 parser.add_argument中的action

有一个比较有意思的传参方式：比如在 demo1.py 中指定 action=’store_true’的时候： parser.add_argument(‘–is_train’, action=’store_true’, default=False)在运行的时候： python demo1.py 默认是False python demo1.py –is_train 是True, 注意

2017-08-02 10:46:00 25961 4

原创 TF中tensor值的打印问题（+eager）

好久没用tensorflow, 现在感觉各种不适应，关于tensor值的打印的几种情况，整理一下，备自己忘的时候再翻翻。Case1: tensor是一个常量 constant>>> import tensorflow as tf>>> a = tf.constant([1,2], name='a')>>> sess = tf.InteractiveSession() >>> a.eval()

2017-07-21 15:09:41 4469

原创 TF 中保存恢复模型时，关于变量的name问题

在使用 tf.train.Saver() 来保存模型和使用已有模型来测试的时候，关于保存的变量（tf.Variable）需要注意的几种情况:Case1: 训练时，变量没有name属性，恢复时也没有name属性. 这是必须要保证在train的代码里定义的变量的顺序和test的变量的定义的顺序一致！否则会报错Case2: 训练时，变量有name属性，恢复时没有name属性，或者训练没有

2017-07-16 13:52:04 1191

原创 TF中的tf.Variable 和 tf.placehold 的区别

参考自： https://stackoverflow.com/questions/36693740/whats-the-difference-between-tf-placeholder-and-tf-variable从使用来说： tf.placehold 占位符。主要为真实输入数据和输出标签的输入，用于在 feed_dict中的变量，不需要指定初始值，具体值在feed_dict中的变量给出。

2017-07-16 13:30:44 2957

原创 numpy 数据的存取

numpy 数组的存取常用的有两种方式：注意：一定要注意 tofile 和 fromfile 成对使用，不可与 load 和 save 混用，否则数组长度不一致。numpy.tofile() 和 numpy.fromfile()：保存为二进制格式，但是不保存数组形状和数据类型，即都压缩为一维的数组，需要自己记录数据的形状，读取的时候再reshape.>>> import numpy>>

2017-07-07 12:05:33 1124

转载 mac下安装pyaudio

小小搬运工： https://stackoverflow.com/questions/33851379/pyaudio-installation-on-mac-python-3主要步骤是：xcode-select --install ＃安装xcode, 已经装好的的话，执行的时候会提示brew remove portaudio ＃先卸载brew install portaudio ＃重新安

2017-06-09 17:28:35 7248

原创 python 读取文件列表

先介绍两种python的方法，都是基于os库中的方法：demo1:import osfiles = os.listdir("./")这个只列出当前目录下的所有文件名称（不管是文件合适文件夹，只列出名称），这个适用于已知具体的文件路径的情况demo2:for root, dirs, files in os.walk("./"): for file in files: if ".w

2017-05-25 12:36:42 1174

mysql中文手册

空空如也