自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不眠旅行

You are in the picture

  • 博客(71)
  • 资源 (2)
  • 收藏
  • 关注

原创 Java笔记:byte[]转String再转byte[]后数据变化问题

问题场景数据的属性比如time原本是long类型,存入hbase表时将long转成byte[],个别场景下读取就遇到一些变化。long转成byte[]入库,又被当作String读取(客观原因必须步骤),转回byte[],再转long类型,数据发生变化。图中可见,在转成String的前后byte[]已经不同了。byte[]和String的转换问题查资料得知,转换String类型有编码要求。构造一个long转成的byte[]来进行String转换测试。Bytes.toString( byte[] )

2020-07-31 18:10:37 3563 1

原创 git push时rejected,解决non-fast-forward errors的办法

问题:在git push时无法推送到远端仓库,出现下面的信息$ git push origin masterTo https://github.com/USERNAME/REPOSITORY.git! [rejected] master -> master (non-fast-forward)error: failed to push some refs to ‘h...

2019-08-19 22:14:18 19282

原创 Java笔记:在IDEA平台下使用JUnit插件进行单元测试

使用JUnit插件的场景Java是完全面向对象语言,所有功能都在类中实现,新人测试代码时,一般都会对每个类写一个main函数来调用其功能,JUnit正是取代这种繁琐操作的实用工具。它能够不依赖main直接对代码测试。测试平台:IntelliJ IDEA 2017.2JUnit安装与配置下载插件:File -> Settings -> Plugins,搜索JUnit下载实际上...

2019-08-14 20:19:32 6999

原创 Keras 在fit_generator训练方式中加入图像random_crop

使用Keras作前端写网络时,由于训练图像尺寸较大,需要做类似 tf.random_crop 图像裁剪操作。为此研究了一番Keras下已封装的API。Data Augmentation(数据扩充)Data Aumentation 指使用下面或其他方法增加输入数据量。我们默认图像数据。旋转&反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容...

2018-11-23 19:58:46 5412 3

原创 远端服务器上Tensorboard的使用问题

场景本机是windows系统,tensorflow程序运行在远端服务器,通常使用Xshell登陆服务器操作。问题按照tf教程,训练网络的summary存在设定的log_dir中,检查tensorboard安装完好,找tf安装目录:pip3 show tensorflow-gputensorboard文件夹在tf同级目录,其下有可执行的main.py(若未安装可以pip3 instal...

2018-09-27 19:05:55 35258 5

原创 Python包的相对导入问题

python脚本的package相对导入时,常见两种写法:from . import XXXfrom .. import XXX但有时会出现这样的错误:SystemError: Parent module '' not loaded, cannot perform relative importValueError: attempted relative import beyond to...

2018-09-19 22:08:18 3022

原创 【LeetCode】Wiggle Sort II

Given an unsorted array nums, reorder it such that nums[0] < nums[1] > nums[2] < nums[3]….Example 1: Input: nums = [1, 5, 1, 1, 6, 4] Output: One possible answer is [1, 4, 1, 5, 1, 6]. E...

2018-07-26 20:32:29 407

原创 【LeetCode】记录几个动态规划(DP)题目

[LeetCode] Coin Change 硬币找零 You are given coins of different denominations and a total amount of money amount. Write a function to compute the fewest number of coins that you need to make up that amo...

2018-07-24 20:15:34 1262

原创 【大话数据结构】图和最小生成树

图的定义和一些概念图(Graph)是由顶点V的有穷非空集合和顶点之间的边E的集合组成。通常表示为 G(V,E)。顶点(Vertex):图的基本数据元素。边(Edge):无向边 (A,D)。弧(Arc):有向边 <A,D>,A是弧尾,D是弧头。线性表   元素   可以为空表 树   结点   可以为空树 图   顶点   ...

2018-07-21 15:33:33 340

原创 windows下的pip升级问题

背景在windows的命令行下使用pip或pip3安装python的各种库是种很便利的方法,但有时下载包时出现这种问题 socket.timeout: The read operation timed out pip._vendor.requests.packages.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host...

2018-07-21 12:48:01 7919 1

原创 pip安装源更改与用户权限问题

使用python的一大库安装利器就是pip,但默认情况下,经常安装得非常慢然后一段时间就timeout了,因为pip安装源pypi.python.org是国外镜像,更换为国内镜像就好了。pip国内镜像 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆...

2018-06-08 21:24:23 6800

原创 python下tiff图像的读取和保存方法

对比测试 scipy.misc 和 PIL.Image 和 libtiff.TIFF 三个库图像部分: 1. 读入uint8、uint16、float32的lena.tif 2. 使用numpy产生随机矩阵,float64的matimport numpy as npfrom scipy import miscfrom PIL import Imagefrom libt...

2018-05-09 17:45:58 48859 6

原创 python命令行解析argparse模块

主要是比较两个函数:parse_args()和parse_known_args() ① parse_args()import argparseimport sysparse = argparse.ArgumentParser()parse.add_argument("--learning_rate", type=float, default=0.01, help="initial l...

2018-05-08 16:43:37 713

原创 Tensorflow运行出错之Check failed: e->src_output()问题

系统:centOS 7 环境:CUDA8.0 + cudnn5 + TensorFlow 1.0问题报错是这样的: F tensorflow/core/common_runtime/executor.cc:484] Check failed: e->src_output() < 32768 (56124 vs. 32768) 先说结果,经过一番原因查找,得...

2018-04-25 15:57:04 2015 1

原创 python下含中文字符串正则表达式的编码问题

前言Python文件默认的编码格式是ascii ,无法识别汉字,因为ascii码中没有中文。所以py文件中要写中文字符时,一般在开头加 # -*- coding: utf-8 -*- 或者 #coding=utf-8。这是指定一种编码格式,意味着用该编码存储中文字符(也可以是gbk、gb2312等)。关于测试的几点注意 ---------------------------------------...

2018-04-17 19:27:50 15918

原创 Tensorflow运行环境的cuda+cudnn版本问题

问题CentOS Linux release 7.3.1611服务器上以前装过tensorflow1.0,cuda8.0,cudnn v5.1,原本是能正常运行tf程序,一段时间没用,出了点小问题,故查资料解决一下I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcub...

2018-03-24 13:03:46 10102 3

原创 python相关的几种数据类型的存储读取方式

归纳一下python中不同数据保存格式的存储和读取,旨在方法整理和速度比较。从数据角度分两种,一是ndarray格式的纯数值数据的读写,二是对象(数据结构)如dict的文件存取。数值数据的读写.bin格式,np.tofile() 和 np.fromfile()import numpy as npa = np.random.randint(0, 100, size=(1...

2018-03-04 18:58:49 12984 1

原创 matlab的RandStream和伪随机数的重复生成

matlab的随机数生成函数rand 生成均匀分布的伪随机数,分布在0~1之间 randn 生成标准正态分布的伪随机数,均值为0,方差为1rand(m,n)生成m行n列的均匀分布的伪随机数rand(RandStream,m,n)利用指定的RandStream(可认为是随机种子)控制伪随机数randi 生成均匀分布的伪随机整数randi([iMin,iMax],m,n)在(...

2018-03-03 15:43:56 4938

原创 secureCRT使用sz/rz命令在Linux和Windows间传输文件失败问题

sz,rz是Linux/Unix和Windows进行ZModem文件传输的命令行工具。【windows端】需要支持ZModem协议的telnet/ssh客户端(xshell支持)。网上下一个,我用的是SecureCRT,平常用它登陆到Unix/Linux开发机。【linux端】在Linux端安装rz/sz工具(嵌入式开发中多数已将编译好的rz/sz工具放到rootfs中了,普通的Linux系统如果...

2018-03-03 14:41:39 9250

原创 基本的分词算法调研

NLP领域基本技术之一,分词(word segmentation)功能是将一句话用最合理的方式划分成词集合,符合语言特点和语义连贯。基于字典词库匹配的分词方法(机械分词法)应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单高效,但汉语语言复杂丰富,词典完备性、规则一致性等问题使其难以适应大规模文本的分词处理。MM   

2018-02-07 15:43:17 933

原创 点互信息(PMI)预测utterance关键词

PMI(Pointwise Mutual Information)机器学习相关文献中,可以看到使用PMI衡量两个变量之间的相关性,比如两个词,两个句子。原理公式为:在概率论中,如果x和y无关,p(x,y)=p(x)p(y);如果x和y越相关,p(x,y)和p(x)p(y)的比就越大。从后两个条件概率可能更好解释,在y出现的条件下x出现的概率除以单看x出现的概率,这个值越大表示x和y

2018-01-16 21:16:00 18041 6

原创 机器学习中的precision, recall, accuracy, F值

假设用机器学习方法解决某个二元分类问题,在分析比较不同模型时常看到这些指标。四个概念:TP,FP,TN,FNTP(True Positive):在判定为positive的样本中,判断正确的数目。FP(False Positive):在判定为positive的样本中,判断错误的数目。TN(True Negative):在判定为negative的样本中,判断正确的数目。FN(Fal

2018-01-16 19:48:45 45790 13

原创 python中str字符串和unicode对象字符串的拼接问题

str字符串s = '中文' # s: s是个str对象,中文字符串。存储方式是字节码。字节码是怎么存的:如果这行代码在python解释器中输入&运行,那么s的格式就是解释器的编码格式;如果这行代码是在源码文件中写入、保存然后执行,那么解释器载入代码时就将s初始化为文件指定编码(比如py文件开头那行的utf-8);unicode对象字符串unicode是一种编码

2018-01-13 18:02:03 6335

原创 python中txt文件的编码转换问题utf-8转gbk

之前一直使用python内置的读写文件函数open,参数中不含encoding一项。它实际上是,读入文件是什么编码,写出文件就是什么编码。如今遇到一个问题,需要把一个utf8编码txt的部分内容另存,为了postprocess还要存成gbk编码。解决一:codecs模块的读写函数codecs.open# -*- coding: gbk -*-#!usr/bin/env pyt

2018-01-12 17:53:30 16317

原创 语言模型评价指标Perplexity

语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk)。在报告里听到用PPL衡量语言模型收敛情况,于是从公式角度来理解一下该指标的意义。

2017-12-24 13:33:02 63054 7

原创 树回归:CART算法构建回归树和模型树(代码笔记)

分类回归树(Classification And Regression Trees,CART)是一种构造树的监督学习方法。笔记实现了回归树和模型树。

2017-11-09 10:54:47 3652

原创 标准回归:预测数值型数据

回归和分类的不同,在于它的目标变量是连续数值型。它也是一种监督学习方法。笔记中实现的有基本线性回归,局部加权线性回归,岭回归。

2017-11-09 10:52:22 670

原创 利用AdaBoost元算法的分类器(代码笔记)

将不用的分类器组合起来的方法称为集成方法(ensemble method)或元算法(meta-algorithm),AdaBoost就是一种集成方法。笔记实现了基于单层决策树的AdaBoost分类器。

2017-11-09 10:51:58 755

原创 使用Logistic回归进行分类(代码笔记)

基于Sigmoid函数和Logistic的分类,使用梯度上升找到最优回归系数,相当于找到决策边界。再用数据特征和Logistic回归就能算出分类。

2017-11-09 10:51:29 2165

原创 ID3构造决策树预测隐形眼镜类型(代码笔记)

决策树可以从数据集合中提取出一系列规则,从而分类样本。它的优势是能理解数据蕴含信息。

2017-11-09 10:51:08 1206

原创 kNN算法识别手写数字(代码笔记)

k邻近算法,有监督的分类算法。思想:利用输入数据特征值和训练样本数据特征值之间的距离分类,挑出距离最小的k个训练样本的类别频率,作为预测的分类估计。python代码实现。

2017-11-09 10:50:32 659

原创 OpenCV的霍夫变换(Hough Transform)圆检测

Hough变换检测圆。霍夫变换也可以用于检测其他几何形体,事实上,可以用参数方程表示的几何体都可以尝试用霍夫变换进行检测。比如圆形。

2017-10-20 20:17:30 3397 1

原创 OpenCV的霍夫变换(Hough Transform)直线检测

霍夫变换(Hough Transform)的主要思想:一条直线在平面直角坐标系(x-y)中可以用y=ax+b式表示,对于直线上一个确定的点(x0,y0),总符合y0-ax0=b,而它可以表示为参数平面坐标系(a-b)中的一条直线。因此,图像中的一个点对应参数平面的一条直线,同样,图像中的一条直线对应参数平面上的一个点。笔记包括两个测试,基本Hough变换和概率Hough变换的直线检测。

2017-10-20 20:16:30 7569

原创 卷积神经网络做图像风格迁移的项目代码笔记

算法来源 CVPR 2016 的文章 “Image Style Transfer Using Convolutional Neural Networks”。主要是利用一个已经在ImageNet 上训练好的卷积神经网络 VGG-19。有代码参考和理解笔记。

2017-10-18 20:55:37 5737 16

原创 深度学习中的梯度下降优化算法笔记

梯度下降方法是目前最流行的神经网络优化方法,并且现在主流的深度学习框架(tensorflow,caffe,keras,MXNET等)都包含了若干种梯度下降迭代优化器。我们在搭建网络的时候,基本都是拿它们封装好的函数直接用。实际上这些算法在不同情况可能有很大的性能差异,弄清楚它们的原理差异,有助于我们分析。参考文章:梯度下降优化方法总结 梯度下降(gradient descent,GD)...

2017-09-20 20:44:01 1799

原创 机器学习中的标准化/归一化

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在一些数据比较和评价中常用到。典型的有归一化方法。归一化方法的主要有两种形式:一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。笔记的目的是弄清概念,和python的实现。

2017-09-20 20:20:35 12083

原创 python存储16bit和32bit图像

笔记:python中存储16bit和32bit图像的方法。说明:主要是利用scipy库和pillow库,比较其中的不同。

2017-09-13 14:24:48 9995

原创 screen命令 | tee命令

Screen是一个可以在多个进程之间多路复用一个物理终端的窗口管理器。Screen中有会话的概念,用户可以在一个screen会话中创建多个screen窗口,在每一个screen窗口中就像操作一个真实的telnet/SSH连接窗口那样。

2017-09-11 21:27:48 1508

原创 【LeetCode】Anagrams(笔记)

DescriptionGiven an array of strings, return all groups of strings that are anagrams.ExampleGiven ["lint", "intl", "inlt", "code"], return ["lint", "inlt", "intl"].Given ["a

2017-09-07 18:27:13 340

原创 【LintCode】Sort List(笔记)

DescriptionSort a linked list in O(n log n) time using constant space complexity.ExampleGiven 1->3->2->null, sort it to 1->2->3->null.Notes主要思想就是如何对链表作归并排序。1.归并排序的思想2.寻...

2017-09-01 17:52:47 287

统计学习方法-课程讲义

清华大学课程《统计学习方法》讲义PPT,课程包含k-nearest,Naive Bayes,CART,SVM,Boost方法,EM算法,HMM,CRF等

2018-02-07

机器学习与自然语言处理-课程讲义PPT

北京大学王厚峰老师课程《机器学习与自然语言处理》PPT,可参考学习

2018-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除