自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

tianyunzqs的专栏

【纯干货分享,个人学习笔记】欢迎关注个人公众号:NLPer笔记簿

  • 博客(75)
  • 资源 (12)
  • 收藏
  • 关注

原创 Dockerfile中安装crontab

在docker中安装crontab的时候,踩了一些坑,在此记录一下。

2022-06-27 08:53:12 1572 1

原创 bazel编译tensorflow源码

在安装完tensorflow CPU版本后,经常看到如下的警告,该警告虽说可以通过一些python语句来忽略(忽略方法),但总有点眼不见为净的感觉。Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA该警告本质上是说由于机器的CPU支持AVX2的优化,但是安装的tensorflow包没有利用该优化。另一种解决该警告的方式是自己手动编译tensorflow安装包。自己手动

2021-05-08 19:30:56 7667 4

原创 tensorflow/serving部署keras模型

之前写了一篇tensorflow/serving部署tensorflow模型的文章,记录了详细的操作步骤与常见的错误及解决方案,具体见:TensorFlow Serving模型转换与部署本文主要记录tensorflow/serving部署keras模型过程中的一些重要步骤,以便后续查阅。我们在keras中保存模型通常用model.save或者model.save_weights函数。其中,model.save函数保存的模型往往比的是模型的结构与权重,而model.save_weights函数保存的仅仅

2021-04-30 14:46:15 443

原创 机器学习常见评价指标

在机器学习或深度学习中,评价指标是衡量一个模型效果好与坏的标准。本文主要介绍一些常用的评价指标,包含:准确率(accuary)、精准率、召回率、F1值、PR曲线、ROC曲线、AUC等。在介绍这些评价指标之前,我们先来看一个简单的例子。对于舆情预警,判断一段舆情文本数据是否需要预警,其结果有两种:预警、不预警。如果有100条舆情文本,模型A预测为预警的样本数为25,其中这25个样本经过人工验证,发现有20个是真正需要预警的数据,另外的5条不需要预警;预测为不预警的样本数为75,其中这75个样本经过人工

2021-04-28 17:29:01 1819 3

原创 metrics.classification_report函数记录

机器学习/深度学习中,我们经常使用sklearn包中的metrics.classification_report来输出评价指标。本文主要是通过示例方式来记录该函数的常见输入与输出的含义。示例1>>> from sklearn.metrics import classification_report>>> y_true = [0, 3, 2, 2, 1, 1, 4, 3, 2, 4, 1, 0, 0]>>> y_pred = [0, 3, 1, 2

2021-04-27 11:50:41 2389 1

原创 【其他工具】亲戚关系计算器

转眼间又快到春节了,去年的春节由于疫情原因促生了云拜年,经过众多白衣天使的艰苦奋战,今年春节整体环境好了很多,但疫情防控仍然不能松懈。春节期间免不了给七大姑八大姨拜年的传统习俗,在中国的亲戚的关系"错综复杂",有时候一些亲戚该怎么称呼可能都不太清楚。这时,机智的程序员创造出了亲戚关系计算器。目前网上各种版本都已比较成熟,在此就不做过多介绍了,本文主要介绍亲戚计算器实现中的一些语法与其他小细节。并对以下的python版本进行一些细节上的优化。参考版本:https://zhuanlan.zhihu.com

2021-02-03 15:17:07 941

原创 【NLP】BERT常见问题汇总

本篇文章是在之前文章《【NLP】BERT模型解析记录》的基础上,主要记录BERT模型的相关细节问题,并以QA形式表述。文中会标注相关出处,如遇未注明或出现错误,请告知。如遇侵权,请告知删除~1.讲讲bert的结构bert结构大体上可分为输入、N层transformer的encoder和输出三部分组成。输入由token embedding、segment embedding和position embedding三部分相加组成;N层transformer的encoder,在bert_base中N=12

2021-01-29 10:00:03 1060

原创 【NLP】BERT模型解析记录

1.bert简单介绍BERT(Bidirectional Encoder Representations from Transformers)是谷歌在2018年10月份的论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》中提出的一个预训练模型框架,发布后对NLP领域产生了深远影响,各种基于bert的模型如雨后春笋般涌出。在此对bert模型做一个简单的记录用于后期学习参考,文中会标注相关出处,如遇未注

2021-01-29 09:50:49 413

原创 根据端口号定位项目代码目录

在工作中,当领导让你维护一个对外提供服务的接口,而此时除了接口地址外,关于该接口的文档或代码均不知道在哪,此时心里虽然是崩溃的,但是还是得想办法完成任务。完成任务的第一步就是根据接口地址找到该项目所在位置,该步骤只需简单的两个Linux命令即可搞定。根据接口地址的ip或域名我们可以找到对应的服务器,而根据接口的端口号我们可以找到项目在服务器中的位置。1.根据端口号寻找进程号netstat -anp | grep 6800执行命令后,系统就会列出所有匹配到该端口号的进程,下图中的最后一列4884就是

2021-01-29 09:43:54 427

原创 【踩坑记录】TypeError: can‘t pickle SwigPyObject objects

笔者利用keras训练模型时,当程序运行到保存模型model.save('model.h5')的时候,报如下错误TypeError: can't pickle SwigPyObject objects根据错误提示,可以看到在对模型进行序列化保存的时候,出现了不支持序列化的对象,也就是SwigPyObject对象。然而模型都可以跑通,但是为什么会在保存模型的时候报这样的错误呢?建模过程中也没有引入其他的算子啊,都是模型支持的操作,目前还未搞清楚,但是还是可以通过一种迂回的方法来解决该问题的。既然直接

2020-12-18 16:29:15 2939 1

原创 【基础算法 】文本相似度计算

在自然语言处理中,文本相似度是一种老生常谈而又应用广泛的基础算法模块,可用于地址标准化中计算与标准地址库中最相似的地址,也可用于问答系统中计算与用户输入问题最相近的问题及其答案,还可用于搜索中计算与输入相近的结果,扩大搜索召回,等等。基于此,现将几种常见的文本相似度计算方法做一个简单总结,以便后续查阅,本文所有源码均已上传到github。1.字符串相似度字符串相似度指的是比较两个文本相同字符个数,从而得出其相似度。python为我们提供了一个difflib包用于计算两个文本序列的匹配程度,我们可以将

2020-11-30 23:03:41 7393

原创 Linux安装tmux

1.tmux简介tmux(terminal multiplexer),终端复用器,该工具可以使得用户管理多个运行中的终端会话窗口,用户退出tmux时,可以使得终端会话窗口在后台继续运行而不受影响。比如,我们需要运行一个python脚本,直接输入python3 test.py,我们知道在断开服务器连接时,该脚本就会终止运行,而当该脚本运行于tmux中时,即使用户断开服务器连接,该程序也不会终止,当用户再次进入tmux时,还可看到该程序的运行状态与结果。#2.tmux安装tmux可通过在线与离线方式安装

2020-11-30 23:00:50 13840 9

原创 【基础算法】word2vec词向量

1. 简介word2vec是一个3层(输入层、投影层和输出层)结构的浅层语言模型,分为CBOW和skip-gram两种模型结构。CBOW是输入上下文来预测当前词语,而skip-gram是输入当前词语来预测上下文。其模型结构如下图所示而基于这两种模型结构,word2vec作者又提出了两种改进方法,用来提升模型训练速度,因此,word2vec可细分为四种模型:1). 基于Hierarchical Softmax的CBOW模型2). 基于Hierarchical Softmax的skip-Gram模型

2020-11-21 16:32:32 879

原创 github下载速度慢?试试这个

从github仓库clone代码或数据到本地的,国内网速有时候是真的慢,装上一个google插件,下载速度立马飙升,确实好用~看看google应用商店的评价就知道了,好评如潮在Chrome应用商店搜索github加速即可。如果不能上Chrome应用商店,可关注笔者个人公众号【NLPer笔记簿】,回复加速器即可获取离线安装包与安装步骤。安装完插件后,再次进入github,节目上会增加加速和镜像两个功能按钮实测效果如下,速度竟然可以达到3M/s,it‘s amazing...

2020-11-20 18:51:32 101

原创 docker相关问题记录

本文是之前 docker从入门到实践 这篇文章的一个续集,用于记录docker在使用过程当中所遇到的一些问题与对应的解决方案。由于作者才疏学浅,难免会有错误或片面之处,还请谅解!1. docker容器内vim命令中文乱码进入docker容器内部后,利用vim命令打开文本文件,出现中文乱码。解决方案1:在进入容器的时候,带上编码docker exec -it container_id env...

2020-01-20 15:43:53 186

原创 TensorFlow Serving模型转换与部署

文章目录1. TensorFlow Serving安装1.1. 拉取镜像1.2. 下载官方代码1.3. 运行TF Serving1.4. 客户端验证2. 将ckpt模型转换为pb模型3. 模型部署4. 多模型部署4.1 多(单)用户单模型4.2 多(单)用户多模型4.3. 接口请求5. 新增模型6. 可能出现的错误错误1:错误2:错误3:错误4:错误5:错误6:错误7:错误8TensorFlow...

2020-01-05 14:41:35 3293 4

原创 基础算法 | 决策树(ID3、C4.5和CART决策树python实现)

决策树(Decision Tree)是一种基于规则的基础而又经典的分类与回归方法,其模型结构呈现树形结构,可认为是一组if-then规则的集合。决策树主要包含三个步骤:特征选择、决策树构建和决策树剪枝。典型的决策树有ID3、C4.5和CART(Classification And Regression),它们的主要区别在于树的结构与构造算法。其中ID3和C4.5只支持分类,而CART支持分类和...

2019-12-25 09:10:07 2307 2

原创 常用工具 | 字典树

字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。字典树有如下三个性质:1.根节点不包含字符,除根节点外每一个节点都只包含一个字符;2.从根节点到某一节点,路径上...

2019-12-18 14:42:27 293

原创 pandas读写Excel文件

pandas是基于numpy的一个数据分析python包,pandas读取Excel文件需要导入pandas包import pandas as pd下面简单记录pandas对excel的读写操作,以便后续查看。现有文件example.xlxs如下1.pandas读Excel文件读取excel文件,并将读入的数据转换为DataFrame格式# 读取exceldata = pd.re...

2019-11-27 11:21:52 1736

原创 LSTM解决RNN梯度消失与梯度爆炸问题

​​<>St=δ(WSt−1+UXt)Ot=δ(VSt)S_{t} = \delta(WS_{t-1} + UX_{t}) \\O_{t} = \delta(VS_{t})St​=δ(WSt−1​+UXt​)Ot​=δ(VSt​)

2019-11-26 15:09:17 2073

原创 docker从入门到实践

  本文的主要目的是帮助零基础的读者快速上手docker,并掌握一些相关的常见命令。同时,本文也是作者对学习docker的一个笔记记录。本文主要是从实例出发,讲解一些docker的基本操作,若有不妥或错误之处,烦请指出,不胜感激!  PS:关于docker的原理性的介绍不在本文范围内,只要记住一点:docker是一个独立的小型操作系统,可配置各种环境以满足你的代码需求。  操作系统:Cento...

2019-10-30 18:28:24 609

原创 supervisor安装与配置

Supervisor是用Python开发的一个client/server服务,是Linux/Unix系统下的一个进程管理工具,不支持Windows系统。它可以很方便的监听、启动、停止、重启一个或多个进程。用Supervisor管理的进程,当一个进程意外被杀死,supervisor监听到进程死后,会自动将它重新拉起,很方便的做到进程自动恢复的功能,不再需要自己写shell脚本来控制。1.supe...

2019-09-23 12:41:34 167 2

原创 gevent实现python并发api接口

公司之前算法对外提供服务都是通过flask框架生成的api接口的形式,而最近项目中需要提高算法api接口的并发性能,通过分析flask对外api接口发现,该api接口是串行的方式,也即阻塞的形式进行数据处理的(前一条数据处理完成,才会进入下一条数据的处理)。因此,将flask提供api接口改为gevent,改用gevent后,算法接口在并发性能上提升效果明显,下面简要记录一下,做个笔记。测试工...

2019-09-21 07:08:02 867

原创 逻辑回归(Logistics Regression)

逻辑回归,虽然名字中带有“回归”,但却是解决分类问题的一种基础算法。本文主要介绍其原理。逻辑回归采用最大似然概率作为其损失函数,最大似然概率为:对于二分类问题将以上(2)和(3)进行合并将(4)代入(1),再取对数其中,则,逻辑回归的损失函数可写为:对和求导.训练过程中,参数更新...

2019-06-18 15:20:08 93

原创 分类问题中,常选择交叉熵损失函数而不是MSE损失函数

均方误差(Mean Square Error, MSE)损失函数:对求偏导(对求导类似):交叉熵损失函数: 对求偏导(对求导类似):ps:以上公式中,激活函数取sigmod激活函数参数更新过程:对比公式(2)和(4)可知:MSE损失函数在参数更新的过程会依赖激活函数的偏导数,当激...

2019-06-17 15:41:41 943

转载 TOMCAT环境变量配置

转载来源:https://www.cnblogs.com/kixuan/p/7272456.html一、安装目录:D:\java\apache-tomcat-8.5.14二、配置环境变量:1、新建 CATALINA_BASE,变量值:D:\java\apache-tomcat-8.5.142、新建 CATALINA_HOME,变量值:D:\java\apache-tomcat-8.5.143、编辑...

2018-06-11 15:23:41 3196 1

转载 awk 内置函数详解

原文地址:http://www.361way.com/awk-builtin-function/4935.html本文承接上篇 linux awk 内置变量,本篇总结下awk内置函数。awk内置函数主机分为如下几种:数学函数、字符串函数、时间函数、其它函数。一、数学函数以下算术函数执行与 C 语言中名称相同的子例程相同的操作:函数名说

2018-01-31 18:41:25 592

转载 linux awk 内置变量

原文地址:http://www.361way.com/awk-built-in-variable/4932.html一、内置变量表属性说明$0当前记录(作为单个变量)$1~$n当前记录的第n个字段,字段间由FS分隔FS输入字段分隔符 默认是空格NF当前记录中的字段

2018-01-31 18:40:02 237

原创 centos搭建hadoop单机模式与伪分布模式

一、安装jdk安装过程可参考http://blog.csdn.net/tianyunzqs/article/details/78758804二、添加用户,并设置免密登陆1、 添加用户1)创建用户useradd -m hadoop -s /bin/bash这条命令创建了可以登陆的 hadoop用户,并使用 /bin/bash作为shell2)之后设置登陆密码p

2017-12-23 23:21:17 1124 1

原创 访问hadoop集群时错误:Access denied for user Administrator. Superuser privilege is required

hadoop集群搭建好后,本地通过java api访问hadoop集群,java代码如下(查看hadoop集群上所有节点名称信息)import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.hdfs.DistributedFileSys

2017-12-23 15:14:19 4277

转载 Linux 忘记 用户名密码

原文地址:http://blog.csdn.net/zhanglh046/article/details/51043206一: 忘记root 密码1.  重启 Linux 操作系统2.  重启之后 Linux 在终端状态下回有一连串的环境检查,大概半分钟后会出现一个彩色的GRUB引导界面,会有5秒钟倒计时停留等待,如下图3.  出现上面的界面

2017-12-12 19:01:33 1989

原创 Linux安装Java jdk

1、    首先去官网(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html)下载需要安装的jdk源码,这里选择64位的jdk82、    通过ftp或者scp上传到Linux服务器,这里用scp:scp ./jdk-8u151-linux-x64.tar.gz

2017-12-09 13:48:47 627

转载 【Maven】maven配置默认使用的JDK版本及maven镜像

1、maven配置默认使用的JDK版本原文地址:http://blog.csdn.net/robinjwong/article/details/44853811在maven的默认配置中,对于jdk的配置是1.4版本,那么创建/导入maven工程过程中,工程中未指定jdk版本。对工程进行maven的update,就会出现工程依赖的JRE System Library会自动变成

2017-11-22 21:20:26 1640

原创 python计算两个日期的间隔天数

# -*- coding: utf-8 -*-import datetimedef is_leap(year): if (year % 4 == 0 and year % 100) or year % 400 == 0: return 1 else: return 0def get_dates(year, month, day):

2017-10-26 10:08:28 4267 2

原创 二叉树的各种操作

之前做过排序算法与单链表的总结(见前面的博文),现把二叉树的给补上。本文主要从二叉树的建立,二叉树结点个数统计,二叉树的遍历和二叉排序树几个方面进行介绍总结。1、二叉树的建立先建立二叉树的结点// 定义二叉树的结点typedef struct btreenode{ char data; // 数据域 struct btreenode *lchild; // 左孩子指针

2017-09-30 20:47:43 354

原创 TFIDF算法Java实现

一、算法简介TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘中常用的加权技术。TF-IDF的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有着广泛的应用。其具体应用包括关键词提取、文本相似度、自动摘要。TF-IDF的主要思想是如果某个词在一篇文章中出现的频率TF很高,而且在语料库中的其他文章中

2017-09-02 00:32:52 1251

转载 更改pip源至国内镜像,显著提升下载速度

原文地址:http://blog.csdn.net/lambert310/article/details/52412059经常在使用Python的时候需要安装各种模块,而pip是很强大的模块安装工具,但是由于国外官方pypi经常被墙,导致不可用,所以我们最好是将自己使用的pip源更换一下,这样就能解决被墙导致的装不上库的烦恼。网上有很多可用的源,例如豆瓣:http://pypi.d

2017-08-18 17:18:26 329

转载 Linux 求文件交集 差集等

原文地址:http://www.cnblogs.com/ywl925/p/3876314.html使用comm命令假设两个文件FILE1和FILE2用集合A和B表示,FILE1内容如下:123456abceda  

2017-08-17 17:36:08 273

原创 python爬虫(二)爬取知乎问答

都说知乎上问答的质量挺高,刚学爬虫没几天,现在对其问答内容进行爬虫实验。在知乎首页,通过输入关键词,搜索问题,之后点击问题找到该问题对应的网友回答。根据该过程,爬虫过程需要分为两步:1、通过关键词(Java)搜索问题,得到url=https://www.zhihu.com/search?type=content&q=java,根据该url爬取该页面下所有的问题及其对应的问题id;2

2017-08-13 00:23:04 1450

原创 python爬虫(一)爬取糗事百科

最近需要收集语料,因此学习了一些爬虫的知识,参考网上对糗事百科的爬虫,编写了如下代码#!usr/bin/env python# -*- coding: utf-8 -*-import refrom urllib import requestfor page in range(1, 2): print(page) url = 'http://www.qiushibai

2017-08-12 23:46:33 320

C语言经典动态规划问题

最长递增公共子序列、最长公共子串、最小编辑代价等经典动态规划问题的详细代码

2015-12-14

C语言实现二叉树的创建、插入、删除、遍历等操作

C语言实现二叉树的创建、插入、删除、遍历(先序、中序、后续、深度优先、广度优先)、计算度为0,1,2的节点个数。 包括排序二叉树的实现

2015-12-14

约瑟夫环问题的链表和数组两种解法

约瑟夫环问题的链表和数组两种解法 设有N个人围坐一圈并按顺时针方向从1到N编号,从第S个人开始进行1到M报数,报到第M个人时,此人出圈,再从他的下一个人重新开始1到M的报数,如此进行下去直到所有的人都出圈为止,打印出圈次序。

2015-12-08

C语言编写的星期算法

C语言编写的星期算法 在VC环境下编译通过

2014-01-17

max187程序

max187程序,10位AD转换器max187程序,经过验证可以运行

2014-01-17

51单片机的简易计算器

51单片机的简易计算器 通过数组的方式实现的加减乘除四则运算

2014-01-17

在51单片机上实现的C语言编程的可定时数字时钟

在51单片机上实现的C语言编程的可定时数字时钟,可以设定定时时间,误差比较小

2014-01-17

pca实例1文档说明

PCA详细实现步骤和说明,适合初学者。强烈推荐!

2013-12-26

VC++6.0当中出现的致命错误

解决VC++6.0当中出现的致命错误,这个方法很有效,有用

2013-11-18

matlab下编写的万年历

matlab环境下编写的万年历,可实时跟踪当前月份并显示当前月份的日历

2013-11-18

matlab下编写的劳斯判据

适用于任意阶系统的稳定性判定,在matlab环境下编程实现的劳斯判据

2013-11-18

matlab 自制万年历

通过matlab编写的一段万年历的源代码

2012-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除