自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (2)
  • 收藏
  • 关注

原创 Mac M1安装tensorflow

换了新的电脑,迁移过来发现原来的tensorflow用不了,于是开启了使用M1搭建tf环境一、安装conda下载下载ARM版Miniforge3:https://github.com/conda-forge/miniforge/#download安装打开下载目录终端,运行shell脚本bash Miniforge3-MacOSX-arm64.sh激活环境变量vim ~/.bash_profile#进入文件export PATH="/Users/apple/minif..

2021-07-19 11:24:28 2105 1

原创 tf.estimator.export_saved_model保存模型

之前使用tensorflow框架做学术研究时多是生成ckpt文件,但是实际工作中,模型上线部署常用 SavedModel 保存模型,生成的模型是封闭的序列化格式,它具有语言独立性,可独立运行,并且可以简单被其他语言(python,java等)调用,SavedModel 格式是tf 2.0 推荐的格式,支持tf-serving部署,部署时很方便。好了介绍了这么多,就是希望告诉大家使用tf框架时最好直接存储成PB文件,方便之后使用。SavedModel我们首先看下SavedModel中都包含了什么

2020-11-26 17:00:28 5724 5

原创 torch.nn.Module模块简单介绍

torch.nn是专门为神经网络设计的模块化接口,nn.Module是nn中十分重要的类。在介绍该模块前,我们先看下pytorch官方对该模块的注释:根据官方注释我们了解到Module类是所有神经网络模块的基类,Module可以以树形结构包含其他的Module。Module类中包含网络各层的定义及forward方法,下面介绍我们如何定义自已的网络: 需要继承nn.Module类,并实现forward方法; 一般把网络中具有可学习参数的层放在构造函数__init__()中; .

2020-11-23 16:18:29 15586 1

原创 tensorflow生成pb模型文件及加载pb文件预测

再进入正题前,我们先介绍一下checkpoint(ckpt)和pb的区别和联系model 保存方法 结果文件 加载 ckpt tf.train.Saver() 主要的4个文件 checkpoint model.ckpt.data-xxx model.ckpt.index model.ckpt.meta tf.train.Saver() save...

2020-09-09 11:59:45 6294 1

原创 brightmart/albert_zh:加载各个预训练模型分类关于预测准确率问题

由于bert线上推理预测时间较长,考虑更换轻量级albert,参考https://github.com/brightmart/albert_zh,用自己数据集训练分类模型时遇到以下问题:1、用albert_zh(albert_tiny、albert_bas)代码跑了一下自己的数据,eval accuracy 只有0.1左右从以下几方面排查问题:a、数据(数据量,数据输入,数据噪音) b、学习率 c、训练时间经过排查学习率和epochs不变的情况下,用其他分类数据集没问题,确定是数据问题我..

2020-07-21 11:27:43 1461

原创 python将csv转存成json格式

# -*- coding: utf-8 -*-import jsonimport pandas as pddata = 'train.csv'data_csv = pd.read_csv(data)f = open("train.json", mode="a")for index, row in data_csv.iterrows(): dict_row = row.to_dict() f.write(json.dumps(dict_row, ensure_ascii=F.

2020-07-17 09:45:54 1349

原创 mac用rz往服务器上传压缩包失败显示乱码

rz -be弹出窗口后选择要上传的文件即可

2020-07-02 17:06:26 1040

原创 Tf-serving+Nvidia-Docker+REST API+Tornado

使用tf-serving部署服务,REST API 是我们比较熟悉的一种服务调用方式,请求的数据格式一般为json格式,由于模型需要输入输出,因此结合tornado实现模型服务部署1、docker环境下载安装docker,若使用gpu安装nvidia-docker2、镜像拉取 :cpu: docker pull tensorflow/servinggpu: docker pull tensorflow/serving:latest-gpu3、克隆仓库mkdir -p /tmp/t

2020-07-02 14:22:37 552

原创 安装tensorflow1.15 报错ERROR: Cannot uninstall wrapt

解决方法:pip install -U --ignore-installed wrapt enum34 simplejson netaddr

2020-06-12 15:27:43 461

原创 逻辑回归及其公式推导

一、什么是逻辑回归逻辑回归是一种用于解决二分类问题的机器学习方法,简单来说就是用来表示某件事发生的可能性。比如:你患有糖尿病的可能性; 你点击某个广告的可能性。二、逻辑回归vs线性回归 类型 变量 是否符合线性关系 应用 逻辑回归 分类 连续 符合 判断习惯是否为好瓜 线性回归 回归 离散 可以不符合 银行预测某人的信用分数 线性回归简单来说是描述了最佳一条拟合输入变量和输出变量的之...

2020-05-12 19:52:33 2920

原创 协方差和相关系数

一、协方差1、定义:用于衡量两个变量的总体误差。通俗的理解为两个变量在变化过程中是否同方向,公式如下: 如公式所示,如果有X,Y两个变量,每个时刻,X值与其均值()之差乘Y值预期均值之差得到的值加和,再求均值(公式为:)。若X变大,Y也变大,两个变量的变化是同向的,协方差为正值。若X变大,Y变小,两个变量变化是反向的,协方差为负值。协方差越大,两个变量之间的同向程度就越大。2、作用:衡量两个随机变量之间的相互关系二、...

2020-05-11 18:18:38 13386

原创 linux运行和关闭后台python任务

1、在后台运行任务nohup python -u service.py > out.log 2>&1 & ###service.py为要运行的程序2、查看后台任务,获取任务PIDps -aux3、关闭后台运行任务kill -9 PID...

2020-01-07 15:54:28 3478

原创 linux下用pip安装虚拟环境

需要在服务器上安装两个版本的tensorflow,之前用conda在linux下创建过虚拟环境,奈何公司分配的服务器直接安装的python3,又懒得卸载,尝试用pip创建虚拟环境1、首先使用pip命令安装virtualenv模块:pip3 install virtualenv2、查看安装的virtualenv版本virtualenv --version结果显示virtual...

2020-01-06 17:27:42 944

原创 用清华镜像快速安装tensorflow、numpy

1、安装tensorflow​pip install tensorflow==1.13.1 -i https://pypi.tuna.tsinghua.edu.cn/simple2、安装tensorflow-gpupip install tensorflow-gpu==1.13.1 -i https://pypi.tuna.tsinghua.edu.cn/simple3、安装n...

2020-01-06 17:13:13 9273 5

原创 secureCRT 实现windows和linux文件/文件夹互传

方法一:1、打开SFTP会话,如图所示2、上传文件(windows-->linux),直接将本地文件/文件夹拖到SFTP窗口即可3、下载文件(linux-->windows),sz filmname(filname文件名);sz dir/*(下载dir文件夹下的所有文件,dir文件夹名)方法二:1、打开SFTP会话,pwd查看linux工作目录,lpw...

2020-01-02 17:18:32 966

原创 UnimplementedError (see above for traceback): TensorArray has size zero, but element shape [?,100]

tensorflow报错UnimplementedError,经查证当有空数据输入输入模型是会报错,tensorflow训练实体识别模型是以空行划分句子,包这个错可能是训练集中有连续的两行空行...

2019-11-04 08:53:57 1854

原创 centos7用清华镜像安装pytorch

安装pytorch时用命令conda install pytorch torchvision cudatoolkit=10.0.130 -c pytorch,你会发现速度实在是太慢了,而且安装过程中由于安装依赖等,可能中断,就很痛苦~发现有可用清华源安装conda config --add channels https://repo.continuum.io/pkgs/free/co...

2019-10-16 14:18:17 1669

原创 执行命令sudo vim ~/.bashrc添加环境变量后输入ls无效

输入命令:export PATH=/usr/bin:/bin输入命令:ls -avim .bashrc后将自己添加的环境变量删除激活source .bashrc,命令回复

2019-10-12 19:49:46 2377

原创 pip安装第三方库超时问题

pip install tensorflow==1.4时报错pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.解决方法:pip --default-timeout=200 install -U ...

2019-10-11 11:26:48 324

原创 python按比例拆分数据为训练集、测试集

以98年人民日报日报为例,将数据按8:2拆分成训练集和测试集# -*- coding: utf-8 -*-import random"""随机按比例拆分数据"""def split(all_list, shuffle=False, ratio=0.8): num = len(all_list) offset = int(num * ratio) if ...

2019-08-16 10:27:33 11062 3

原创 双向最大匹配法分词

# -*- coding: utf-8 -*-class BiMM(): def __init__(self): self.window_size = 3#字典中最长词数 def MMseg(self, text): result = [] index = 0 text_length = len(text)...

2019-08-14 11:12:59 1091

原创 numpy.genfromtxt读取本地文件

bd = np.genfromtxt('F:/beijing/final.csv', encoding='utf-8', dtype='U75', delimiter=',', skip_header=1)print(bd[:, 0:2])dtype转换数据类型,关键字设置为'U75', 不设置dtype,输出数据类型为nandelimiter=','表示数据由逗号分隔skip_he...

2019-08-12 15:53:11 8111 6

原创 正则表达式的基本使用

import restr = '李明的身高是1.78m,而我只有1.60m'#re.search匹配会返回一个match对象,否则返回Nonematch = re.search('\d+.\d+\w*', str)print(match)print(match.group())#re.match是从字符串开头进行匹配,re.search可以在字符串任何位置匹配(在字符串中寻找匹...

2019-08-01 10:29:58 140

原创 python将txt数据写入excel,每个txt文件在Excel中为一行

# coding=utf-8import osimport xlwt"""txt数据写入excel,每个txt数据占一行2018.12.26"""l = []file_path = 'F:/beijing/聊天记录.xls'#要写入的文件f = xlwt.Workbook()##在已有excel中插入数据# f = xlrd.open_workbook(file_pat...

2019-06-04 18:06:40 4281 1

原创 python合并多个txt

# -*- coding:utf-8 -*-import os"""合并多个txt"""# 获取目标文件夹的路径path = "F:/bj/新建文件夹/内容"# 获取当前文件夹中的文件名称列表filenames = os.listdir(path)result = "result/merge.txt"# 打开当前目录下的result.txt文件,如果没有则创建file ...

2019-06-04 17:47:10 15508 5

原创 pyltp实现句法分析并画出句法图

windows下安装pyltp: 1、下载python对应版本的pyltp wheel文件(以python3.6为例) 2、在wheel文件所在的目录打开cmd,输入命令 pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl下载开源的ltp_data文件(包括ltp训练好的模型): 1、下载地址https://pan.baid...

2019-06-04 17:25:00 3548 2

原创 Windows下如何正确import CRFPP

1、下载Linux版的CRF++,在wondows下import CRFPP,需要现在linux版的CRF++中编译2、在CRF++-0.58(linux版)\python文件下打开cmd命令窗口,以此执行: python setup.py build python setup.py install3、将CRF++中的libcrfpp.dll复制...

2019-05-29 09:39:24 1399

原创 LaTex在线编辑工具overleaf在英文模板中输入中文

在英文模板里编辑中文,只需在模板开头引入包xeCJK,如图所示。然后在\begin{document}和\end{document}中直接输入中文即可

2019-05-17 09:05:30 7011 4

原创 CRF++报错conlleval: unexpected number of features in line x x x

crf++用命令conlleval.pl < output.txt < result.txt评估结果计算准确率时报错conlleval: unexpected number of features in line x x x原因是源码中默认是用空格为分隔符。但实际上crf++使用的是tab做分隔符,将几列认为是1列改为:conlleval.pl -r -d "\t" &lt...

2019-04-26 21:04:15 1917 1

原创 基于word2vec和k-means的词聚类

import refrom sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpyfrom gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentencefrom sklearn import m...

2019-04-21 18:16:35 7908 16

原创 linux下conda创建虚拟环境

1、查看conda当前使用源conda config --show-sources2、添加指定源由于Anaconda.org的服务器在国外,下载速度慢,而且可能报错CondaHTTPError: HTTP 404 NOT FOUND for url <https://mirrors.tuna.tsinghua.edu.cn/ananconda/pkgs/main,清华镜像源有An...

2019-03-20 20:48:38 3835 1

原创 【python】提取excel中的某一列数据

import xlrddef extract(inpath): data = xlrd.open_workbook(inpath, encoding_override='utf-8') table = data.sheets()[0]#选定表 nrows = table.nrows#获取行号 ncols = table.ncols#获取列号 ...

2019-03-11 15:09:44 61589 14

原创 win64将python程序打包成在win32下可执行的exe文件

使用环境说明:win10 64位,已安装python3.6-64位版本遇到的问题:win10 64位打包成exe文件后,不能在32位系统运行需求:使用python打包生成exe文件,win64位和32位exe均可运行解决方法:不需要更换成32位的电脑,再进行封装,只需将python改为32位即可1、下载安装32位python3.5(不限制版本号),下载地址https://www....

2019-02-28 18:00:35 14913 2

原创 python3 cmd运行程序 编码错误:UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f3c7' in position

在控制台打印内容时报编码错误,“gbk”编解码器无法编码字符\u0001f3c7但是在Pycharm中打印不报编码错误,且输出格式为“utf-8”说明在控制台打印时编码被转换了,而“gdk”无法编码unicode的某些字符解决方法:按组合快捷键“win+ R”打开运行,输入cmd,打开命令提示符输入 chcp显示默认编码 936,即“gbk”编码输入 chcp ...

2019-02-28 11:59:11 1182

CRF++-0.58

在Windows下使用CRFPP,需要Linux版的CRF++,编译是在Linux版的CRF++中完成。

2019-05-29

msra实体识别与分词语料

msra语料包括实体识别(NER)和分词(seg)已标注数据,包括已标注的训练集和测试集,实体识别采用BIO标注,分词采用BM1M2MES六标注

2019-04-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除