自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 将docker容器打包成扩展名为img的镜像

docker commit :从容器创建一个新的镜像。 -a :提交的镜像作者; -c :使用Dockerfile指令来创建镜像; -m :提交时的说明文字; -p :在commit时,将容器暂停。 docker save :将指定镜像保存成 tar 归档文件。 -o :输出到的文件。 docker commit -m "language-detection" language-detection:1.6docker image sa...

2021-05-20 17:08:43 848

原创 日语分词工具mecab安装配置以及使用

MeCab介绍mecab 是基于CRF 的一个日文分词系统,代码使用 c++ 实现, 基本上内嵌了 CRF++ 的代码, 同时提供了多种脚本语言调用的接口(python, perl, ruby 等).整个系统的架构采用通用泛化的设计, 用户可以通过配置文件定制CRF训练中需要使用的特征模板。 甚至, 如果你有中文的分词语料作为训练语料,可以在该架构下按照其配置文件的规范定制一个中文的分词系统。...

2021-05-18 15:24:04 3732

原创 kaldi平台上aishell运行时出现的问题及解决办法

问题 1:This script is intended to be used with GPUs but you have not compiled Kaldi with CUDAIf you want to use GPUs (and have them), go to src/, and configure and make on a machinewhere "nvcc" is i...

2021-05-10 17:09:06 4841 10

原创 使用urllib模块编写网络爬虫

爬虫系列文章目录第一章 使用urllib模块编写网络爬虫文章目录爬虫系列文章目录前言一、下载网页二、实现代码1.代码中无引用代理2.代码中引入代理前言网络抓取通常针对特定网站,并在这些站点上获取特定信息。网络抓取用于访问这些特定的页面,如果站点发生变化或者站点中的信息位置发生变化,则需要进行修改。一、下载网页要想抓取网页,我们首先需要将其下载下来。下面的示例脚本使用Python的urllib模块下载URL。下载时遇到的错误经常是临时性的,比如服务器过载时返回的503 Se

2021-03-09 10:57:40 159

原创 如何快速统计网站所有页面的文本字数

目录导读WinHTTrack Website Copier工具的使用python获取html文件中的文本内容导读在这里要给大家介绍的是如何快速统计网站所有页面的文本字数 ,需要用到两个工具分别是HTTrack Website Copier和python。WinHTTrack Website Copier工具的使用通过WinHTTrack Website Copier将整个网站的所有页面进行下载,接下来我们介绍工具如何使用:1.打开WinHTTrack Website Copier,下一步 2.

2021-03-04 17:06:30 4492 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除