自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (7)
  • 收藏
  • 关注

原创 C++后台开发学习路线

一、语言基础1 语法基础重点掌握:(务必熟悉底层机制原理)指针和引用的概念指针与内存关系程序编译过程static、const、#define的用法和区别C和C++区别内存模型内存中的栈和堆分配2 面对对象基础(务必熟悉底层机制原理)面向对象理解析构函数构造函数拷贝构造多态纯虚函数和虚函数虚函数实现机制虚函数表访问限定符 public、private、protected继承原理、虚继承、菱形继承静态绑定和动态绑定new/delete和malloc/free重载

2020-08-26 15:28:12 1059 1

原创 服务机器人问答纠错模块总结

现有客服机器人处理顺序,先通过ASR技术将语音转文本或直接使用客户端输入的文本得到客户输入的问题文本,再处理该文本。得到正确的文本是所有NLU处理的起点与基础。本文介绍的纠错主要是基于ASR系统转换之后的纠错。语音系统中语音内容识别(ASR)的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文本可能包含错误,继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASR的query文本进行预处理纠错成了

2020-07-15 16:04:57 1227

原创 Windows10内置Linux子系统安装及C++编程环境配置

Windows10内置了Linx内核,可以安装Ubuntu子系统,比安装双系统和虚拟机更加方便。1、设置界面设置开发者选项2、然后按照以下步骤启动或关闭Windows功能:控制面板->程序与功能->启动或关闭Windows功能,在适用于Linu的Windows子系统栏进行勾选。3、再通过应用商店进行Ubuntu安装4、首次打开Ubuntu,需要设置用户名和密码首次打开装好的Ubuntu,需要按着提示一步步设置用户名以及密码。5、更换为国内源,以便快捷搜索直接用

2020-07-15 14:08:09 1597

转载 2020 年 中英文拼写纠错开源框架梳理

一、中文:1、Pycorrector:https://github.com/shibing624/pycorrector当前主流的中文纠错框架,支持规则和端到端模型2、FASPell:https://github.com/iqiyi/FASPell/blob/master论文:https://www.aclweb.org/anthology/D19-5522.pdf使用bert进行预训练+微调,再经过CSD过滤器得到最终结果。支持简体中文文本; 繁体中文文本; 人类论文; OCR结果等3

2020-07-09 10:01:49 1615

转载 部分数据集

为防丢失,进行记录大学公开数据集(Stanford)69G大规模无人机(校园)图像数据集【Stanford】http://cvgl.stanford.edu/projects/uav_data/人脸素描数据集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html自然语言推理(文本蕴含标记)数据集【NYU】htt...

2020-01-09 11:27:01 15205

原创 Ubuntu gitlab 操作手册

1、Ubuntu 配置 ssh Keys打开电脑终端,生成ssh的key输入命令: ssh-keygen -o -t rsa -b 4096 -C "登录邮箱"注意: -C 后面的邮箱,是你自己注册的时候的邮箱成功之后的结果2、gitlab中添加ssh key终端输入:cat ~/.ssh/id_rsa.pub,将你的key拷贝出来添加到gitlab中设置中,Add ...

2019-12-02 14:55:42 643

转载 梯度优化讲解

预防过拟合常用的方法有L1、L2正则化,Dropout 正则化、Data Augmentation、Early Stopping 等。本文将重点介绍如何使用梯度优化来使神经网络训练更快更有效率。mini-Batch 梯度下降神经网络反向传播的过程需要使用梯度下降算法来优化网络参数,迭代更新。梯度下降算法做法是每次训练都使用全部 m 个训练样本(称为 Batch)。该做法的缺点是当m很大...

2019-11-22 17:27:50 745

原创 自然语言处理的数据增强分析☞Easy Data Augmentation

自然语言处理的EDA-最简单数据增强探索性数据分析论文原文详情:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks论文英文代码:代码中国大哥做的中文扩展代码:代码 数据增强常用于计算机视觉。翻折、旋转或镜像一幅图片,改变相应的标记便是可以的。然而,在自然语...

2019-09-27 16:03:47 932

原创 pylucene之FSDirectory

Lucene是一套用于全文检索和搜寻的开源程序库。使用Pylucene可以简单的帮助我们完成对采集到的信息进行处理,包括索引的建立和搜索java中首先:Directory是Lucene对文件系统的操作, java 中 FSDirectory有三个子类SimpleFSDirectory、MmapDirectory、NIOFSDirectory; FSDirectory是一个...

2019-08-21 17:30:35 390

原创 语种识别之音频处理

基本原理: 语种识别,根据一段音频判断该音频是英语、中语还是法语,即判断音频的语种。语种识别项目的整体思想就是把语音数据转换成相应的语谱图或者MFCC特征,再对特征进行分析,从而判断出该语音数据的语种类别。公开数据集: Topcoder 竞赛 数据(44.1khz 的 mp3 录音,每条 10 秒,176 种语言合计 66176(176*376)条数据,诸多小语种),网址如下。...

2019-08-14 17:59:01 3736 2

原创 PyTorch Dataset Dataloader加载自定义多分类数据,重写Dataset类

不多说,直接上源码我做的是语种分类的项目,所以直接上了,里面有些介绍。还是先简要介绍,继承torch.data.dataset,然后重写init、len和getitem方法。代码如下:import osimport torchimport librosaimport librosa.displayimport matplotlib.pyplot as pltimport...

2019-08-05 20:03:23 4153

原创 ubuntu 16.04 安装neo4j,详细步骤(实验多次悟出的结晶)

首先使用Debian repository:     wget -O - https://debian.neo4j.org/neotechnology.gpg.key | sudo apt-key add -     echo 'deb https://debian.neo4j.org/repo stable/' | sudo tee /etc/apt/sources.list.d/n...

2018-12-14 17:11:58 2949

转载 Windows10下VS2017+caffe2

平台:Windows10_x64工具:VS2017,anaconda3(python3.6),Cmake    在GitHub下载caffe2源码:https://github.com/caffe2/caffe2,最好是clone,不要下载.zip会缺少包,可以用VS下载。然后打开caffe2/scripts,用命令行或者powershell运行build_host_protoc.sh,然...

2018-08-19 12:53:35 2092

原创 ubuntu16.04 caffe python2.7 cpu 安装

 在工作之中,很多时候我们需要同时使用Windows系统和ubuntu系统做开发。对于有钱大佬来说可以选择两台电脑一台Windows和一台ubuntu。而对于普通办公人员可以选择装一个虚拟机。实现共存。  而本文主要讲解如何在ubuntu16.04 安装caffe版本.一、依次安装依赖包依次执行以下语句,安装依赖包:sudo apt-get install libprotobuf...

2018-08-08 19:24:06 1212

转载 Ubuntu16.04 python3.6 caffe安装教程

目前搜索到的caffe配置版本多数是2.7和3.5,关于python3.6的配置基本没有.所以我配置python3.6版本的caffe.流程如下:1,配置opencv 3.4.1我们需要达到的目标是在python3中可以直接使用import cv2,其中关于编译这方面的资料很多.主要分为编译本体库,以及编译一个附加下载的库.但是在编译完成之后发现,依然无法成功import cv2.程序...

2018-08-06 16:39:38 4942 3

原创 python实现程序化翻译

    由于工作原因需要做中英文转换,故在工作之余写了一个基于google的中英文翻译,主要是中文转英文或者是英文转中文,只需要在calues值那里配置以下就好,下面代码主要是from中文toEnglish。对于某些英文水平不好的同学,这个将是你们的福音。       首先导入下面库文件,其实有些是不必要的,但是基于写插件的习惯我就全部导入了,如下:# coding=utf-8impor...

2018-08-03 16:55:39 497

原创 神经网络机器学习(一)学习笔记整理

    接触人工智能工作差不多半年时间了,现在就了解到的知识做简要回顾与总结。似乎毫无章法,但是基础知识。很多只有点,容我慢慢进行完善。    神经网络可以处理图像语音文本等数据,可以用在自动驾驶、语音助手、新闻媒体等方面。1、激活函数:作用在提高规模化的非线性化能力,模拟被激化的能力        sigmoid函数:整个区间可导、非中心对称、数据后期变化不大,趋向于1学习效率降低。...

2018-06-27 20:53:10 269 1

原创 你会爬虫吗,我来教你爬海关蜀黍

爬虫是近年来一直比较流行的,今天无聊就来和你聊聊爬虫.在例子中讲解,让你学会使用爬虫.并将自己爬取的数据保存在excel中,首先来看看网站页面就是下面这样,不得不说这个页面做的还是比较好看的    现在进入正题,首先的导入利用到的库咯  re,正则表达式;bs4,request和对excel文件夹进行操作的xlwt库.import refrom bs4 import BeautifulSoup...

2018-06-08 16:23:21 4012 7

原创 百度图片下载脚本

    最近爬虫炒的越来越火,我也想加入其中一探究竟,闲来无聊,手动修改了一个在百度网爬取图片的脚本.    一.代码详细讲解介绍:    1.头文件介绍    import itertoolsimport urllibimport requestsimport osimport reimport sys    在脚本中用到了不少库,理所当然的库有request和urllib,正则表达式...

2018-05-29 10:40:22 502 2

原创 根据输入的文件夹名称和两个txt文件名和输入的比例,将文件夹中的某类文件按比例输入到两个文件中

前不久在学习过程中遇到一学生问我这样一个问题,如下:描述:    在工作过程中,我们有一个图片文件夹以及标签文件夹,我们需要使用标签文件夹生成两个txt文件,txt文件中存放的是被打乱后的标签文件的文件名(不包括后缀),两个txt中的文件名的数量按照一定比例来,要保证两个文件中的文件名数量和是标签文件夹中文件的数量。输入:    标签文件夹名,两个txt名称,其中一个txt所含

2018-01-10 16:48:31 367 1

唐宇迪word2vec的系列代码自然语言处理

B站的唐宇迪深度学习项目实战附带的自然语言处理word2vec代码。Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

2020-07-25

LCQMC数据集.tar.gz

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。构建的方式是先针对不同的领域从百度问答中抽取高频的相关问题,然后通过Wasserstein distance进行初步筛选,最后人工进行标注。数据集一共有260068对标注结果,分为三部分,238766训练集、8802验证集和12500测试集。

2020-04-24

平安人寿谢舒翼-智能问答系统的探索与实践.pdf

3月14日,由平安寿险AI团队在Paper Weekly直播间进行的主题为「智能问答系统」的技术分享,由资深算法工程师谢舒翼主讲,其内容分5个部分:寿险的智能问答系统整体框架介绍;问句预处理核心技术; 检索和深度语义匹配技术;基于深度学习的问答排序算法介绍;算法效果评估方案.

2020-04-09

ATIS_dataset.zip

在ATIS数据集中,训练集共有4978条句子,测试集共有893条,标注有对应槽位,word2id,以及槽位id。完全是纯净数据集。

2020-01-08

软件设计师近五年考试案例分析真题及答案解析

近五年软件设计师案例分析真题及答案解析,其中软件设计师指的是能根据软件开发项目管理和软件工程的要求,按照系统总体设计规格说明书进行软件设计,编写程序设计规格说明书等相应的文档的实用性人才。

2018-07-04

python实现逻辑回归与梯度下降策略

逻辑回归是在线性回归的基础上,增加一个转化函数,能够将预测值映射到【0,1】之间,以0.5为分界线,从而达到分类的目的。其中经常用到的转化函数是sigmoid:

2018-04-26

手写数字识别代码加mnist数据集

手写识别(HandWriting Recognition)是指将在手写设备上书写时产生的有序轨迹信息化转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。直接可用

2018-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除