自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 计算摄影——风格迁移

这一章来总结一下图像风格迁移相关的内容,风格迁移的任务是将一幅图作为内容图,从另外一幅画中抽取艺术风格,两者一起合成新的艺术画,要求合成的作品即保持内容图的主要结构和主体,又能够具有风格图的风格

2022-12-14 22:45:19 2480 3

原创 计算摄影——图像超分

这一节主要介绍一下基于单张图的图像超分算法。图像超分,就是要从低分辨率的图像恢复为高分辨率的图像,它在日常的图像和视频存储与浏览中都有广泛的应用。

2022-10-30 20:44:45 4134 3

原创 计算摄影——妆造迁移

妆造迁移算法是将一张人像中的妆造迁移到任何一张人像中,这是美颜算法中比较新也比较复杂的技术,这里对传统算法和深度学习算法整理一下。在妆造迁移中,实例面部皮肤特征,如雀斑、痣和瑕疵等,不应被迁移。同时目标面部固有皮肤特征也应保留。

2022-10-07 21:38:06 1950 5

原创 计算摄影——图像增强

这一部分主要梳理下图像增强相关的内容,图像增强指对拍摄后的照片进行后期的处理操作,包括亮度、对比度、清晰度、饱和度、色调等的调整。这里主要讲对比度和色调的增强。

2022-09-20 00:00:37 1338

原创 计算摄影——图像去噪(二)

这一章来整理下相关的内容,主要包括:噪声类型,评估方法,传统去噪方法,深度学习去噪方法,常用数据集,这一章主要讲后两部分。

2022-09-11 23:08:03 3333

原创 计算摄影——图像去噪(一)

这一章来整理下图像去噪相关的内容,主要包括:噪声类型,评估方法,传统去噪方法,深度学习去噪方法,常用数据集,这一章主要讲前三部分。

2022-09-04 18:41:30 3773 2

原创 计算摄影——自动构图

我们所说的构图,简单来说就是指镜头的取景范围内,对镜头中所包含的所有元素进行取舍和布局,起到突出主题,交代背景,刻画人物情感,保证图像美感的作用。常见的构图方式主要有:黄金分割构图、三分法构图、居中法构图、引导线构图、三角形构图、曲线构图、重复法构图等。......

2022-08-08 21:50:51 1663

原创 计算摄影——图像美学评分

这一章主要介绍下图像美学评分相关的内容。美学评分主要是评估图像的主观美感,一般可以用在图片筛选、相册管理等方面,比如可以基于美学评分评估出主观感受更具有美感的图片推荐作为相册封面。 图像美学使用的数据集,一般需要具备三个特征:1、覆盖面全,包含不同的内容和风格。2、进行大规模的人类研究,在赋予美学分数时符合大部分人的认知。3、针对不同的任务进行“美”的定义的微调。目前开源可用的数据集有:Photo.Net、AVA、AADB、AVA-Reviews。 传统方法的研究主要通过人类直觉

2022-06-26 21:15:49 1441

原创 MobilenetV1、V2、V3系列详解

Mobilenet系列模型作为当前主流的端侧轻量级模型被广泛应用,很多算法都会使用其作为backbone提取特征,这一章对Mobilenet系列模型V1,V2,V3做一个总结。

2022-05-03 22:20:36 7575 5

原创 端侧模型性能优化——Flops与访存量的坑

一、当下比较流行的轻量级模型以及其优化策略在学术界中,往往使用Flops来评估模型算力,其优化也是针对这一方面来优化的MobileNet:将传统conv替换为DWconv与PWconv,降低Flops,DW+PW = 传统conv,但是所需要的Flops更低,在论文中,V3Flops低于V2,且效果更好一些; octConv: 将传统conv替换为octConv,可以进一步降低Flops,其原理为卷积得到的特征中,存在高频特征与低频特征,而低频特征在卷积时可以降低分辨率,在论文中,ocv-mobi

2022-05-01 10:46:16 4005 4

转载 归纳偏置/归纳偏差/inductive bias

归纳偏置/归纳偏差/inductive bias“归纳偏差”中的“偏差”容易让人想到数据估计中估计值与真实值的差别error,会让人认为“归纳偏差”是某种需要被规避的错误、误差,但事实并非如此,inductive bias在机器学习中起到的是积极作用。更合适的翻译应该是“归纳偏置”:归纳是自然科学中常用的两大方法(归纳与演绎,induction and deduction)之一,指的是从一些例子中寻找共性、泛化,形成一个比较通用的规则的过程;而“bias”“偏置”是指我们对模型的偏好。因此归纳偏置可

2022-04-19 21:11:23 389

原创 写在最后——如何做好一个语音助手

语音助手系列文章到这里就要结束了,也正式要和语音助手say goodbye了,从2018年到2021年,经历了这个项目的从0到1,经历了日活从几千到千万,这一篇就来聊一聊作为一个nlu开发,对于如何做好一个语音助手产品的一点心得。好吧,这个文章其实是为了凑个吉利数,凑满18篇~这里再一起看下整个语音助手的文章脉络,它从技术的角度大致讲解了一个语音助手需要具备的模块和能力。如下图:除了上面的模块之外,笔者还想说,想要做好一个语音助手,或者说想要做好一款产品,其实还需...

2022-04-10 22:46:56 3692

原创 语音助手——问答型助手架构和设计

这一章我们来看一下问答型助手中的架构和设计,什么是问答型助手呢?就是主要指知识问答型,用来回复用户的问题,而不是用来操作设备,比如智能客服。问答型助手类型问答型助手一般有IRQA、KBQA(又叫KGQA)、MRCQA。IRQA:即基于检索的问答,即在问答库中检索用户问题进行回复,这要求存在和用户问题匹配的FQA对,FQA对可以是人工生成或者经过人工审核过的。适用于能够被FQA中Q匹配的问题,优点是回答的覆盖率较高(在FQA对比较全的情况下),即使对于FQA库中不包...

2022-04-03 22:18:33 4123

原创 语音助手——QU——语义角色标注及其应用

这一章我们来讲一下语义角色标注(Semantic Role Labeling (SRL))以及其在语音助手中的应用,主要分为4部分:什么是语义角色标注、为什么需要语义角色标注、如何实现、语音助手中的应用1、什么是语义角色标注语义角色标注(Semantic Role Labeling (SRL))也叫语块分析(query chunking),是一种浅层语义分析技术。给定一个句子, SRL 的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、受事者等) 和附属语义角色(...

2022-02-27 20:21:31 4636

原创 语音助手——基于语义相似度的泛化语义识别

在前面的章节中,我们讲到了,对于一个垂域BOT的识别,会有分类模型、意图槽位模型来识别其对应的语义,但是这个一般是针对已经成熟的(即积累了一定数据的)场景才可以做的,对于以下的三种场景,这种做法就不适用了:场景冷启动,即一个新的场景,线上并没有对应场景的话术,一般对于冷启动问题我们都会采用模板匹配的方式,但是其泛化能力有限,如何提高其泛化能力呢? 垂域BOT未识别的话术,即前面章节《潜在技能与未召回话术挖掘》中提到的未召回话术,这部分话术我们会将其补充到已有的场景分类、意图槽位模型中,...

2022-02-19 21:15:58 2927 3

原创 语音助手——潜在技能与未召回话术挖掘

这一节主要总结一下语音助手中对于潜在技能与未召回话术挖掘相关的内容,主要分为以下几点:1、为什么要做潜在技能的挖掘;2、如何挖掘。为什么要做潜在技能的挖掘随着语音助手日活的逐渐增多,用户需求的场景也逐渐增多,产品在定义场景时,除了基于用户群体分析以及竞品分析外,也可以基于大数据挖掘的方式来快速发现用户需求最多的场景。这也叫做热门话题挖掘,比如通过日志分析,可以发现用户在春节期间对于购买火车票的需求突然增多,此时可以快速响应搭建对应的场景能力。除此之...

2022-02-04 21:56:04 2760

原创 语音助手——指令型(任务型)助手架构和设计

这一章我们来一起看一下语音助手中,指令型(任务型)助手的整体架构和设计。一、指令型助手的应用场景 在这里,如果助手的作用是帮助用户实现某些操作,比如:语音定闹钟,语音听歌,语音导航等等,那么实现这一类任务的助手我们叫做指令型语音助手,即用户通过语音来下发某些指令,助手根据指令进行操作,从而实现解放双手,快捷操作的目的,比如下面的几个例子: 二、指令型助手架构和设计 我们在前面章节《语音助手整体架构和设计》中有讲到,指令型助手...

2021-10-27 23:03:38 2370

原创 语音助手——未来趋势

这一章我们来一起探讨一下语音助手的未来发展趋势和规划,未来的语音助手应该是什么样子的呢?下面是我个人的一些思考。1、场景的趋势:语音助手由于其使用特性,需要和机器面对面说话,这对于一些人来说其实是比较难接受的,尤其是在人多的地方,人们会感觉尴尬,所以我们很少在一些公共区域看到人们使用这些语音助手,比如银行大堂、购物商场等,当然,这也是由于语音助手的目前技术限制,效果还没有达到和真人沟通一样的效果。相对的,在一些私密性比较强的场景中,语音助手的优势就会变得很明显,比如居...

2021-10-26 21:49:39 1588 1

原创 语音助手——垂类永动机——自动化迭代框架

这一章我们一起来看一下语音助手中的自动化迭代框架,这里的自动化迭代是任务型语义的自动化迭代。一、为什么需要自动化迭代框架 首先,为什么需要自动化迭代框架呢?随着业务的发展,产品需求越来越多,语音助手中覆盖的技能也越来越多,大概有40+垂类,为了能够给用户带来更好的体验(提高日活和留存),需要对这些垂类有一个效果的评估机制,因此,我们建立了满意度评判系统:随机抽取线上日志,进行人工check,评判nlu结果是否正确,当垂类、意图、槽位、结果均正确时,则认为该条话术nlu结...

2021-10-24 23:59:10 2123 5

原创 语音助手——QU——单实体召回那些事

这一章我们一起来看一下语音助手中单实体召回的那些事,主要从以下三个方面介绍:1、什么是单实体召回?2、哪些场景下会涉及单实体召回?3、整体框架和策略?什么是单实体召回 单实体召回,顾名思义,即单个实体的召回策略,单个实体比如:应用名、歌名、电视剧名、时间、地点、人物等等,前面章节中讲到的命名实体识别(NER)就是用来识别单实体的。那么当用户在没有上下文的情况下,说了一个单实体,此时助手该如何执行呢?全部都走闲聊或者百科吗?有没有可能通过适当的单实体召回策略提高任务型场景...

2021-10-17 22:42:43 1426

原创 语音助手——QU——NER与意图槽位模型

这一章,我们一起来看一下语音助手中用到的NER与意图槽位模型,分为以下几部分:1、什么是NER?2、什么是意图槽位模型?可以有哪些设计形式?3、常用的NER与意图槽位模型有哪些?一、什么是NER NER叫做命名实体识别,即提取一句话中的实体,实体可以为时间、地点、人物、音乐名、电视剧名等,比如下面的例子:今天天气不错, 其中包含的实体为:时间:“今天”。 NER模型的本质是一个序列标注任务,即将一段文本中的每个字都打上对应的标签,一般使用的标签为:B(...

2021-10-10 23:09:56 2291

原创 语音助手——多轮会话(流程实现篇)

这一章,我们一起来看一下语音助手中的多轮会话的主要流程。这里主要讲的是开放域中的语义顺承和省略补全的实现。省略补全是指当前query不结合上文时没有明显意图,但是结合上文就可以获取到意图,而语义顺承则是本轮有意图,但是部分槽位缺失,此时结合上文就可以获取到有用的槽位信息。来看下下面的流程图: 下面对一些模块进行解释:1、用户意图识别 该模块为了识别用户意图,为正常流程中的模块,当存在意图时,则具备语义顺承的潜质,当不存在意图时,则具备省略补全的潜...

2021-09-25 22:44:41 3218 4

原创 语音助手——多轮会话(理论概念篇)

这一章我们一起来看一下语音助手中多轮对话的实现方案。在目前的语音助手的多轮实现方案中,基本分为两大部分:rule_base(基于规则)和 model_base(基于模型),从线上效果可控和快速开发的角度来看,大多数的多轮会话仍然是rule_base的,一般分为:基于有限状态自动机,或者基于对话剧本,此时可以在整个流程中的部分模块中利用model起到提高准召的效果,至于纯粹的model_base的多轮,目前还都是在学术界,在工业界中落地的很少。基本概念:1、封闭域的多轮会话 ...

2021-09-23 23:10:11 2471

原创 语音助手——助手中用到的那些分类模型

这一章,我们来一起看一下语音助手中用到的那些分类模型。首先,什么地方需要用到分类模型呢?有以下几种情况:场景分类 任务、闲聊、问答分类 BOT内部分类这一类分类主要起的作用为:辅助DM进行BOT的分发和排序 避免全量query流经某个BOT,减轻下游服务压力 各个BOT应该有具备识别query是否属于自己领域的能力除此之外,还有一些地方也会用到分类模型,比如:情感识别,意图识别等。这里主要讲一下助手中用到的几个主要分类模型的组成关系,如下图:有同学...

2021-09-22 22:50:12 2136 6

原创 语音助手——DM——分发和排序

这一章我们来讲一下语音助手中的DM(对话管理),之前讲过,DM的主要功能为多轮会话以及技能的分发和排序,这里先来讲一下技能的分发和排序。为什么要做分发和排序: 为什么要做技能的分发和排序呢,这和语义的识别有关,很多同学可能会这么认为:“用户的会话都是有意图的,所以一句话就应该有一个确定的语义,只要场景分类和意图识别做的好,不应该涉及到技能的分发和排序”。这么想其实也没错,但是有一点需要注意,这个条件成立的前提有四个:1、用户所说的话被ASR准确翻译过来,没有误收音或...

2021-09-12 22:45:30 2403 4

原创 语音助手——QU——query纠错与改写

这一章,我们来一起看一下语音助手的QU层中用到的query纠错和改写。为什么要做纠错:由于语音助手中绝大多数的query来源均为语音对话,ASR模块的结果就会由于误收音、少收音、或者识别的字错误导致输入给NLU层的query是错误的。错误的query会直接影响下游服务的识别,导致最终执行结果错误,影响用户体验。比如:(错误)打开和平静音 ->(正确) 打开和平精英。 (错误)第一个7点的闹钟->(正确)定一个7点的闹钟。 (错误)定一个7 点的孬种...

2021-09-10 21:54:00 1383 2

原创 语音助手——整体架构和设计

这一章我们一起来看一下语音助手的整体架构和设计。一般来讲,一个比较完善的语音助手可以分为:中控部分 + BOT部分,对于一个BOT而言,其实质是一个可以独立运行的服务,包含自己的中控,其内部自成一个小周天,而中控的存在则是处理一些对于各个BOT而言公共的处理,以及各个BOT的分发、排序等功能。如下图:其中蓝色部分,即为各个BOT,针对系统类型不同,BOT内部的设计也各不相同,比较典型的三个BOT:闲聊BOT、任务BOT、问答BOT,至于各个BOT内...

2021-09-08 22:44:29 5545 1

原创 语音助手——评测指标

一个语音助手包含很多模块和环节,比如ASR、NLU、TTS、客户端等,那么如何评估一个语音助手以及其各个模块的效果呢?有没有可以量化的指标?1、产品指标:用户会话量:指每日用户对话次数。 用户量:指每日用户量。 次日留存:指次日仍然使用助手的用户相对于前一天的占比。 第7日留存:以n为基准,则第n+7天仍然使用助手的用户占比。 次周留存:以n为基准,n+7不算,从n+7到n+14内仍然使用语音助手的用户占比。上述指标,是从不同的角度来对整个产品进行评估,...

2021-09-05 22:00:14 3560

原创 语音助手——简介与交互过程

语音助手简介语音助手这个产品的目的,是希望通过语音说话的方式,来实现闲聊陪伴、知识获取、设备控制等需求,对应的就有三种不同的助手类型:闲聊型、问答型、指令型。闲聊型助手用于实现闲聊陪伴的目的,通过AI的技术来与用户进行对话,感知用户情绪,比如微软小冰。问答型助手用于知识获取,通过对话的方式来获取知识,或者解决疑问,比较常见的应用则是各个平台的智能客服,比如京东、淘宝等都有对应的产品。指令型助手用于设备控制,通过对话的方式来控制智...

2021-09-02 23:22:34 5224 3

转载 曝光补偿,白增黑减理论

曝光补偿,白加黑减原理http://dcbbs.zol.com.cn/84/657_836727.html哎,我这个菜鸟,以前总拍照遇到亮的减EV,暗的加EV。今天看了白加黑减原理,才使我的曝光补偿错误得到纠正,特把这篇文章转到这,不懂的赶快学习记住吧。曝光正确是一张好照片的必要条件之一,如何才能做到曝光正确?相机的测光?自己的经验?相信每个人都有自己的体会。其中有一条法则相信大家都听过,就是“白加黑减”!什么意思呢?就是说,画面里白色比较多的时候,要曝光正确就有加补偿;而画面里黑色比较

2021-08-31 20:36:07 1523

原创 深度学习——图像分类相关模型一览

这一章我们一起来梳理一下深度学习中图像分类相关的算法。AlexNetAlexNet网络结构比较简单,也是比较早期的模型,上图中分成两个路线,其实是利用两块GPU分别进行运行,只在特定的网络层才存在两者之间的交互,实质我们可以简化一下,只看其中一条路线。网络总共的层数为8层,5层卷积,3层全连接层。这个网络的主要特点为:1、使用relu激活函数,而不是sigmoid或者tanh,这些饱和的非线性函数在计算梯度的时候都要比非饱和的现行函数2、f(x)=max(0,x)慢很多,在这里称为

2021-08-25 23:09:33 12850 1

原创 统计学习知识点整理——梯度下降、最小二乘法、牛顿法

统计学习知识点整理——梯度下降、最小二乘法、牛顿法梯度下降梯度下降(gradient descent)在机器学习中应用十分的广泛,不论是在线性回归还是Logistic回归中,它的主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值。梯度下降比较直观的解释,可以根据下山的过程来理解,在下山的过程中,每次均选择最陡峭的位置下山,就可以最快的到达最低点(对应损失函数,也就是最小化损失函数)数学公式:Θ1=Θ0+α▽J(Θ)→evaluatedatΘ0此公式的意义是:J是关于Θ的一个

2021-05-11 22:45:23 819

原创 统计学习知识点整理——极大似然估计(MLE)与最大后验概率(MAP)

统计学习知识点整理——极大似然估计(MLE)与最大后验概率(MAP)似然函数与概率函数似然(likelihood)这个词其实和概率(probability)是差不多的意思,对于下面的式子:P ( x ∣ θ )输入有两个:x表示某一个具体的数据;θ 表示模型的参数。如果θ 是已知确定的,x 是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。如果x 是已知确定的,θ 是变量,这个函数叫做似然函数(likelihood.

2021-04-24 22:57:58 848

原创 深度学习知识点整理 —— batch normalization (批归一化) 与 l2正则化

深度学习知识点整理 —— batch normalization (批归一化) 与 l2正则化batch normalization1. 为什么要有batch normalization?为什么要做归一化,正常深度学习的学习过程,就是通过学习训练数据的分布,来对测试数据进行预测,所以如果训练数据的分布和预测数据不一致,则学习的速度和泛化能力都会变差。而深度神经网络中,每一层的输入都是前一层的输出,而前一层的参数是在不断变化的,所以其学习到的数据分布也是不断变化的,所以随着层数加深,后面数据学

2021-04-21 22:49:48 1615

原创 统计学习知识点整理——朴素贝叶斯

统计学习知识点整理——朴素贝叶斯

2021-04-11 21:29:54 237

原创 业务场景算法落地 - 利用预训练&伪标注&蒸馏实现一个通用的分类模型baseline

业务场景算法落地 - 利用预训练&伪标注&蒸馏实现一个通用的分类模型baseline业务背景:场景化的智能对话助手下,某场景已经通过模板配置的方式冷启动并且在线上运行了一段时间(即通过线上日志可以收集到一些query),但是由于模板配置过泛导致该场景下误召回的话术过多,因此考虑增加一个分类模型来区分query是否属于该业务场景。方案设计:方案设计如上图,主要包含5部分:1. 基于领域数据微调原生bert(领域数据来源于业务场景)...

2021-04-09 22:08:34 410

原创 统计学习知识点整理——统计学习分类

统计学习分类基本分类监督学习监督学习是指从标注数据中学习预测模型的机器学习问题回归问题输入与输出均为连续变量的问题称为回归问题分类问题输出变量为有限个离散变量的预测问题称为分类问题标注问题输入向量与输出向量均为变量序列的预测问题称为标注问题无监督学习无监督学习的本质是学习数据中的统计规律或潜在结构,也可以用于对未来数据的分析强化学习强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题...

2021-03-29 21:48:52 363

原创 机器学习常见损失函数

机器学习常见损失函数损失函数作用:损失函数是用于衡量模型预测值与真实值之间差距的函数,损失函数的值越小越好。常见的损失函数有如下几种:分类问题0-1损失函数(Zero-one Loss):当且仅当预测为真的时候取值为1,否则取值为0。可以看出该损失函数过于严格,导致其具有非凸、非光滑的特点,使得算法很难直接对该函数进行优化。感知损失函数(Perceptron Loss):感知损失函数在0-1损失函数的基础上增加一个阈值,大于阈值则为正例,小于阈值则为负例。铰链损失函数(Hinge Los

2020-08-16 22:42:21 1745

原创 生成模型与判别模型

生成模型与判别模型生成模型生成模型(generative model)学习的对象是输入 x 和输出 y 的联合分布 P(X,Y)即先学习所有x和y之间的联合概率分布P(X,Y),然后得到后验概率P(Y|X),此过程中,需要学习P(X),公式如下(盗图,将B=Y,A=X即可):,也就是说,需要P(x)能够较好的描述x的概率分布才可以,这就要求训练样本足够多。举个例子,当需要判断一...

2020-01-01 09:43:21 191

原创 基于知识图谱的子图检索——KBQA的一种实现

基于知识图谱的子图检索——KBQA的一种实现本文是对论文《Answering Natural Language Questions by Subgraph Matching over Knowledge Graphs》的一些个人解读,如有错误,多谢指正。介绍KBQA即基于知识图谱的问答系统,一般的实现为:将已有的知识转化为结构化的数据,一般为RDF格式的数据,即三元组<s...

2019-09-08 23:09:55 7920

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除