本篇文章8476字,读完约21分钟
原始synced机器的心
机器心分解师互联网
作者:王子嘉
编辑: joni中
虽然是“道可道、非常道”,但ai业界的表现正在朝着“常道可道”的方向发展,可以表现的东西越来越接近“常道”。 年,在darpa提出的第三波机器学习概念[1]中,一个方向也可以找到更共同的表现,从而使ai摆脱现在的“精心定义的”任务,完成更多复杂的任务,更接近人类的表现。 要处理这个问题,首先有两个方向。 找到新的表达方法[2] (更有效的计算方法或新的表达)或提高当前表达方法的通用性[ 3,4 ]。 本文对今年cvpr提出的三个处理方案首先证明了如何改善现有表现,其次证明了如何提高表现的表现,最后证明了如何基于多任务学习解决不太相关的两个任务的表现 本文在各论文的说明中,证明了任务和算法的概要(便于粗略理解论文),然后进行算法的详细讨论(如果想深入理解,以后也可以看完)。 。
1.distribution-awarecoordinaterepresentationforhumanposeestimation
论文链接: arxiv/abs/1910.06278
1.1任务说明
本文的目标任务是人类姿势估计( human pose estimation ),最初的目的是检测任意图像中人类关节的空之间的位置(坐标)。 因为每个图像的光、背景、人们的服装都不同,这个任务的难点在于这些关节在图像中的表现方法发生了很大的变化,好的标记(身体关节的坐标)的表现也变得特别重要。 表示当前标签的标准方法是采用“坐标热图”( heatmap )。 以各关节的标签坐标为中心生成的二维高斯分布/核[5]以坐标代码(即从坐标到热图的过程)和解码(从热图到坐标的过程)为中心,现在的sota方法也是基于热图的[ 6,7 ]。 因为本文的第一个目的是改进热图的编码和解码的方法,实验也说明了好的特征的重要性。
1.2算法概要
整个任务的最终目的是预测给定输入图像的关节坐标。 为此,有必要学习从输入图像到输出坐标的回归模型。 这个过程可以分为两个步骤。 首先,假设有一组训练图像,模型的学习分为两个步骤。 第一步是将节点的ground truth坐标编码为一个热图,作为监视学习目标。 步骤2解密过程:测试过程将预测的热量图解密为原始图像坐标空之间的坐标。 在编码过程中,为了减少计算量,图像的像素进行了分辨率的衰减。 因为在这个解码过程中需要偏移结果。 传统的基本方法是基于经验明确的偏移量,本文详细说明了该偏移量,给出了更好的偏移量方法。 同样,编码时也必须进行转换,以免受到分辨率衰减的影响。
1.3算法详细信息
1.3.1解码过程
标准的解码方法经验明确,初步坐标p可以用下式计算。
这里,m是热图中的最大活性化值,s是热图中第二大的活性化值,|| . ||_2是向量的模。 也就是说,实际坐标必须在热图空之间从第一大的激活值向第二大的激活值偏移。 因为在编码过程中,为了减少计算量,图像的像素进行了分辨率的衰减。 这是因为最终热图的第一个大激活值的位置与关节在图像中的真实位置不一致,只是粗略的假设。 将开始的衰减率设为lambda,坐标被“恢复分辨率”( resolution recovery )的最终坐标如下。
提出的解码方法利用热图的分布结构,找出真正的最大激活值。 其基本流程如下图所示。
(图来自原论文)图1 :解密过程结构图
的分辨率修改与标准方法一致(参见上面的公式)。 。
分布式- awaremaximumrelocalization根据分布假设重新定位最大激活值。 具体地说,本文的作者假设热图适合2d高斯分布,因为热图表示如下。
这里的x是热图像素的位置,mu是高斯的中心,该中心与最重要预测的关节位置(在原始图像中的位置)相关联。 协方差sigma是对角矩阵,与坐标编码过程中采用的相同( sigma是标准差)。
根据log-likelihood优化,作者基本上在保持原始最大活动值位置的同时用对数转换g ( )。
任务整体的最终目标还是为了估计mu,因为这一点的特殊性,这个1次导数d’也有特征。
为了利用这一性质,作者利用泰勒理论,用最大激活值m的泰勒级数近似了激活值p(mu )。
这里的二次微分计算如下。
整理以上三个表达式最终会得到以下结果:
分布调制( distribution modulation )作者随后在分布- awaremaximumrelocalization中验证关于高斯分布的假设是否正确。 验证如图2所示,通常训练集的热图具有良好的高斯特性,但预测的热图(图2(a ) )通常有多个峰值,不太符合高斯分布,因此有可能影响我们的做法。
(图来自原论文)图2 :分布调制过程的解读
因为该作者使用与训练数据离散度相同的高斯核k对预测的热图h进行调制(卷积),以减轻多个峰值的影响。
另外,为了保证调制前后值大小的一致性,作者对其进行了尺度变更。
1.3.2编码过程
这部分作者为了处理与解码相同的问题,转换了gound-truth (关节坐标),减轻了分辨率衰减的影响,生成了热图。 具体而言,作者首先对ground-truth(g=(u,v ) )进行像素衰减( lambda为衰减率)而g ' :
而且,为了容易生成核,作者将其量化解决( quantise ( ),下方修正,上方修正,四舍五入等),最终g " :
最终会生成以此坐标( g ' ' )为中心的热地图。
但是,如图3所示,在量化中引入了很大的误差,这是因为作者采用了上述公式,但采用g’而不是g’来减少误差。
(图来自原论文)向下修正图3:g ' (蓝点)导入的误差(红箭头)
1.4实验结果
数据集: coco和mpii
评价方法:在coco中采用对象密钥的类似度( object keypoint similarity,oks ),在mpii中采用密钥的正确概率( percentageofcorrectkeypoints,PCK ) )
模型:采用adam优化器,hrnet和基线模型采用与原论文相同的参数,hourglass的学习率调整为2.5e-4,第90个epoch衰减为2.5e-5,第120个EPO6e-6
结果:以下三个表分别表明本文提出的编码和解码方法的一环是实际有效的。
下表显示了dark可以与大多数现有型号无缝连接,比现在的sota方法好得多。
. 5总结
这篇论文证明了良好表现对模型的重要作用,证明了在更深入理解模型的每一步时,即从经验到科学的过程,往往会带来更好的表现。
2.towardsuniversalrepresentationlearningfordeepfacerecognition
论文链接: arxiv/abs/2002.11841
2.1任务说明
在脸部识别任务中,将图像映射到特征空之间。 我们认为,这个空之间的不同对象之间的距离最好尽可能大,同一对象之间的距离最好尽可能小。 但是,脸部照片的一些变化很大,尽管现在的大数据集尽量保证了画廊的多样化,但并不充分,sota模型在特别有挑战性的数据集上得不到太好的结果。
为了解决这个课题,有几个方法,但这些方法需要只解决特定的变更,需要访问测试数据的分布,或者根据运行时的增加和复杂性,需要解决更广泛的变更。 如图4所示,本文作者在不引起上述问题的情况下学习了统一的特征表现,取得了良好的结果。
(图来自原论文)图4 :作者的做法消除了获得统一特征时常见的几个问题。
2.2算法概述
首先,作者认为具有非正面姿势、低分辨率和严重遮挡的输入是挑战“野外”(“『in-the-wild』”)应用程序的可视重要因素,对这些应用程序综合增强训练数据 但是,在训练中直接添加硬增强的样本会带来更困难的优化问题。 作者通过提出考虑各样本的可靠性来学习概率特征嵌入的识别损失( identification loss ),从而缓和了这一点。 其次,作者试图通过将嵌入分解为子嵌入来最大化嵌入的显示能力,各子嵌入在训练中具有独立的可靠性值。 第三,所有子嵌入都嵌入不同的区域,鼓励通过两个相反的正规化进一步相关联,即特征分类损失和特征对抗损失。 第四,作者通过发掘训练数据中的其他变化进一步扩展相关正规化,对这些变化合成增强非常重要。 最后,作者通过概率聚合说明不同要素的不明确性,说明子嵌入的不同识别能力。
如图5所示,本文的方法是在扩展输入样本后,利用可靠度将特征分割为子嵌入。 训练采用基于可靠性的识别损失和离散的相关损失。
(图来自原论文)图5 :本论文做法的流程图
2.3算法详细信息
2.3.1可靠的识别损失( confidence-awareidentificationloss )
将f_i作为第I个样本的特征嵌入,将w_j作为第j类的矢量。 此时,概率嵌入式因特网heta可以将每个样本x_i表示为特征空之间的高斯分布n(f_i,sigma^2 i ),样本x_i是第j类的可能性( Likelihood)(d是特征的
假设每个样本属于任一类的先验概率相同,则x_i属于第j类的后验概率表示如下:
简化上式,将frac{1}{2}作为评价自信的可靠度s_i,将f_i和w_j限制在l2标准化的单位球面内,则上式如下。
如图6所示,在增加可靠度后,为了使后验概率最大化,每个类别的原型( prototype )接近优质的样本(因为有更高的可靠度),在嵌入f_i进行更新的过程中,低质量的样本也接近原型
(图来自原论文)图6 :可靠性的作用
另外,为了缩小同一对象的分布,作者在损失函数中追加损失边界,缩小同种分布( within-identity distribution )。
其中,y_i是x_i的ground truth,m是边界参数(为了实现损失边界的引入)。
2.3.2可靠的子嵌入( confidence-aware sub-embeddings )
为了最大化表现能力,作者对嵌入中的各条目进行了解除关联的操作。 首先,将特征嵌入f_i、原型矩阵w_j、可靠度标量s_i分为k个等长矩阵。
各子嵌入f_{i}^{k}分别被l2标准化。 因为这个最终的识别损失如下。
另外,为了不使模型过度自信,作者追加了l2正规化条目限制了可靠性的无限变化。
2.3.3子嵌入关联
分离每个子嵌入并不会实际实现它们的不相关性。 因为该作者通过结合不同的子嵌入和不同的特征,对所有子嵌入的子集计算特征分类损失,对其他变异类型计算特征的抗性损失。 给出多个特征时,这两个规范化的项目被强制配置在不同的子集中,得到更好的子嵌入相关效果。 对于增强的特征t,作者生成二进制掩码v_t,随机从所有子嵌入中选择通常,将其馀的值设定为0,以保证不同特征的该掩码不同。 作者希望v_t(f_i )只影响第t个变种。 因此,作者想利用面具预测是哪个特征,建立多个类别判别器c。
其中u_i是表示特征的二进制值。 当t=1表示分辨率时,u=1表示高分辨率的变种。 这个公式是用来训练判别器的,互联网整体的分类损失和对抗损失分别如下。
第一个损失是为了使各特征的v_t不同,第二个损失是为了尽量不使这些v_t在其他不对应的特征中变化。 因此,作者得到了最终的损失函数。
2.3.4找到越来越多的变化特征
为了使上一节的关联更有效,需要越来越多的强化特征。 因为该作者建立了属性分类模型,利用对抗损失,找到了难以直接增强的变化生命体征(笑容等)。
l_a是属性标签,y_a是图片类别标签,x_a是输入图片,n_a是数据集的类数。 第一损失惩罚是对面部属性进行分类的特征,第二项惩罚同一类中的特征的不变性。 然后,该分类器被用于生成t个新特征的变种(是否年轻等)。 这些特征与最初图像强调时采用的几个变化特征合并,适用于2.3.3中所述的非相关性。
2.4实验结果
数据集: lfw、cfp、ytf、megaface三种(变化有限) ijb-a、ijb-c (分辨率不同) ijb-s (低分辨率)
ablation study的结果:下表显示了本文提出的各个环节基本上有实际效果( e的效果基本上是最好的)。 。
与其他模型的比较结果:以下两个表显示了在上述三种数据集中,本文提出的模型的效果基本上是最好的。
. 5总结
本文的要素很多,本质目的是使表达能力越来越强。 表现的理解越深,表现所需的模型可能越多越复杂,但如果对应的话,得到的表现也会带来更好的结果。
3.12合1:multi-taskvisionandlanguagerepresentationlearning
论文链接: arxiv/abs/1912.02315
3.1任务说明
多种视觉和语言的研究集中在一般单独研究的小的多种独立任务及其对应的数据集上,但完成这些任务所需的视觉语言理解能力很大程度上重叠。 一个任务表示不同的课题和不同的界面,但语言和视觉概念的基本关联性在不同的任务之间通常是共同的。 比如,表现“红色花瓶”,“红色花瓶是什么颜色的? ”,你在回答吗? 》基本上是同一个概念。 共同训练多个任务可以潜在地聚合这些不同的监视任务.。 另外,开发能够在大范围任务中良好表现的模型,有助于防止研究圈过度适应特定的数据集和测量。 本文的模型包括四种任务(视觉问题回答-visual question answering,基于图像描述的图像检索-caption-based image retrieval,图形识别物- grounding referring ex
3.2算法概述
本文作者是vil Bert ( synced review/2019/08/15/Facebook-Georgia-tech-OSU-vil Bert-achieves-sota-on-vision-achieves ) 这种大规模的多任务学习很有挑战性,实验前我们也不订购是否能模型,学习12个不同的数据集,数据集的大小和难度各不相同。 为了解决这些问题,作者提出了动态训练调度器( dynamic stop-and-gotraining scheduler )、基于任务的输入标签( task dependent input tokens )、 以及引入简单启发式超级参数( simplehyper-paratemens )的这一流程,人们在不同的数据集上训练各种多任务模型,不同的视觉和语言任务一起训练时的性能函数
3.3算法详细信息
3.3.1基本框架
本文的基本框架基于vilbert,作者在此基础上做了两个改进:首先,在屏蔽视觉区域时,作者隐瞒了存在明显的重复( >; 0.4 iou,intersection over union )的其他区域避免泄露视觉新闻。 这使得模型依赖于语言来预测图像拷贝。 其次,在进行负(不一致)语言的多模对齐预测时,作者不强制掩盖多模建模的损失。 这比较有效地消除了由负样本引入的噪声。
3.3.2多任务学习
作者采用了简单的多任务模型,各任务可以作为任务固有的分支网络(原文“head”)来看,该网络从公共共享的干vilbert模型(原文“trunk”)中分离出来。 这样,学习共享主干参数θs和基于各任务层次的特定参数{θt}({θt}是表示全部任务的特定参数)的集合。 我们的目标是学习参数θs∪{θt},将所有任务的损失最小化。 具体更改如下。
token :用于编码任务新闻的最终输入模式如下图所示,同时本文提出的框架是自下而上的方式解决输入新闻.其中,v_i是图像的特征,w_i是词的token、img、cls、sees
每个任务的“头”如下所示。
vocab-based vqa的输出:作者认为是基于vocab-based vqa的多标签分类任务,根据每个答案与实际答案之间的关联性为每个答案分配软目标分数。 本文使用两层mlp计算一组预定义的答案a的得分(∑表示sigmoid function,h_{img},h_{cls}分别表示vilbert输出的图像和副本的特征向量)。
图像搜索输出:在此任务中,作者根据vilbert输出的特征向量计算图像-复印对之间的对齐得分(其中w_i由coco flickr30k数据集的图像搜索任务共享)。
图的识别物的输出:根据给定的描述,作者重新排列了一系列区域提案,将各图像区域I的最终表现h_vi传播到一个学习投影w_r,预测了匹配的得分(这里q的形式随数据集而变化)。
多模态验证的输出:输入是两张图像( i_0和i_1)和说明( q ),模型需要评价此说明的比较有效性。 这个head的输出是( []的意思是concatenate ),所以作者将其定义为分类问题。
除此之外,作者还叙述了大规模训练中使用的一点trick,与此框架无关,如果有有趣的事情可以自己阅读论文。
3.4实验结果
本文提出的多任务模型在表现上优于其他多任务模型。 另外,每个任务与sota方法的对应也经常受到关注(比它强还是相似),如果对任一个上述特定任务感兴趣,可以用原文调查其对应的实验结果。
. 5总结
提出了利用统一的表现矩阵,并且利用共享的参数减少很多参数量的多任务学习框架。 这种重叠的东西也有必要在追求象征性统一化的过程中发现。
总结一下
本文介绍了三篇与特征相关的论文,发现特征越来越强、共性非常重要,发现他们的模式在各项任务中都能取得很大的成功。 在未来的搜索方向中,可以像第三个副本那样集中于找到每个任务表现的共性,从而降低表现模型训练的诉求。 或者,像前面的两个副本一样,在表现训练过程中,可以得到更广泛、更正确的表现模型。
references
[1] adarpaperspectiveonartificialintelligence.access at:DARPA.mil/attachments/ai full.PDF
[2]凤张、仙珠、hanbin dai、mao ye、Andcezhu.distribution-awarecoordinaterepresentationforhumanposeestimation
[3] yichun shi,kihyuk sohn,manmohan chandraker,Andan ILK.Jain.towardsuniversalrepresentationlearningfordep
[4] jiasen lu、vedanuj goswami、marcus rohrbach、devi parikh、AndsteFanlee.12合1:multi-Taskvisionandlanguagereprese
[5] tompson,j.j ...; jain,a ..; lecun,y ..。 andbregler,c .. jointtrainingofaconvolutionalnetworkandagraphicalmodelforhumanposeestimation.inadvancesinnneuralinformation.in
[6]小,b ...; wu,h ..; and wei,y .. simplebaselinesforhumanposeestimationandtracking.ineuropeanconferenceoncomputervision。
[7]sun,k ...; 小,b ..; 刘,d ..; and wang,j.2019.deep high-resolutionrepresentationlearningforhumanposeestimation.inieeeconferenceoncomputervisionandpation
作者介绍:本文作者是王子嘉,现在在帝国理工学院的人工智能硕士读书。 第一个研究方向是nlp的推荐等,喜欢尖端技术,喜欢稀奇古怪的想法,立志成为不走普通道路的研究者的男人!
关于机器心灵的全球分解者互联网synced global analyst network
机械之心世界分解师互联网是由机械之心发起的世界性人工智能专业信息共享互联网。 在过去的四年里,有数百名世界ai行业的专业学生学者、工程专家、商业专家,利用自己的学业从业者闲暇时间,进行在线共享、专栏解读、构建知识库、报告发表、评价、项目咨询等 分享工程经验、领域内在等专业信息,从中得到了自己的能力成长、经验积累、职业的迅速发展。
兴趣是参加机器心灵的世界性分析者网络吗? 点击原文,提交申请。 阅读原文。
原标题:“寻找共同表现: cvpr上的重要三个处理方案”
阅读原文。
来源:吉林福音时报
标题:【时讯】寻找通用表征:CVPR 2020上重要的三种处理方案
地址:http://www.jxjgzhdj.cn/jlxw/19820.html