本篇文章4566字,读完约11分钟
机械心机械心报道参与:魔王,一声facebook fair实验室再次创新了图像分割算法,这次采用了图像渲染的设想 算法可以集成为神经互联网模块,可以显着提高mask r-cnn和deeplabv3的性能 实例分割是计算机视觉任务的一项重要的任务 以前传输的例子的分割方法是输入图像,预测图像的各像素点,估计像素点所属的实例标签,区分属于不同实例的像素点 然而,现有方法可能过度计算平滑的像素点划分边界,错误地分割了本来应该具有明确且连续的边界的示例性边缘像素点 为了解决这个问题,何鼎明等人提出了优化这个问题处理的新的实例分割方法 说到何鼎明,网民们不知道 近年来,他在语义分割和实例分割行业做了很多独创的工作,提高了分割效果 例如,在事例分割中提出了全景分割的方法,在语义分割中提出了具有惊人效果的tensormask 最近,alexander kirillov (一作)、吴育昕、何昆明等从计算机渲染的角度出发,提出了进一步提高图像分割过程中平滑性和分割细节效果的pointrend方法 这种方法对现有的互联网体系结构有很大影响吗? 研究人员认为,这种方法可以作为现有图像分割架构的一个模块 他们用mask r- cnn和deeplabv3等模型进行测试,性能提高显着,计算力的占有小 这篇论文的作者包括我们熟悉的何克明和吴育昕,他们多次在一点研究上合作 另外,也有与何鼎明在tensormask等论文中进行合作的ross girshick 论文地址: arxiv/pdf/1912.08193.pdf这篇论文的具体做法和效果怎么样? 机器的心把它编译整理了 引言图像分割任务涉及将规则网格中采样的像素映射到同一网格上的(一个或多个)标签映射。 在语义分割任务中,标签图表示针对各像素预测类别 另外一方面,在实例分割任务中,各被检测者需要预测二维前景背景图 这些任务基本上是基于卷积神经网络( cnn )构建的 用于图像分割任务的cnn通常基于规则网格执行。 输入是图像像素的规则网格,隐藏表示是基于规则网格的特征向量,输出是基于规则网格的标签映射。 规则网格很有用,但在计算方面图像分割不一定完美 这些互联网预测的标签图基本上应该是平滑的。 也就是说,相邻的像素通常使用相同的标签。 这是因为高频区域被限制在对象之间的稀疏边界上。 规则网格可能会对平滑区域进行过采样,对对象边界进行欠采样 由此,在平滑区域中进行过剩的计算,预测结果的轮廓模糊(参照图1左上) 这样,图像分割方法通常根据低分辨率规则网格预测标签,例如在语义分割任务中输入1/8,或者输入实例分割中的28×28等,欠采样和过采样之间的妥当性 图使用了pointrend的实例分割和以前传达的方法 用以往的方法(左)分割时,图像分辨率低,分割效果差 几十年来,计算机图形学行业研究了许多类似的采样问题 例如,渲染器将模型(如3d网格)映射到光栅图像,即像素规则网格 输出基于规则网格,但计算不基于网格平均分配 一般的图形学策略是为图像平面中自适应选择的点的不规则子集计算像素值 例如,[48]的典型细分技术获取了四树采样模式,以便有效地渲染抗锯齿( anti-aliased )的高分辨率图像 按照同样的思路,何炳明等人的研究者在研究中把图像分割看作是渲染问题,利用计算机图形学中的古典思想有效地“渲染”优质的标签图(参照图1左下)。 研究者将这一思想实现为一种新的神经网络模块——pointrend,采用细分策略自适应地选择了一组不均匀点,计算了标签 pointrend可以合并到常见的实例分区元架构(如mask r-cnn [19] )和语义分区元架构(如fcn [35] ) 其细分战略利用比直接密集计算少一位数的浮点运算,有效地计算高分辨率分割图 pointrend是通用模块,允许多个可能的实现 抽象地说,pointrend模块接受基于规则网格定义输出基于更细粒度网格的高分辨率预测结果p(x'_i,y'_i )的一个以上典型的cnn特性图f(x_i,y_i )作为输入 pointrend不对输出网格上的所有点执行过度预测,而只对仔细选择的点执行预测 因此,pointrend插补f,提取所选择的点的每一点的特征表现,使用一个小型point head子互联网基于这些每一点的特征预测输出标签 本文介绍了简洁高效的pointrend实现 研究者利用coco [29]和cityscapes [9]的基准数据集,判断了pointrend在实例分割和语义分割任务中的性能 定性地说,pointrend可以有效地计算对象之间的明确边界。 参照图2和图8 图2:mask r-cnn [19] +标准掩码头的结果示例(左图像) vs mask r-cnn + pointrend的结果示例(右图像) 型号采用resnet-50和fpn 图cityscapes样本中模型的实例分割和语义分割的结果 研究者还关注提高定量水平的性能,但这些任务基于标准的iou测量指标( mask ap和miou ),偏向于对象内部的像素,对边界改善比较不敏感 但是,pointrend仍然提高了mask rcnn和deeplabv3 [5]的性能 方法研究者把计算机视觉中的图像分割比作计算机图形学中的图像渲染 渲染是将模型(如3d网格)显示为像素的普通网格,即图像 输出表示为规则网格,但其基础物理实体(如3d模型)是连续的,使用物理和几何推理(如光线跟踪)时,在图像平面的任何真值点将其物理占用(如physical occupe ) 同样,在计算机视觉中,以图像分割为基础的连续实体的占有图,分割输出(预测标签的规则网格)是基于其“渲染”得到的 该实体被编码为互联网特征图,可以通过内插到任意点来判断 训练参数化函数,根据这些插值点的特征表现,预测占有 这些参数化函数与计算机图形中的物理和几何推理是同等的。 基于此类比,研究者提出了pointrend(pointbased rendering,“基于点的渲染”),用点的表示处理图像分割问题 入口模块接收包括c通道的一个或多个典型的cnn特征地图f ∈ r^(c×h×w ),各个特征地图基于规则的网格定义(粗糙度通常是图像网格的4-16倍),输出预测结果 pointrend模块包括三个主要组件。 1 .点选择策略:选择少量真实值点执行预测,以避免过度计算高分辨率输出网格中的所有像素。 2 .对选择的各点提取每个点的特征:使用各选择点的f规则网格上的4个最近邻点,使用f的双线性插值计算真值点的特征 因此,这种方法可以利用编码到f信道维度的子像素新闻,预测分辨率比f高的分割3. point head :用于根据每个点的特征显示预测标签的小型神经网络 pointrend模式可以应用于实例划分(如mask r-cnn [19] )和语义划分(如fcn [35] )的任务 在实例分割任务中,pointrend应用于各区域,通过对选择的一组点执行预测,以从粗糙度到细粒度的方法计算掩模(参照图3 )。 在语义分割任务中,由于整个图像被视为一个区域,所以可以在不损害通用性的情况下在实例分割语境中记述pointrend 让我们详细看看pointrend的三个主要组件 图3:pointrend应用于实例划分任务 选择点进行估计和训练的中心思想是灵活、自适应地选择图像平面内的点,预测分割标签 直观上,这些点的位置必须与高频区域(如对象边界)紧密相邻,类似于光线跟踪抗锯齿问题 研究者把这个想法应用于估计和训练 用于估计的点选择策略被开发出了计算机图形学中的称为自适应细分( adaptive subpision )的古典技术 该技术通过计算与邻居值不同的位置,有效地渲染光线跟踪等高分辨率图像。 其他位置的值是通过插值计算的输出值获得的(从粗糙网格开始)。 训练:在训练过程中,pointrend还必须选择一个点来建立训练point head所需的每点特征 基本上,点选择策略类似于估计过程中采用的细分策略 但是,细分战略中采用的步骤对利用反向传递训练神经网络不太友好 因此,训练过程采用基于随机采样的非迭代策略 每个点的表示和point headpointrend通过组合细粒度和粗细预测特征这两种特征类型,构建每个所选点的特征 实验:实例分割表1显示了pointrend和mask r-cnn中默认的4x卷积head的性能 pointrend在coco和cityscapes数据集上的性能超过了mask r-cnn的默认head 表1:pointrend vs mask r-cnn默认4×卷积遮罩head的性能是多少 细分策略中采用的浮点和内存小于默认4 x卷积head的1/30,但pointrend可以获得高分辨率的预测结果( 224×224 )。 见下表2。 pointrend是忽略对象中的粗粒度预测就足够的区域,在计算量大幅减少的情况下输出与mask r-cnn框架相同的高分辨率结果 表2:224×224输出分辨率掩码的浮点(乘法)和活动计数 以下表3显示了在不同的输出分辨率和各细分步骤中不同的选择点数时的pointrend的细分估计性能 表3 :细分估计参数 可以通过预测更高分辨率的掩模来改善结果 虽然ap饱和,但是按照输出分辨率从低到高(例如从56×56到224×224 )的顺序,视觉上的提高依然显着(参照图7 )。 图7 :邦德的抗锯齿效果 表4显示了pointrend在培训过程中采用不同点选择策略时的性能 表4 :培训时不同点选择策略的性能在每个边界框中有142点 下表5显示了pointrend和基线的情况。 pointrend的性能超过基线模型,基线模型的训练时间比pointrend长,模型规模也比pointrend大。 表5 :基线模型和pointrend性能 基线模型大于pointrend,其训练时间是pointrend的3倍 实验:语义分割下表6显示了deeplabv3和deeplabv3 + pointrend的对应情况 表cityscapes语义分割任务中的6:deeplabv3 + pointrend的性能超过了基线deeplabv3 通过在res_4阶段采用空孔卷积,可以将估计时的输出分辨率提高一倍。 [5] 与此相对,pointrend具备更高的miou 定性提高也很明显,参照图8 图cityscapes样本中模型的实例分割和语义分割的结果 通过自适应地采样点,点对32k点进行预测,达到1024×2048的分辨率(即2m点) (参照图9 )。 图9 :语义分割任务中9:pointrend的估计 下表7显示了改变8倍和4倍的输出步幅时的semanticfpn+pointrend的性能比semanticfpn有所提高 在表cityscapes语义分割任务中,semanticfpn+pointrend的性能超过了基线semanticfpn 原标题:“ross、何鼎明等人提出了pointrend :渲染构想,进行图像分割,提高mask r-cnn的性能”
来源:吉林福音时报
标题:【时讯】渲染思路做图像分割:何恺明等人提出PointRend
地址:http://www.jxjgzhdj.cn/jlxw/19989.html