新智元引荐
来历:专知
收拾修改:张佳
【新智元导读】七月底核算机视觉三大顶会之一ICCV2019发布了其终究论文接纳成果,一共有1077篇论文被接纳,接纳率为25.02%,近期arXiv放出了许多ICCV相关论文。咱们为咱们收拾了8篇图神经网络(GNN)+CV相关的论文。>>>人工智能改动我国,咱们还要跨过这三座大山 | 献礼70周年
为了带咱们抢先领会高质量论文,小编特意收拾了八篇ICCV 2019最新GNN相关论文,并附上arXiv论文链接供参阅——点云结合、姿势估量、行为定位、视觉传感、多标签图画辨认、视觉问答、图匹配等。
1、3D Point Cloud Generative Adversarial Network based on Tree Structured Graph Convolutions
作者:Dong Wook Shu, Sung Woo Park, Junseok Kwon;
摘要:本文提出了一种新的三维点云生成对立网络(GAN),称为tree-GAN。为了完成多类三维点云生成的最优功能,引进了一种树状图卷积网络(TreeGCN)作为tree-GAN的生成东西。因为TreeGCN在树中履行图卷积,所以它能够运用ancestor信息来增强特性的标明才能。为了精确点评三维点云的GAN,咱们提出了一种新的点评方针,称为Fr'echet点云间隔(FPD)。试验成果标明,所提出的tree-GAN在传统衡量和FPD方面都优于最先进的GAN,而且能够在不需求先验常识的状况下为不同的语义部分生成点云。
网址:
https://arxiv.org/abs/1905.06292
2. Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks
作者:Yujun Cai, Liuhao Ge, Jun Liu, Jianfei Cai, Tat-Jen Cham, Junsong Yuan, Nadia Magnenat Thalmann;
摘要:虽然单视图图画或视频的三维姿势估量取得了很大的发展,但因为深度含糊和严峻的自聚焦,这仍然是一个具有应战性的使命。为了有用地结合空间相关性和时刻一致性来缓解这些问题,咱们提出了一种新的根据图的办法来处理短序列二维关节检测的三维人体和三维手部姿势估量问题。特别是将人手(身体)构型的领域常识显式地融入到图卷积运算中,以满意三维姿势估量的特定需求。此外,咱们还介绍了一个从部分到大局的网络架构,该架构能够学习根据图标明的多标准特性。咱们点评了所提出的办法在具有应战性的基准数据集的三维手部姿势估量和三维身体位姿估量。试验成果标明,咱们的办法在两种使命上都达到了最先进的功能。
网址:
https://cse.buffalo.edu/~jsyuan/papers/2019/Exploiting_Spatial-temporal_Relationships_for_3D_Pose_Estimation_via_Graph_Convolutional_Networks.pdf
3. Graph Convolutional Networks for Temporal Action Localization
作者:Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan;
摘要:大多数最先进的行为定位体系都是独自处理每个动作proposal,而不是在学习进程中显式有利地势用它们之间的联系。但是,proposal之间的联系实践上在举动定位中扮演着重要的人物,因为一个有意义的举动总是由一个视频中的多个proposal组成。在本文中,咱们提出运用图卷积网络(GCNs)来发掘proposal - proposal联系。首要,咱们结构一个action proposal图,其间每个proposal标明为一个节点,两个proposal之间的联系标明为一条边。这儿,咱们运用两种类型的联系,一种用于捕获每个proposal的上下文信息,另一种用于描绘不同action之间的相关。咱们在图上运用GCN,以对不同proposal之间的联系进行建模,学习了动作分类和定位的强壮标明。试验成果标明,咱们的办法在THUMOS14上明显优于最先进的办法(49.1% versus42.8%)。此外,ActivityNet上的增强试验也验证了action proposal联系建模的有用性。代码能够在https://github.com/alvinzeng/pgcn上找到。
网址:
https://arxiv.org/abs/1909.03252
4. Graph-based Object Classification for Neuromorphic Vision Sensing
作者:Yin Bi, Aaron Chadha, Alhabib Abbas, Eirina Bourtsoulatze, Yiannis Andreopoulos;
摘要:神经形状视觉传感(NVS)设备将视觉信息标明为异步离散事情的序列(也称为“spikes”),以呼应场景反射率的改变。与传统的有源像素传感器(APS)不同,NVS答应更高的事情采样率,大大进步了动力功率和对光照改变的鲁棒性。但是,运用NVS流的方针分类不能运用最先进的卷积神经网络(CNNs),因为NVS不发生帧标明。为了防止感知和处理与CNNs之间的不匹配,咱们提出了一种用于NVS的紧凑图标明办法。咱们将其与新颖的残差图CNN体系结构相结合,成果标明,当对时空NVS数据进行练习用于方针分类时,这种残差图CNN坚持了spike事情的时空一致性,一起所需的核算和内存更少。最终,为了处理缺少用于杂乱辨认使命的大型实在国际NVS数据集的问题,咱们提出并供给了一个100k的美国手语字母NVS记载数据集,该数据集是在实在国际条件下运用iniLabs DAVIS240c设备取得的。
网址:
https://arxiv.org/abs/1908.06648
5. Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition
作者:Tianshui Chen, Muxin Xu, Xiaolu Hui, Hefeng Wu, Liang Lin;
摘要:辨认图画中的多个标签是一项实践而赋有应战性的使命,经过查找语义感知区域和对标签依靠联系建模,现已取得了明显的发展。但是,因为缺少部分层次的监督和语义辅导,现有的办法无法精确定位语义区域。此外,它们不能充沛发掘语义区域之间的相互作用,也不能显式地对标签的共现进行建模。为了处理这些问题,咱们提出了一个语义特定的图标明学习(SSGRL)结构,该结构由两个要害模块组成:1)一个语义解耦模块,该模块集成了领域语义以辅导学习语义特定的标明;2)一个语义交互模块。它将这些标明与树立在计算标签共现上的图相相关,并经过图传达机制探究它们的交互作用。在公共基准上的很多试验标明,咱们的SSGRL结构在很大程度上优于当时最先进的办法,例如,在PASCAL VOC 2007 & 2012, Microsoft-COCO and Visual Genome benchmarks数据集上,mAP的功能别离进步了2.5%、2.6%、6.7%和3.1%。咱们的代码和模型能够在https://github. com/HCPLab-SYSU/SSGRL上取得。
网址:
https://arxiv.org/abs/1908.07325
6. Relation-Aware Graph Attention Network for Visual Question Answering
作者:Linjie Li, Zhe Gan, Yu Cheng, Jingjing Liu;
摘要:为了处理图画的语义杂乱问题,视觉问答模型需求充沛了解图画中的视觉场景,特别是不同方针之间的交互动态。咱们提出了一个联系感知图留意网络(ReGAT),它经过图留意机制将每个图画编码成一个图,并树立多类型的方针间联系模型,以学习问题的自适应联系标明。研讨了两种类型的视觉方针联系:(1)标明几许方位的显式联系和方针之间的语义交互;(2)捕捉图画区域间躲藏动态的隐式联系。试验标明,ReGAT在VQA2.0和VQA2-CP v2数据集上的功能都优于现有的最新办法。咱们进一步证明了ReGAT与现有的VQA体系结构兼容,能够作为一个通用的联系编码器来进步VQA的模型功能。
网址:
https://arxiv.org/abs/1903.12314
7. Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning
作者:Jiwoong Park, Minsik Lee, Hyung Jin Chang, Kyuewang Lee, Jin Young Choi;
摘要:咱们提出了一种对称图卷积自编码器,它能从图中发生低维的潜在标明。与现有的具有非对称解码部分的图自编码器比较,本文提出的图主动编码器有一个新的解码器,它构建了一个彻底对称的图自编码器方式。针对节点特征的重构,规划了一种根据拉普拉斯锐化的解码器,作为编码器拉普拉斯滑润的对应,使图结构在所提出的自编码体系结构的整个进程中得到充沛运用。为了防止拉普拉斯锐化引进网络的数值不安稳性,咱们进一步提出了一种新的结合符号图的拉普拉斯锐化的数值安稳方式。此外,为了进步图画聚类使命的功能,规划了一种新的本钱函数,该函数能一起发现一个潜在的标明方式和一个潜在的affinity矩阵。在聚类、链路猜测和可视化使命上的试验成果标明,咱们所提出的模型是安稳的,而且功能优于各种最先进的算法。
网址:
https://arxiv.org/abs/1908.02441
8. Learning Combinatorial Embedding Networks for Deep Graph Matching
作者:Runzhong Wang, Junchi Yan, Xiaokang Yang;
摘要:图匹配是指寻觅图之间的节点对应联系,使对应的节点与边的亲和性(affinity)最大化。此外,因为NP齐备性的性质之外,另一个重要的应战是对图之间的节点和结构亲和性及其成果方针进行有用建模,以辅导匹配进程有用地找到针对噪声的实在匹配。为此,本文规划了一个端到端可微的深度网络pipeline来学习图匹配的亲和性。它触及与节点对应有关的有监督置换丢失,以捕捉图匹配的组合性质。一起选用深度图嵌入模型来参数化图内和图间亲和性函数,而不是传统的如高斯核等浅层、简略的参数化方式。嵌入也能有用地捕获二阶边际以外的高阶结构。置换丢失模型与节点数量无关,嵌入模型在节点之间同享,这样网络就答应在图中运用不同数量的节点进行练习和推理。此外,咱们的网络是类不可知的,具有跨不同类别的泛化才能。所有这些特性在实践运用中都遭到欢迎。试验标明,该办法优于现在最先进的图匹配学习办法。
网址:
https://arxiv.org/abs/1904.00597