本篇文章5820字,读完约15分钟
两年一度的ICCV 2019(国际计算机视觉会议)于10月27日至11月2日在韩国首尔举行!今年的ICCV上塘科技继续创下论文选题数量和质量的新纪录,多次举办竞赛,凸显了中国原创技术领先而深厚的学术背景,引领了计算机视觉的学术发展。
上唐科技与联合实验室共评选出57篇论文(包括11篇口头论文)入选ICCV 2019,并在公开影像、COCO、LVIS等13项重要比赛中获得冠军。特别是,开放图像是数据量最大、数据分布最复杂的竞争对手,也是一般对象检测和实例分割两个领域中最具挑战性的竞争对手,这两个领域比COCO数据大一个数量级,具有更不规则的标记和更复杂的场景。
除了成就之外,上塘科技还在开放的学术交流和生态发展方面为全球学术领域做出了积极贡献。由汤和联合实验室的研究团队去年发布的开源对象检测框架MMDetection已被许多参与今年重大比赛的团队广泛使用。开放图像、COCO、LVIS、许多在mappier和其他竞赛中获胜的团队使用MMDetection作为基准代码库,团队去年提出的HTC和引导锚定方法成为今年许多团队的关键帮助。
在2019年ICCV世博会期间,上塘科技还组织或参与主办了多场挑战和研讨会,来自香港中文大学和上塘联合实验室的周教授参与组织了数千场教程——《计算机视觉的可解释机器学习》。此外,上汤科技的创始人、香港中文大学教授唐晓鸥受邀担任ICCV 2019大会主席。
唐晓鸥,上塘科技创始人,香港中文大学教授
受邀担任ICCV 2019年大会主席
57篇论文入选ICCV 2019,13个项目获得冠军
著名科幻作家阿西莫夫说过,“创新是科学馆的生命力”。上塘科技有着深厚的学术背景,自成立以来一直秉承“坚持原创,让人工智能引领人类进步”的使命,在人工智能技术的研究中不断寻求自我突破和创新。此次,来自上塘科技联合实验室的57篇论文入选ICCV 2019,其中包括11篇口头论文!ICCV报纸的就业率很低,今年的口语就业率只有4.62%。
ICCV 2019年接受的上塘科技论文在多个领域取得突破,包括:用于目标检测的深层网络基本算子、基于插值卷积的点云处理骨干网络、人体感知和增强现实/虚拟场景生成、用于整体场景理解的多模态分析等。这些突破性的计算机视觉算法具有丰富的应用场景,将有助于人工智能产业的发展。
同时,上塘科技不仅在论文受理数量上显示出惊人的实力,而且在ICCV的多项比赛中多次夺冠,一举夺得13项世界冠军。
在谷歌人工智能主办的ICCV 2019年开放图像大赛中,香港中文大学和上汤研究所的联合团队赢得了两个主要赛道的冠军:目标检测和案例分割。组织者提供了数千万个示例框,涵盖了500个结构类别,包括大量缺失的投标、类别混淆和长尾分布。在比赛中,我们受益于团队提出的两项新技术:空间解耦头和自动集成。前者可以使任何单个模型在COCO和Open Images上提高3~4个点的mAP,而后者比单纯的模型融合提高了0.9个点的map。最终,提交的数量远远少于其他高级团队。
在ICCV 2019年COCO竞赛中,来自香港中文大学-上汤科技联合实验室和南洋理工大学-上汤科技联合实验室的MMDet团队获得了物体检测冠军(不使用外部数据集),这也是上汤连续第二次获得COCO检测项目。与此同时,上塘科技的新加坡研究团队也获得了COCO全景图像分割(不使用外部数据集)。
在COCO竞赛中,MMDet团队提出了两种改进算法性能的新方法。针对当前目标帧定位不准确的问题,MMDet团队提出了一种解耦边界感知定位算法,该算法关注目标边缘信息而非目标全局信息,并采用了从粗略估计到精确定位的定位过程,对主流目标检测方法进行了重大改进。
新加坡上塘科技的研究团队探索了全景分割任务的独特性,并提出了几种创新算法。由于全景分割任务既包括目标检测又包括语义分割,以往大部分参赛队伍都分别对目标检测算法和语义分割算法进行了改进。新加坡汤汤研究团队打破常规,探索这两项任务的互补性,提出了一种简单高效的全景-HTC联合训练模型。借助全景-FPN共享权重和混合任务级联联合训练的优势,该模型在特征层统一了两个视觉任务,从而同时实现了两个任务的显著改进。
在由脸谱人工智能研究所主办的首届LVIS挑战赛2019大规模案例细分比赛中,上塘科技研究院团队获得了该项目的冠军和最佳论文奖。与以前的实例分割数据集相比,LVIS的特点是1000多个类别和更自然的长尾分布数据。这些特征对现有的案例分割算法提出了巨大的挑战。商汤研究团队分析了原有模型训练的监督模式,针对长尾问题提出了一种新的损失函数,可以有效缓解高频类别对小样本类别的影响,从而大大提高小样本在长尾分布中的性能。此外,通过有效利用额外的检测数据,减少了LVIS数据集构造带来的标注不完整的问题,进一步提高了性能。
此外,在由脸谱人工智能研究所主办的ICCV 2019年自主学习大赛中,香港中文大学-上塘科技联合实验室和南洋理工大学-上塘科技联合实验室团队一举夺得全部四项径赛冠军;在麻省理工学院举办的ICCV 2019多时刻时间挑战大赛中,香港中文大学和上汤研究所的联合团队获得了多标签视频分类赛道冠军;在由Insight Face主办的ICCV 2019轻量级人脸识别挑战赛中,香港中文大学和上汤研究所的联合团队获得大型模型视频人脸识别冠军;在ETH举办的ICCV AIM 2019视频临时超分辨率挑战赛中,上塘科技队获得冠军;在视觉目标跟踪领域的国际权威竞赛VOT2019挑战赛中,上塘科技团队赢得了VOT实时目标跟踪挑战赛。
开放实验室取得了丰硕的成果,汤汤将以一颗创新的心迎接来自各方的学者
为了提高学术算法的可重复性,促进行业内的学术交流,从2018年年中开始,香港中文大学-上塘科技联合实验室启动了OpenMMLab项目,并首次开放了重物体检测代码库MMDetection。与其他开源检测库相比,MMDetection具有许多重要优势,包括高度模块化设计、多算法框架支持、显著提高训练效率以及与最新算法支持紧密同步。
作为视觉领域的一项重要任务,在汤教授和联合实验室的共同努力下,运动目标的检测和识别取得了丰硕的成果。今年6月,第二期OpenMMLab发布,许多重要的更新引起了业界的关注:MMDetection(对象检测库)升级到1.0,提供了大量新的算法实现,而MMAction(运动识别和检测库)、MM骨骼(基于骨骼关键点的运动识别库)和MMSR(超分辨率算法库)则是新发布的。
在今年的ICCV会议上,毫米波探测在业界得到了广泛的应用,目前已经在GitHub上获得了近7000颗星,有效地推动了目标探测的应用和新方法的研发。
“科学不是一个人的职业。”现代实验科学的创始人伽利略在16世纪强调了科学研究交流与合作的重要性。为了促进人工智能产业的学术交流和发展,上塘科技还在2019年ICCV世博会期间组织或参与主办了多次挑战和研讨会。
香港中文大学商汤联合实验室的周教授参与组织了一个面向成千上万人的教程,主要探讨了解释机器学习的原因、典型方法、未来趋势和潜在的工业应用。
第一次计算机视觉中的统计深度学习研讨会和第二次计算机视觉中的服装艺术与设计研讨会(第二次服装、艺术与设计中的计算机视觉研讨会),邀请了麻省理工学院、伯克利、加州大学洛杉矶分校、石溪、约翰·霍普金斯大学等多位著名教授发表主旨演讲并分享。
在ICCV展区(展位:A-1),上塘科技的许多创新型人工智能产品也出现在世界舞台上,包括自动驾驶、SenseAR特效引擎头像、SensMatrix物体三维重建、SensMatrix人脸三维重建等11个产品,给大会带来了丰富的经验和创新的灵感。
同时,10月31日晚,上塘科技还将举办感知时代晚会活动,邀请简历领域的顶尖学者和科学家与学生代表面对面交流,探讨人工智能的学术新动向,为人工智能未来的发展培养一支新的力量。商汤愿与来自四面八方的有创意的学者见面。
ICCV 2019年商汤与联合实验室论文选
在此,列举了上汤和上汤联合实验室为ICCV 2019年大会选出的几篇有代表性的论文,从四个方向阐述了计算机视觉和深度学习技术的最新突破。
目标检测的深层网络基本算子
代表性论文:CARAFE中的特征上采样:内容感知特征重组是深层神经网络结构中的一个基本操作,如特征金字塔。它的设计对需要密集预测的任务有关键影响,例如对象检测、语义分割和实例分割。在这项工作中,我们提出了内容感知特征重组(CARAFE),这是一个通用的,轻量级和有效的特征上采样操作。
CARAFE有一些显著的特点:1 .广阔的视野。与以前的上采样方法(如双线性插值)不同,只使用子像素的相邻位置。CARAFE可以从大的感受野聚集环境特征信息。2.基于特征感知的处理。与之前对所有样本使用固定核(如反卷积)的方法不同,CARAFE可以检测不同位置的内容,并使用生成的动态核进行处理。3.轻量级和快速计算。CARAFE只带来一点额外的开销,并且可以很容易地集成到现有的网络结构中。我们广泛测试了CARAFE在目标检测、实例分割、语义分割和图像恢复方面的主流方法,CARAFE在所有四项任务中都取得了一致和明显的改进。CARAFE有潜力成为未来深度学习研究的有效基础模块。
面向三维视觉的点云处理基础网络
代表性论文:基于插值卷积的点云处理骨干网
点云是一种重要的三维数据类型,广泛应用于自动驾驶等场景。传统方法依赖光栅化或多视图投影,并将点云转换成图像和体素进行处理。近年来,池神经网络和图神经网络在点云处理中表现出了良好的性能,但是它们仍然受到计算效率的限制,并且算法容易受到对象规模和点云密度等因素的影响。
本文提出了一种新的卷积方法——插值卷积,它能有效地从点云中学习特征。插值卷积从标准图像卷积和图像插值中获得灵感。卷积核被分成一组向量,这些向量在空之间是离散的,并且每个向量都有自己的三维坐标。当点云中的一个点落在卷积向量的邻域内时,参照图像插值过程,将该点对应的特征向量插值到卷积向量对应的位置,然后进行标准的卷积运算,最后通过正则化消除点云局部分布不均匀的影响。
针对不同的任务,提出了一种基于插值卷积的点云分类分割网络。分类网络采用多路径设计,每条路径的插值卷积核大小不同,使得网络能够同时捕捉全局和细节特征。分割网络参考图像语义分割网络设计,采用插值卷积进行下采样。在三维目标识别、分割和室内场景分割的数据集上,我们取得了比其他方法更好的性能。
增强现实/虚拟现实场景的人类感知与生成
代表性论文:“无限图片三维人体重建中混合标记的深入研究”
尽管计算机视觉研究者在单目三维人体重建方面取得了很大的进展,但是用无限的图像重建三维人体仍然是一个挑战。主要原因是难以在无限制的图片上获得高质量的3D注释。为了解决这个问题,以前的方法经常使用混合训练策略来使用许多不同的注释,包括3D注释和2D注释。虽然这些方法已经取得了很好的效果,但是他们还没有研究不同注释对于这个任务的有效性。
本文的目的是详细研究不同标签的投入产出比。特别是,我们的目标是用无限的图片重建三维人体。通过大量的实验,我们得出以下结论:1 .三维标记非常有效,而传统的2D标记,包括人体关键点和人体分割,效果不是很好。2.密集反应非常有效。当没有成对的三维标注时,响应密集的模型可以达到用三维标注训练的模型的92%的效果。
代表性论文:基于卷积网络的人体骨骼序列生成
现有的计算机视觉技术和图形技术可以生成或渲染生动的图像片段。在这些方法中,人体骨骼序列的驱动是必不可少的。高质量的骨骼序列要么通过使用运动捕捉设备从人体获得,要么由运动设计者手工制作。这项工作的目标是让计算机完成这些动作,并有效地生成丰富、生动、稳定和长期的骨骼序列。
本文利用高斯过程生成随机序列,利用对抗网络和时间空图卷积网络学习随机序列和动作序列之间的映射关系。该方法不仅可以生成动作序列,还可以将动作序列映射到随机序列所在的空位置,并通过高斯过程进行编辑、合成和完成。
在该方法中,对真实人物动作捕捉到的NTU-RGB+D数据集和我们收集到的虚拟歌手“哈苏妮·米库”的大量舞蹈设计动作进行了详细的对比实验。实验表明,与传统的自回归模型相比,本文使用的图卷积网络可以大大提高生成的质量和多样性。
全场景理解的多模态分析
代表性论文:基于图匹配的电影视频跨模式检索框架
电影视频检索在日常生活中有着巨大的需求。例如,当人们浏览一部电影的文本介绍时,他们通常会被精彩部分所吸引,并希望观看相应的剪辑。然而,通过文本描述检索电影剪辑仍然存在许多挑战。与日常生活中普通人拍摄的短片相比,电影有很大的不同:1。电影是长时间的视频,时间序列结构非常复杂。2.电影中人物的互动是故事的关键要素。因此,我们设计了一种新的算法,利用电影的这两种内部结构来匹配文本段落和电影片段,从而达到根据文本搜索电影片段的目的。
首先,我们提出一个事件流模块来模拟电影的时间特性。基于二分匹配,该模块根据事件将文本中的每个句子与电影片段的相应子片段进行匹配。其次,我们提出了一个字符交互模块,通过图形匹配算法计算从文本中解析出的字符交互图和从视频中提取的字符交互图之间的相似度。结合这两个模块的结果,我们可以得到比传统方法更准确的匹配结果,从而提高检索的准确率。
代表性论文:视觉信息的音频恢复
多模态融合是发展交互智能的重要途径。在多媒体信息中,一段音频信号可能被噪声污染或在通信中丢失,因此需要修复。本文提出了一种基于视频信息的音频恢复方案来恢复丢失的音频信息。
该方案的核心思想如下:1 .音频信号在频谱上运行,频谱被视为二维图像信号,可以极大地利用计算机视觉的优势,超越传统的音频解决方案。2.为了融合视觉信息,基于音视频同步学习的joint 空将发挥巨大优势。
为了解决这个问题,我们将现有的多模态乐器演奏数据集MUSIC扩展为一个新的更全面的数据集MUSICES。实验表明,我们的基于视觉融合的音频恢复系统无需视频信息注入就可以取得相当好的效果,并且在添加视频信息后,可以生成与视频相协调的音频片段。(照片由上塘科技提供)
编辑:张洋
标题:ICCV 2019年商汤科技论文57篇
地址:http://www.71vw.com/zlxw/2685.html