优必选获TRECVID 2017 VTT matching and ranking任务冠军

新虎 出处:新虎 2017-11-17 17:53

近日,由优必选悉尼AI研究院和浙江大学网络与媒体实验室组成的DL-61-86队伍参加TRECVID 2017和大规模电影描述与理解挑战Large Scale Movie Description and Understanding Challenge (LSMDC 2017)的多项任务,并获得了TRECVID 2017 VTT matching and ranking任务的第一名,以及LSMDC 2017两个任务的第二名。
       随着深度学习在计算机视觉方面大放异彩,近几年视频领域的研究也得到了飞速的发展。数据显示,人们在视频上花费的时间是图片的2.6倍,因此视频领域的研究具有巨大的研究意义和应用价值。与图像相比,视频拥有更加丰富的信息,该领域的研究也更富挑战性。TRECVID(http://trecvid.nist.gov)是视频检索领域最权威的国际评测,由美国国家标准技术局(National Institute of Standards and Technology, NIST)组织,得到了包括美国国防部高级研究计划局(DARPA)在内的美国多个政府部门的支持,代表国际视频相关技术的领先水平。今年,优必选悉尼AI研究院组队参加了TRECVID 2017视频到句子匹配和排序的任务(VTT matching and ranking)。

优必选获TRECVID 2017 VTT matching and ranking任务冠军

图1 TRECVID 2017 VTT matching and ranking任务的结果
       VTT matching and ranking任务吸引了来自全球35支队伍报名参赛(包括内基梅隆大学、阿姆斯特丹大学、香港城市大学、悉尼科技大学、北京大学、中国人民大学、卡内基梅隆大学博世(BOSCH)研究中心等国内外大学和研究所),是今年报名参加队伍数量排名第二的任务,从侧面也反应了该任务在研究领域的受欢迎程度。VTT matching and ranking任务的内容是给定一个视频,参赛者需要从大量的候选句子中选出一个最好的句子来描述视频。该任务的难点在于视频和句子属于两种模态的数据,因此视频和句子不能直接进行比较。这也是跨媒体检索领域的重要研究问题,因此这项任务具有广泛的实际意义。

优必选获TRECVID 2017 VTT matching and ranking任务冠军

图2 DL-61-86队伍的解决方案框架
       在VTT matching and ranking任务上,优必选悉尼AI研究院的解决方案(https://ai.ubtrobot.com/sharelink/TRECVID2017_DL-61-86_VTT.pdf)是利用两个神经网络分支分别把视频和句子编码映射到一个共同的空间里(common space),在这个空间计算视频和句子的相似度(similarity),从而可以根据相似度对所有候选的句子进行排序,网络框架如图2所示。
       对于视频编码分支网络,优必选悉尼AI研究院提出了空间信息增强的视频表达,通过结合Gated Recurrent Units (GRU)和skip connections来加强对视频空间信息的表达。同时,优必选悉尼AI研究院引入注意力机制(Attention mechanism)让模型重点关注视频中的关键帧,从而避免视频帧之间信息的冗余。对于句子编码分支,优必选悉尼AI研究院引入了多尺度的句子编码。多尺度的句子编码同时考虑了单词尺度以及句子尺度的信息,让模型自己学习如何组合这些来自不同尺度的信息,从而学习得到一个更好的句子特征编码器。该解决方案以大幅度的优势获得了VTT matching and ranking任务的第一名。
       Large Scale Movie Description and Understanding Challenge (LSMDC 2017)是由普朗克信息学研究所、多伦多大学、迪士尼研究院、Facebook人工智能研究院等大学和研究机构联合创办。今年的LSMDC 2017比赛,作为 ICCV 2017的一个workshop,吸引了来自全世界的众多队伍参加。优必选悉尼AI研究院参加了该比赛的两个任务,分别是电影描述(Movie Description)以及电影的标注与检索(Movie Annotation and Retrieval)。

优必选获TRECVID 2017 VTT matching and ranking任务冠军

 
图3 DL-61-86队伍在Movie Description任务中的解决方案
       Movie Description的任务内容是通过自动生成一句话来描述给定的电影片段。优必选悉尼AI研究院的解决方案(https://ai.ubtrobot.com/sharelink/03-Dong.pdf)是利用编码和解码的网络框架(encoder-decoder framework)来实现,首先利用空间信息增强的视频表达来对电影片段进行编码,然后通过GRU把编码后电影解码成一句话。该方案在7个评测指标中获得3个第一、2个第二以及2个第三。Movie Annotation and Retrieval任务分成两个子任务,分别是Movie Multiple-Choice Test和Movie Retrieval。Movie Multiple-Choice Test任务是给定一个电影片段,参赛者需要从5个句子中挑选一个句子来描述电影片段,而Movie Retrieval任务是给定一个句子,参赛者需要对所有候选电影片段进行排序。这两个任务的核心问题都是如何计算电影片段和句子的相似度,因此优必选悉尼AI研究院采用了TRECVID 2017 VTT matching and ranking任务上的相同方案,最终都获得了第二名的成绩(图4、图5和图6为LSMDC 2017比赛任务的排行榜)。

优必选获TRECVID 2017 VTT matching and ranking任务冠军

图4 LSMDC 2017 Movie Description任务排行榜
 

优必选获TRECVID 2017 VTT matching and ranking任务冠军

图5 LSMDC 2017 Movie Multiple-Choice Test任务排行榜
 
 

优必选获TRECVID 2017 VTT matching and ranking任务冠军

图6 LSMDC 2017 Movie Retrieval任务排行榜
       除了TRECVID,今年7月,在CVPR 2017的VQA比赛中,优必选悉尼AI研究院与杭州电子科技大学、北卡罗来纳大学夏洛特分校组成联合队伍HDU-USYD-UNCC,在来自全球最顶级的几十支大学、研究机构和企业队伍中获得了第二名的成绩,仅次于阿德莱德大学与微软研究院组成的联合队伍。VQA(视觉问答,Visual Question Answering)以一张图片或者一段视频和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。这是未来机器人通过视觉系统认知和理解世界,并与人互动的关键技术。VQA是一种涉及计算机视觉和自然语言处理的学习任务,是近年来非常热门的一个研究领域,也是AI落地的一项重要技术领域。
       同时,在CVPR 2017的ILSVRC 2017(ImageNet Large Scale Visual Recognition Challenge 2017) 视频物体检测(Object Detection from Video)竞赛的四个项目(包括给定训练数据条件下的视频物体识别、额外训练数据条件下的视频物体识别、给定训练数据条件下的视频物体识别/追踪,以及额外训练数据条件下的视频物体识别/追踪)中,优必选悉尼AI研究院与帝国理工学院组成的联合队伍IC-USYD都以领先第二名超过5%的成绩取得了第一名。ILSVRC 2017视频物体检测竞赛主要考察在视频里中获取物体的能力,对于机器人而言这是一项非常重要的工作,例如它在行走过程中就能知道这个场景里有多少物体,有什么物体。人眼看到的视觉不是一张张照片,而是连续的视觉的信息,未来机器人的视觉系统也将是对连续视觉的理解。

优必选获TRECVID 2017 VTT matching and ranking任务冠军

图7 优必选与清华合作的仿人形机器人获得RoboCup人形组AdultSize比赛第二名
       2017年7月30日,优必选还与清华大学联队参加了RoboCup(机器人世界杯)人形组AdultSize的比赛,并以13分的成绩获得了该组技术挑战赛的第二名,仅次于拿下了15分的德国NimbRo队。RoboCup是目前全球规模最大、水平最高、影响最广的机器人专业赛事,其机器人足球项目被分为仿真组、小型组、大型组、标准平台组和人形组五个组别,代表了未来几年双足人形机器人进行足球比赛的技术方向。
       正是得益于在科研层面的厚积薄发,优必选不仅在全球重要国家及地区如美、欧、日、韩及PCT国际申请都进行了相应的专利规划及战略布局,还在多项国际重大赛事上取得了优异的成绩。未来,优必选将继续以核心人才和原创技术作为驱动,积极打造“硬件+软件+服务+内容”机器人生态圈,通过技术创新和产品创新为人类缔造更美好的生活。