您的位置
主页 > 国际新闻 » 正文

CVPR 2019丨京东AI斩获3项冠军和2项亚军,京东技术转型成果显着

来源:www.mymobilereo.com 点击:1036

2019年6月18日,京东人工智能研究所在美国长滩举行的2019年CVPR计算机视觉高层会议上获得视频运动识别、商品图片识别和细粒度蝴蝶图片识别三项学术竞赛一等奖。

360buy.com刚刚庆祝了它的16岁生日。除了蒸蒸日上的GMV,专门从事零售的360buy.com在技术领域也看到了许多好消息。2019年6月18日,京东人工智能研究所在美国长滩举行的2019年CVPR计算机视觉大会上获得了三项学术竞赛的第一项。这三项比赛是视频运动识别、商品图片识别和细粒度蝴蝶图片识别。此外,JD.com人工智能研究所还在多人人体分析和食品图像识别比赛中获得第二名,其中多人人体分析比赛在2018年获得了LIP单人和多人姿势估计赛马场之后的第二名。

*注:CVPR是IEEE计算机视觉和模式识别会议的缩写,即IEEE计算机视觉和模式识别国际会议。

CVPR 2019开幕式

CVPR、ICCV和ECCV被称为计算机视觉领域三大国际会议之一。与2018年相比,本次CVPR提交的论文数量增加了56%,但论文的接受率却下降了3.9%,这表明论文选择的难度增加了。此次,JD.com人工智能研究所发表了12篇关于CVPR 2019的论文,其中4篇论文也被选为口头报告,而口头报告的入选率仅为5%,被视为“皇冠上的明珠”。与2018年相比,

CVPR 2019的论文数量增加了56%

。自2017年2月京东宣布全面技术改造以来,一方面,京东一直以客户为先,不断挖掘用户需求,大规模应用技术创新,不断超越用户需求。另一方面,京东不断深化技术,以专业、系统、模块化、开放的方式为京东和外部产业提供专业技术能力。随着人工智能技术的发展,至今已经取得了许多突破。所有行业都在张开双臂,利用人工智能技术红利来降低成本和提高效率。360buy.com得益于其巨大的场景优势,并应用了这些前沿人工智能技术。目前,技术改造道路已经取得显着成效。

2019 JD.com 618今年618的订单总额为2015亿元,“照片购买”进口订单是去年618的10倍,是去年618的12倍。人工智能技术的进步带来了照片购买准确性和用户体验的跨越式提升。618推广期间,360buy.com的在线智能客服提供24小时全天候服务,从1到18年累计咨询量超过3200万次。6月18日,智能客服独立解决了130多万条自我管理查询。京东京东的人工智能开放平台全面升级,6月1日至18日累计访问量达237.66亿次。

京东人工智能事业部副总裁、京东人工智能研究所副总裁、计算机视觉和多媒体实验室主任梅涛博士表示,我们将继续深化计算机视觉方向,让科学研究引领业务创新。基于JD.com人工智能研究所的技术成果,京东人工智能业务团队将很快投入商业应用。

赢得了3项冠军和2项亚军,涵盖了计算机视觉多个方向的视频分析和理解

ActivityNet自称是视频领域的ImageNet,涵盖了运动识别、运动定位和检测等多种视频内容理解任务。其中,视频运动识别是最核心、最基本的任务,可以充分验证视频理解中涉及的神经网络结构和训练机制的优缺点,以及技术前沿的重要指标。由谷歌DeepMind组织的

ActivityNet视频运动识别任务(动力学)已经连续举办了三年。今年,视频数据量已达65万,覆盖700个

众所周知,传统的卷积运算往往只在局部进行,忽略了长时间序列的相关性。此外,视频信息的复杂性和视频内容的长度随时间而变化。这种缺陷在视频识别领域更加明显。因此,JD.com人工智能研究所提出了一个通过局部和全局特征传播来学习视频中时空特征的新框架(LGD)。具体而言,构建了一种新的三维神经网络结构来同步学习局部和全局特征。该结构由基本的LGD模块组成,其中每个模块通过两个特征相互传播来同时更新局部和全局特征。这种传播操作有效地结合了局部和全局信息,从而获得更强大的视频特征表达。

常规视频动作

对于构建的3D神经网络结构,最终将获得局部和全局特征。JD.com人工智能研究所进一步提出了一种基于这种方法的分类器来综合这两个方面的信息进行分类。最后,通过这种构造方法获得的LGD网络在常用的大规模视频分类数据集Kinetics400和Kinetics600上分别达到81.2%和82.7%的准确率,都超过了以前最好的视频分类方法。在今年的ActivityNet视频运动识别任务(动力学)中,它也获得了世界第一的领先水平。

未来登陆应用方向:

ActivityNet在视频运动识别方面的突破再次展示了JD.com人工智能研究所在视频内容理解这一重要技术领域的世界领先水平。值得一提的是,JD.com人工智能已经计划将这些自主开发的优秀视频运动识别能力应用到离线零售、安全、5G多媒体、娱乐等领域,以降低成本、提高效率、增强体验。

Image Recognition

京东人工智能研究所在细粒度视觉分类(以下简称FGVC)中获得2项冠军和1项亚军。FGVC学术竞赛已经举办了六次,是计算机视觉领域最权威的精细图像识别竞赛。此次比赛中,京东人工智能研究所分别在商品图片识别和蝴蝶图片识别比赛中获得第一名,在商品图片识别比赛中击败美团评论和东信北友。此外,JD.com人工智能研究所获得食品图像识别第二名。

360buy.com人工智能研究所商品图像识别大赛排名第一

商品图像识别大赛由马龙科技、谷歌研究、FGVC6 Workshop

CVPR2019联合主办。此次比赛涵盖了2019年SKU 100多万张图像数据,是CVPR最大、最多样化的商品识别比赛。在为期两个月的比赛中,共有来自世界各地的96支球队和152名球员通过1600份参赛作品参加了比赛。商品种类繁多。许多类别之间的差异非常小,训练数据直接来自主要的电子商务网站,并且包含大量的噪声数据。

京东人工智能研究所在蝴蝶图像识别大赛中名列第一

京东人工智能研究所在本次大赛中采用的技术方案是基于自己开发的一种新的精细图像分类算法。该算法通过中断原始图像的块输入来“破坏”图像中的结构信息,然后训练神经网络以“破坏”局部区域的顺序识别图像,迫使神经网络掌握关键视觉区域,增强网络学习具有区分度和局部细节的特征的能力。

京东人工智能研究所在菜肴图像识别大赛中名列第二

京东人工智能提出了一种基于对抗的损失函数来区分神经网络中的视觉特征,以进一步突出有价值和重要的视觉特征。最后,让神经网络重构“受损”图像,以增强神经网络对不同局部视觉特征之间的语义相关性建模的能力。

商品种类繁多。许多种类之间的差别很小

蝴蝶种类很多。人眼很难分辨

未来登陆应用方向:

众所周知,商品识别技术被认为是在线和离线智能零售的重要基础。本次学术竞赛中使用的图像分类技术有望在不久的将来应用于360buy.com的照片识别和360buy.com的Circle-K产品自动结算平台,从而进一步发挥360buy.com人工智能研究所的技术优势,提升产品性能。

人体分析

在CVPR 2019 LIP全球大赛中,JD.com人工智能研究所也在多人人体分析大赛中获得第二名,这也是在2018年赢得LIP单人和多人姿态估计轨迹后保持排名榜领先技术的竞争力。

多人人体分析竞赛单元的任务是划分19个身体部位和服装(如脸、外套、手臂等)。)不同人体的照片。

360buy.com人工智能研究所在多人人体分析大赛中名列第二

针对人体分析任务中类别混乱、目标类别小、遮挡严重、姿态和视角多样的挑战,360buy.com人工智能研究所提出了一种能够有效集成高分辨率和低分辨率特征图并输出高精度分割结果的BraidNet神经网络模型。此外,为了有效区分容易混淆的类别,提出了一种基于度量学习的成对硬区域嵌入训练策略。最终整合了DeepLab和HRNet等经典分割模型,获得人体分析竞赛单元亚军。

Future landing application directions:

人体分析任务在搭配购买、照片购买、时尚推荐、虚拟试衣等应用中意义重大,为这些应用提供了基本算法。

京东艾科院CVPR 2019论文选集

京东艾科院海报热烈欢迎

《Destruction and Construction Learning for Fine-grained Image Recognition》 CVPR 2019论文选。从优化的角度出发,通过实验说明了梯度稳定方法之一的BatchNorm如何帮助随机初始化训练检测器,然后将ResNet和VGGNet相结合来加强对小目标的检测。然后分析了其他几篇对探测器进行随机初始化训练的论文,并通过实验细节总结了探测器随机初始化训练的必要条件。

在对象检测任务中,在ImageNet分类数据集上预先训练的分类模型通常用于微调检测任务。然而,这样做有一些限制:

(1)用于特征提取的网络结构是有限的。检测任务更加关注小对象,而参与分类任务的绝大多数网络并不关注小对象。

(2)分类和检测是不同的任务:ImageNet分类数据集是单图单对象,而常见的检测数据集是多图多对象。

因此,通过找到一种不使用预训练模型就能随机初始化训练检测器,同时保证训练稳定收敛的方法,检测结果与使用预训练模型的结果相似。通过大量实验发现,批量归一化方法可以使检测任务的优化空间更加平滑,梯度更加稳定,从而可以用更大的步长进行训练迭代,最终随机初始化训练能够稳定收敛,取得更好的效果。在此基础上,我们可以任意改变特征提取网络,设计出适合小目标检测的结构。分析了VGGNet和ResNet在固态硬盘300检测框架上的性能差异,得出网络第一层的下采样步长对小目标检测非常关键的结论。如果原始图像被直接下采样,许多小物体的位置信息将丢失。

因此,我们结合VGGNet和ResNet的优点,设计了根ResNet,以取消第一层的下采样步骤。最后,根资源网以SSD300框架为基础,在PASCAL VOC 2007和2012以及微软COCO数据集上取得了良好的效果,特别是在小目标检测方面。

京东人工智能研究所接受的论文列表如下:

?探索从头开始训练单炮目标探测器?基于多尺度时空推理的视频社会关系识别

?在图像字幕中指向新对象?无监督域自适应的可转移原型网络



日期归档