网易首页 > 网易号 > 正文 申请入驻

Google AI地标检索识别竞赛双料获胜方案 | 飞桨PaddlePaddle开源

0
分享至

机器之心发布

来源:百度飞桨

近日,百度视觉团队基于飞桨(PaddlePaddle)深度学习平台,自主研发的地标检索/识别解决方案,在 Google Landmark Retrieval 2019[1] 和 Google Landmark Recognition 2019[2] 两个任务中都斩获第二名,并受邀在计算机视觉领域的顶级学术会议 CVPR 2019 上进行技术分享。

Google 今年更新了目前最大的人造和自然地标识别数据集,发布了 Google-Landmarks-v2,数据集中包含超过 400 万张图片,描述了 20 万处类别地标。训练数据没有经过精细人工标注,类别数目严重不均衡,同一个地标的图像受到拍摄角度、遮挡、天气以及光线等影响很大,同时含有大量非地标数据,符合实际情况,非常具有挑战性。基于此数据集,今年总共吸引全球超过 300 支队伍参与了 Google 主办的地标检索识别竞赛。

图 1 一些地标示例图像以及 top5 的检索结果

地标检索任务关注给定一张图像,需要找到给定数据库中所有相同的地标图像。评估数据超过 10 万张待查询图像(test 集合),以及将近 80 万的检索数据库 (index 集合)。

地标识别任务关注给定一张图像,标注该图像是不是地标,如果是地标,需要标注其在 20 万种地标的类别。

评估数据与地标检索任务的待查询图像相同,据比赛完推算,其中有地标的图像不到 2000 张。当前,百度视觉团队的获奖方案已经提交到 arxiv 上,并且在 Github 上开源代码。下面将为大家详细解读。

论文地址:https://arxiv.org/pdf/1906.03990.pdf

开源项目地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/Research/landmark

地标检索解决方案

在地标检索比赛中,我们使用

ImageNet

预训练的模型参数作初始化,然后在 GLD v2(Google LandMark Dataset V2)上进行训练。网络结构上,我们使用了 ResNet 152 [4], ResNet200 [4], SE_ResNeXt152 [5] 和 Inception V4[6] 作为骨干网络。其中 ResNet 系列都是基于论文 [3],使用了 ResNet_VD 的改进版本,这 4 个模型在 ImageNet 上的 1000 分类任务上 top1 的准确率分别为 80.59%,80.93%,81.40% 和 80.77%。这些模型及训练方法都已经在飞桨的 Github 图像分类项目中开源 [7]。

图 2 地标检索任务解决方案流程图

在训练检索特征过程中,为了使特征紧凑,通过一层全连接将骨干网的输出(不包含 softmax 分类全连接层以及之后的网络)映射到 512 维,同时采用 arcmargin loss[8] 替换传统的 softmax loss,调整训练图像分辨率为 448*448,进一步提升模型特征的表达能力。此外,比赛过程中还基于 Npairs Loss[9],以及将 index 集合的 80 万张图像聚类后加入训练,学习更多种不同维度的特征,提升整个系统的泛化能力。所有训练检索特征的代码也已经在飞桨的 Github 度量学习项目中开源 [10]。

在解决方案中,除了基础特征外,检索策略还使用了 Query Expansion(QE)[11] 和 Database Augmentation(DBA) 策略。不同于传统的 QE 和 DBA,在选取平均队列中,进一步加入了 Local feature 重排和分类重排。Local feature 能够拉回一些角度,尺度变换大的 Case,如图 3 所示。

图 3 局部特征效果示例

此外,比赛中,还基于全量数据训练了分类模型,通过分类 rerank 来进一步提升检索指标。分类能够拉回一些跨域的图片,比如一张 test 图片可以拉回相应地标的老照片等。在分类重排的时候,使用了多分类投票的策略,投票选取了 test 和 index 图片的类别,从而每一张 test 图片请求 index 库时候,把相同类别的图片前置。利用分类和 Local feature 进行重排后,能进一步提升 QE 和 DBA 的效果。具体的效果如表 1 所示。

地标检索任务评估指标采用 mAP@100,详细定义参考 Google Landmark Retrieval 2019[1] 官方说明

表 1 不同模型和策略的检索效果

地标识别解决方案

图 4 地标识别任务解决方案流程图

地标识别任务解决方案流程如上图,主要包含如下三步:

1.基于全局检索特征识别地标类别。

在地标识别任务中,利用检索特征,用 11 万的测试集合与 400 万的训练集合进行匹配。基于检索结果中 top5 图片的 label, 对它们进行类别投票,选取 top5 中类别最多的类当作测试图片的预测类别,该类最大得分作为预测得分。这一步后,GAP 指标会达到 private/public:0.10360/0.09455。由于识别比赛使用 GAP(Global Average Precision)作为评估指标(详细定义参考 Google Landmark Recognition 2019[2] 官方说明),如果大量非地标图像得分也很高,则会大幅度的降低 GAP 指标。虽然检索特征的识别效果很好,可以准确识别出地标的类别,但是由于检索任务并没有考虑非地标图的过滤,部分非地标图得分也很高,所以直接使用检索特征,GAP 指标并不理想。地标识别任务的一个关键是如何排除掉大量的非地标图像。

2.基于通用目标检测器过滤非地标图像

为了过滤非地标图像,在比赛中,基于 Faster RCNN 通用目标检测算法 [12] 和公开的 Open Image Dataset V4 数据集 [13] 训练了一个通用目标检测器。Open Image Dataset V4 包含了超过 170 万的图片数据,500 个类别以及超过 1200 万物体框。百度视觉团队曾经在 Google AI Open Images-Object Detection Track(简称OpenImagesV4Det[14]) 目标检测任务中斩获第一。OpenImagesV4Det 的夺冠方案融合了不同深度学习框架和不同骨干网络多种检测器。而在地标识别比赛中,为了提高预测速度,借鉴 OpenImagesV4Det 比赛中采用的动态采样、多尺度训练以及 soft-nms 等经验,选取 ResNet50 作为骨干网络,重新训练一个单模型目标检测器,该检测器只采用单尺度测试,在 OpenImagesV4Det 比赛 public LB 的指标可以达到 0.55。单模型检测效果达到 OpenImagesV4Det 比赛 top10 水平。这个检测模型的预测代码已经随本解决方案开源,其训练代码计划后续开源在飞桨的检测模型库里。

基于上述目标检测器过滤非地标图像主要有如下两步:

  • 目标检测器把所有的 test 集合图像分成了三个部分:地标集合,非地标集合以及模棱两可的图像集合。给定一张图像,利用图像物体之间的关联性,认为只要检测出的结果中包含 Building, Tower, Castle, Sculpture and Skyscraper 类别,那么这张图像就是包含地标的图片。如果检测器中包含 House, Tree, Palm tree, Watercraft, Aircraft, Swimming Pool 和 Fountain,那么就认为该目标是模棱两可,无法判断是不是含有地标,直接忽略。对于非地标集合,如果检测框得分大于 0.3,而且检测框占原图的面积大于 0.6,则认为这张图像是非地标图像。通过这一步,从 11 万多的测试集合中过滤出了 2.8 万的非地标图片。
  • 为了进一步过滤非地标图像,解决方案中使用剩下的测试集合图片去检索上述非地标的 2.8 万张图像,如果检索 top3 的图片 score 超过了阈值,那么也认为该图片是非地标。通过这一步,又过滤了 6.4 万的图片。经过上述两步,一共过滤了 9.2 万张图片,GAP 指标达到 private/public:0.30160/0.28335。

3.多模型融合

在过滤完非地标图片之后,解决方案里使用了多模型融合的策略进一步提升 GAP。

图 5 多模型分区策略

如图 5 所示,先使用 ResNet152 的检索模型对所有被识别为地标的图像进行分区,具体的分区规则为:

  • A1:测试图像去检索 400 万的训练数据库,top5 的类别少于等于 2 类,并且最小的预测分值>= 0.9;
  • A2:类似于 A1,top5 的类别少于等于 2 类,最大的预测分值>=0.85;
  • A3:不同于 A1,A2,A4 以外的图像;
  • A4:所有 Top5 返回图像的类别都完全不相同。

根据检索返回的类别和得分进行分区后,按照 A1 > A2 > A3 > A4 进行排序,GAP 的值达到 private/public:0.31340/0.29426。

对上述每个分区,进一步用分类模型的信息进行细分。

  • B1:检索预测的类别和分类预测的类别相同;
  • B2:不满足 B1 条件的图片。

使用 B 策略对 A 的每个分区内进行重排,识别效果进一步提升,GAP 指标达到 private/public:0.32574/0.30839。

最后,采用针对这个比赛才适用的 trick,即基于测试图像中地标类别出现的频率排序,GAP 达到 private/public: 0.35988/0.37142。比赛后,对上述策略进一步调参,发现 GAP 可以达到 private/public: 0.38231/0.36805。超越目前榜单最高分 private/public: 0.37606/0.32101。感兴趣的读者可以参看论文。这个策略之所以有效,初步推测可能与比赛的真值漏标有关。

总结

本文所介绍的图像识别和特征学习技术已经应用到百度的图像识别检索应用中,为通用图像搜索入口(图搜,手百)提供通用检索识别能力,同时覆盖商品、车型、品牌 logo、景点、植物花卉、公众人物识别等多种垂类的识别。

本次比赛完全基于飞桨深度学习平台实现,飞桨是集深度学习核心框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台。百度视觉团队联合飞桨在视觉技术上有深厚的积累,目前 PaddleCV 已开源覆盖图像分类、图像目标检测、特征学习、图像分割、OCR、人脸检测、GAN、视频理解等类别,基于真实业务场景验证的、效果领先的优质模型,例如目标检测经典模型 YOLOv3,基于飞桨的实现,增加了 mixup,label_smooth 等处理,精度 (mAP(0.5:0.95)) 相比于原作者提高了 4.7 个绝对百分点,在此基础上加入 synchronize batch normalization, 最终精度相比原作者提高 5.9 个绝对百分点。

百度视觉团队曾首创了 Pyramidbox、Ubiquitous Reweighting Network、Action Proposal Network、StNet 和 Attention Clusters 等算法,在识别人、识别物、捕捉关系三个技术领域均具备业界最领先的技术实力,不仅用于百度内部产品,也通过百度 AI 开放平台持续对外输出,目前已对外开放了包括人脸识别、文字识别(OCR)、图像审核、图像识别、图像搜索等在内的 70 多项基础能力,为开发者和合作伙伴提供全栈式计算机视觉能力,让他们将领先的 AI 能力转换成让复杂的世界更简单的神奇力量,进而推动全行业、全社会的智能化变革。

参考文献

[1] https://www.kaggle.com/c/landmark-retrieval-2019

[2] https://www.kaggle.com/c/landmark-recognition-2019

[3]Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, JunyuanXie, Mu Li, Bag of Tricks for Image Classification with Convolutional NeuralNetworks, In CVPR 2019

[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR 2016

[5] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation net- works. In CVPR 2018

[6] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander AAlemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI 2017

[7]https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification

[8] Jiankang Deng, JiaGuo, NiannanXue, and StefanosZafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018.

[9] Kihyuk Sohn, Improved Deep Metric Learning with Multi-class N-pair Loss Objective, In NIPS 2016

[10]https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/metric_learning

[11] OndrejChum,JamesPhilbin,JosefSivic,MichaelIsard,and Andrew Zisserman. Total recall: Automatic query expan- sion with a generative feature model for object retrieval. In ICCV 2007

[12]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, BharathHariharan, Serge Belongie, Feature Pyramid Networks for Object Detection, In CVPR 2017

[13]https://storage.googleapis.com/openimages/web/factsfigures_v4.html

[14]https://www.kaggle.com/c/google-ai-open-images-object-detection-track

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
龙门石窟导游马丁不简单!得知他的专业后,董宇辉:简直看不出来

龙门石窟导游马丁不简单!得知他的专业后,董宇辉:简直看不出来

焦糖三分甜
2024-04-26 12:12:36
悲哀!网传导游带着日本人插队,称外国人优先,网友爆粗口争执…

悲哀!网传导游带着日本人插队,称外国人优先,网友爆粗口争执…

火山诗话
2024-04-25 13:34:43
布林肯急迫访华,中美经济博弈进入尾声,拜登人心皆失

布林肯急迫访华,中美经济博弈进入尾声,拜登人心皆失

兵国大事
2024-04-25 17:33:36
2005年,蓝洁瑛流落街头,成奎安吩咐饭店老板:以后她吃饭我买单

2005年,蓝洁瑛流落街头,成奎安吩咐饭店老板:以后她吃饭我买单

回京历史梦
2024-04-26 10:27:43
李显龙:美国打败中国,就像打败苏联一样?惊人言论震惊世界

李显龙:美国打败中国,就像打败苏联一样?惊人言论震惊世界

说天说地说实事
2024-02-12 08:03:10
闹大了!120人被捕

闹大了!120人被捕

环球时报新闻
2024-04-25 15:49:58
贵州省委常委、常务副省长吴强 已兼任新职

贵州省委常委、常务副省长吴强 已兼任新职

鲁中晨报
2024-04-26 10:17:06
噩耗!网红阿阳巴基斯坦老婆下葬,墓地曝光,好友爆料阿阳想抱养

噩耗!网红阿阳巴基斯坦老婆下葬,墓地曝光,好友爆料阿阳想抱养

娱乐八卦木木子
2024-04-26 17:48:54
范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

听栀子说
2024-04-24 21:27:43
高层住宅在苏联时期已经证明是一个巨大的骗局,不适合兴建居住!

高层住宅在苏联时期已经证明是一个巨大的骗局,不适合兴建居住!

前沿科技学习分享圈
2024-04-20 13:56:38
美国国务卿布林肯抵达人民大会堂

美国国务卿布林肯抵达人民大会堂

环球网资讯
2024-04-26 16:04:14
黄景瑜王一博路演同框!现场路人纷纷转粉,这颜值真的是硬帅!

黄景瑜王一博路演同框!现场路人纷纷转粉,这颜值真的是硬帅!

娱乐的小灶
2024-04-26 16:49:09
专家:不要那么傻,坚决反对提前还贷,贷款就是你占了银行便宜

专家:不要那么傻,坚决反对提前还贷,贷款就是你占了银行便宜

双色球的方向舵
2024-04-26 11:38:19
上海突发!陈德美被查

上海突发!陈德美被查

中国基金报
2024-04-25 20:14:03
揭秘李晨与杨颖恋情曝光真实内幕

揭秘李晨与杨颖恋情曝光真实内幕

代军哥哥谈娱乐
2024-04-25 10:25:48
梅婷解衣露乳争议大,电视剧流量未增反降!

梅婷解衣露乳争议大,电视剧流量未增反降!

娱乐八卦木木子
2024-04-24 01:43:27
什么是电动自行车车载充电器?为何要禁止这类产品

什么是电动自行车车载充电器?为何要禁止这类产品

户外小阿隋
2024-04-26 18:04:06
两门相对,必有一败?门对门到底该怎么办

两门相对,必有一败?门对门到底该怎么办

为什么有冬天夏天
2024-03-19 21:09:52
英超2强赛程!都要对热刺,曼城已4连败,阿森纳赢2队有望夺冠

英超2强赛程!都要对热刺,曼城已4连败,阿森纳赢2队有望夺冠

体育知多少
2024-04-26 07:35:11
官宣!世界台联做出重要决定,事关大赛奖金,丁俊晖道歉令人泪目

官宣!世界台联做出重要决定,事关大赛奖金,丁俊晖道歉令人泪目

拳击时空
2024-04-26 06:26:08
2024-04-26 20:00:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
8934文章数 141895关注度
往期回顾 全部

科技要闻

车展观察|德系日系绝不能放弃中国市场

头条要闻

耶伦就"制裁与俄罗斯进行贸易的中国银行"最新表态

头条要闻

耶伦就"制裁与俄罗斯进行贸易的中国银行"最新表态

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

贾跃亭,真他娘是个人才

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

家居
数码
亲子
本地
公开课

家居要闻

光影之间 空间暖意打造生活律动

数码要闻

三重激光避障!米家全能扫拖机器人M30图赏

亲子要闻

妈妈晒自己一岁半的宝贝女儿,太可爱了,浓眉大眼的小美人儿

本地新闻

蛋友碰碰会空降西安!5.1山海境等你!

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版