网易首页 > 网易号 > 正文 申请入驻

这位顶会领域主席的论文被自己的AI审稿系统拒绝了

0
分享至

今日,arXiv 上刚发布的一篇论文引起了极大的关注。该研究基于论文的视觉外观训练了一个分类器来预测一篇论文应该被接收或者拒绝。该论文作者为弗吉尼亚理工学院助理教授 Jia-Bin Huang,同时他也是 CVPR 2019、ICCV 2019 的领域主席(Area Chair,AC)。

  这篇有趣的论文刚刚公开就在 Twitter 上引发热议。这篇文章表示,好的论文版面非常重要。该研究中仅基于论文视觉外观训练出的分类器可以拒绝 50% 的坏论文,只有 0.4% 的好论文没被接收。然而,作者把训练出的分类器应用到这篇论文本身时,该论文遭到了无情拒绝,且拒绝概率高达 97%。真是自作孽啊(大雾……

  当然,网上评论中也存在质疑。有网友表示,「一篇论文该不该被接收要由视觉外观决定吗?」

  在了解此论文之前,让我们先看下视频演示:

  作者在 Github 上放出了这篇论文的数据集与预训练权重,感兴趣的同学可以查看 Github 项目:https://github.com/vt-vl-lab/paper-gestalt。

  以下是对此论文的介绍:

  同行评审是社区中的其他专家对一份学术工作进行的全面审查,是传播科学成果的关键一环。然而,顶会论文投稿量的破纪录增长和合格评审者数量不足之间的矛盾使得同行评审过程举步维艰(见图 1)。为了审查所有的投稿论文,大会组织者不得不扩充评审者团队,并不可避免地将一些资历不深的学生也包括进来 [3]。这可能导致,花了几个月或几年时间写论文的作者最后收到的是不合理、欠考虑或不公平的评审结果。

  图 1:需求。过去几年,计算机视觉顶会论文数量激增,但合格的评审者数量增长却没有那么明显。

  本文作者从两方面解决这一矛盾。首先,他使用往届大会的论文训练了一个深度卷积神经网络,该网络基于论文的视觉外观(即论文版面,paper gestalt [19])决定论文质量。其次,他还为论文作者提供了一些诊断工具,帮助其改进以后要提交的论文。该深度神经网络的训练数据是 2013 - 2017 年 ICCV/CVPR 大会和 workshop 论文数据,基于此神经网络的分类器在 CVPR 2018 论文上的分类准确率可以达到 92%。这一模型可以有效拒绝 50% 的糟糕论文,错判的好论文仅占 0.4%。因此,该系统可以作为一系列论文评审过程的预过滤器。使用收集的计算机视觉论文版面(CVPG)数据集可以:1)可视化好/坏论文的判别区域;2)将一篇糟糕的论文直接转换成一篇好论文。这些工具可以告诉作者版面的哪些地方有待改进,以及如何改进。

  论文:Deep Paper Gestalt

  论文https://arxiv.org/pdf/1812.08775.pdf

  摘要:近年来,计算机视觉会议的接收论文数量激增,但有能力的评审数量却严重不足,这种矛盾给现在的同行评审制度造成了很大的负担。在本文中,我们学习了一个分类器来预测论文是否应被接受,判断依据仅仅是论文的视觉外观(即论文的版面)。实验结果显示,我们的分类器可以有效地拒绝 50% 的糟糕论文,错判的好论文仅为 0.4%,大大降低了审稿人的工作负担。我们还提供了一些工具,利用它们向作者提供建议,作者可据此改善自己论文的格式。

  学习识别好/坏论文

  该研究利用深度卷积神经网络(ConvNet),仅基于论文的视觉外观来学习判别表征。

  数据构建

  数据源:研究者从计算机视觉顶会的接收论文列表中收集正样本(好的论文)。具体而言,研究者收集的是计算机视觉基金会(Computer Vision Foundation,CVF)主办的近期会议接收论文的 Open Access 版本,包括 2013 到 2018 期间的六届 CVPR 和三届 ICCV。

  具体到数据获取和预处理阶段,研究者首先从 CVF Open Access 网站上抓取正负样本,然后为方便分类过滤掉论文不足 7 页的论文,仅保留论文页数 ≥ 7 的论文。接下来使用 pdf2image 工具将下载的论文 PDF 文件转换成图像。最后进行数据预处理,移除论文首页上方的页眉,以防止数据泄露,避免分类器过度注意页眉区域而忽略论文的整体视觉外观。

  表 1:计算机视觉论文版面(Computer Vision Paper Gestalt,CVPG)数据集。

  图 3:CVPG 数据集中的随机样本示例。从上图可见,workshop 论文和大会论文在论文整体版面设计上是有区别的。该研究的目的是利用深度卷积神经网络学习这些模式的表征。

  实验设置

  本研究使用 CVPR 2018 的正负样本作为测试集,2013-2017 年的大会/workshop 论文作为训练集,使用 ResNet-18(在 ImageNet 数据集上进行预训练)作为分类网络。

  研究者将 ImageNet 数据集的 1000 个类别分类换成两个输出节点(好论文/坏论文)。然后运用迁移学习技术,使用随机梯度下降对该预训练模型进行微调以适应 CVPG 数据集,动量设为 0.9,训练 epoch 设为 50,初始学习率设为 0.001,然后每 10 个 epoch 学习率衰减 0.1。为了适应类别不均衡的训练数据,研究者使用加权交叉熵损失,并将训练数据和测试数据中所有图像的大小调整为 224 × 224 像素。训练过程中未使用标准的数据增强技术(如随机剪裁、水平翻转或光度变换),以保持整篇论文的原始视觉内容和排版。该网络在 NVIDIA Titan V100 GPU 上训练,训练时间不到 30 分钟。

  实验结果

  图 4:训练出的论文分类器的性能特征。x 轴表示假正率(坏论文被误判为好论文的比例);y 轴表示假负率(好论文被误判为坏论文的比例)。

  图 5:坏论文的特定类别判别区域。(上)论文不足 8 页是坏论文的特征之一。(下)生成的热图集中在第一页的右上角。这表明,前两页缺乏示意图可能导致论文更难懂。

  图 6:好论文的特定类别判别区域。由类激活映射(class activation mapping,CAM)生成的热图突出了好论文的特定区域,例如第一页解释核心观点的信息图、展示实验验证细节的图表、令人印象深刻的数学公式,以及来自基准数据集的彩色图像阵列。

  图 7:本论文的分类结果。研究者把训练出的分类器应用到本论文,结果网络以极高的概率(超过 97%)无情地拒绝了此论文,表明其不需要同行评审。

  优化论文版面

  除了对论文进行分类,强调判别区域,该研究还提供更多的建议,帮助论文作者改进所提交论文的版面。

  图 8:随机生成的好论文样本。这些随机样本捕捉到了好论文的版面模式:论文开头有解释性质的图、论文中有彩色图像,以及文本、数学公式、图表的均衡布局。

  图 9:使用 CycleGAN 进行论文增强。训练出的 bad-to-good paper 模型可用做论文修改辅助工具,为作者提供建议。典型的建议包括在前面增加信息图、把图做得色彩更加丰富、最后一页写满,使其看起来是一篇好论文。上图是坏论文逐渐调整为好论文的动画演示(最好使用 Adobe Acrobat Reader 查看)。

责任编辑:柯立_NN5224

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
祝贺!重庆大学刘汉龙教授当选中国工程院院士

祝贺!重庆大学刘汉龙教授当选中国工程院院士

弱肉强食法则
2024-04-24 15:09:53
青岛中院一审公开开庭审理张某斌等三人故意伤害案

青岛中院一审公开开庭审理张某斌等三人故意伤害案

界面新闻
2024-04-24 16:38:01
王鸥一定想不到,《哈尔滨一九四四》播了6集,自己口碑一夜暴涨

王鸥一定想不到,《哈尔滨一九四四》播了6集,自己口碑一夜暴涨

娱乐圈十三太保
2024-04-23 09:27:38
强迫中俄断联,美称制裁中国银行,中方两手准备,抛美债去美元化

强迫中俄断联,美称制裁中国银行,中方两手准备,抛美债去美元化

说天说地说实事
2024-04-24 06:33:50
这一轮物价普涨,看来很难避免,而背后更糟糕的是双杀

这一轮物价普涨,看来很难避免,而背后更糟糕的是双杀

视知产研院
2024-04-23 21:32:28
“神十八”航天员李广苏母亲:已有四五年没见过儿子,期待他圆满完成任务

“神十八”航天员李广苏母亲:已有四五年没见过儿子,期待他圆满完成任务

极目新闻
2024-04-24 14:25:11
嘉兴炒房客肠子都悔青了,嘉兴南湖区房价从19000元降至14000元

嘉兴炒房客肠子都悔青了,嘉兴南湖区房价从19000元降至14000元

有事问彭叔
2024-04-24 15:53:23
普京又该难过了!消息称卡德罗夫病重,胰脏坏死康复无望

普京又该难过了!消息称卡德罗夫病重,胰脏坏死康复无望

娱宙观
2024-04-23 10:49:16
贾跃亭送车周鸿祎!愿助他造车

贾跃亭送车周鸿祎!愿助他造车

前沿天地
2024-04-24 16:30:01
四川女区长被男友抽打致死,生前哀求:别打了,我再也不敢了

四川女区长被男友抽打致死,生前哀求:别打了,我再也不敢了

安妮Emotiong
2024-04-11 20:29:27
A股东方园林盘中涨停,上演地天板

A股东方园林盘中涨停,上演地天板

每日经济新闻
2024-04-24 09:49:11
美国科技,全面爆发!

美国科技,全面爆发!

星辰故事屋
2024-03-25 23:29:05
沉默了两天后,普京表示:俄罗斯的核武库比美国先进得多!

沉默了两天后,普京表示:俄罗斯的核武库比美国先进得多!

娱宙观
2024-04-23 20:45:46
超12板块“摸底价”曝光!买家:坐不住了

超12板块“摸底价”曝光!买家:坐不住了

广州楼市发布
2024-04-23 20:03:10
蹊跷!马英九到大陆,台湾花莲地震,洪秀柱到大陆,台湾花莲又地震?

蹊跷!马英九到大陆,台湾花莲地震,洪秀柱到大陆,台湾花莲又地震?

解筱文
2024-04-24 00:07:27
“不要在意内裤尺寸!”一名维密性感超模在后台被高管猥亵,对方让她忘掉穿内裤

“不要在意内裤尺寸!”一名维密性感超模在后台被高管猥亵,对方让她忘掉穿内裤

娱乐八卦木木子
2024-04-24 07:15:24
闹大了!66升油箱能装到80升?车主报警后,员工急忙打开设备调试

闹大了!66升油箱能装到80升?车主报警后,员工急忙打开设备调试

意外动物
2024-04-22 01:40:06
传媒湃|车玉明受聘为新华网总编辑,80后李志晖为常务副总编辑

传媒湃|车玉明受聘为新华网总编辑,80后李志晖为常务副总编辑

澎湃新闻
2024-04-24 14:22:26
江苏一房地产开发商破产,16笔共6688万应收款拍卖,3万就成交

江苏一房地产开发商破产,16笔共6688万应收款拍卖,3万就成交

天天话事
2024-04-24 11:44:58
确定!2年8000万,不要了,正式拒绝续约,这队,真要拆了

确定!2年8000万,不要了,正式拒绝续约,这队,真要拆了

球童无忌
2024-04-23 15:59:35
2024-04-24 17:44:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
8918文章数 141891关注度
往期回顾 全部

科技要闻

特斯拉财报差劲 但马斯克做出一个重磅表态

头条要闻

媒体:布林肯抵达上海 美国仍不停释放"施压要价"信号

头条要闻

媒体:布林肯抵达上海 美国仍不停释放"施压要价"信号

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

方媛带两女儿参加婚礼,当花童超可爱

财经要闻

居民气价确实在涨,多地正普遍发生

汽车要闻

续航708公里 极狐阿尔法S5展前现身

态度原创

旅游
游戏
教育
健康
公开课

旅游要闻

不合理低价游为何禁不住?

这是你没玩过的船新版本 《中国式网游》预告来袭!

教育要闻

年龄问题,小红8年前8岁,求她8年后多少岁?

这2种水果可降低高血压死亡风险

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版