网曝北京理工大学某硕士生被指几乎一字不差地抄袭论文,多方回应

gong2022 2022-11-03 03:43:19 0

摘要:  ??2. 本文将尽可能客观介绍这个"恶劣事件"

3. 希望这个事件,最终得到公平公正的处理

下面主要分享了围绕这个事件的两块内容,核心都是一样的:

A. 登上知乎热搜榜(Top5)的话题:...



??2. 本文将尽可能客观介绍这个"恶劣事件"

3. 希望这个事件,最终得到公平公正的处理

下面主要分享了围绕这个事件的两块内容,核心都是一样的:

A. 登上知乎热搜榜(Top5)的话题:如何看待北京理工大学某硕士生被指几乎一字不差地抄袭论文?

B. 知乎文章:在arxiv上看到自己的投稿署了别人的名字是什么体验?

看完A,可以了解这个事件的全貌(含部分抄袭作者的回复);看完B,可以了解这个事件的细节。

A. 如何看待北京理工大学某硕士生被指几乎一字不差地抄袭论文?

https://www.zhihu.com/question/487690998

帮吃瓜群众总结一下事情全貌。本次事件是实锤无误,不仅有被抄袭者的原论文和抄袭者的现论文对比(几乎一字不差);而且抄袭者也承认是他的错误(据称是“pdf上传错误“)。然而这件事情远非抄袭那么简单(后文祥谈)。

1、时间线回顾:
作者王剑锋(知乎大V@王剑锋)2020年Neurips投稿了一篇文章(投稿截止日期为2020年6月5日),标题为Label Assignment Distillation for Object Detection,该文后被拒稿。由于Neurips的投稿是有记录的,所以此事实为真。

抄袭者在2021年arxiv上传了一篇文章,题目为Label Assignment Distillation for Object Detection,一字不变。上传时间为2021年9月16日,在被抄袭者投稿一年之后。因此时间上,必然是王剑锋拥有著作权,无可争议。投稿人为Minghao Gao, Hailun Zhang和Yige Yan。

与之前发生过的公开论文被抄袭事件不同。按照AI会议的规定,审稿期间的文章是不允许外泄的,因此,抄袭者是如何得到论文的,是一大疑点。

2、被抄袭论文与抄袭论文对比

我们把王剑锋的论文和arxiv的抄袭论文放到一块对比,发现几乎一字不差。

先看摘要部分:

王剑锋摘要

抄袭论文摘要

方法部分也一模一样,绝对不是“写作不规范”:

王剑锋论文方法部分

抄袭论文方法部分

不仅公式一模一样:

王剑锋公式部分

抄袭论文公式部分

就连论文中的图也是直接搬过来:

王剑锋的图

抄袭论文的图

读者可以自行对比其他部分:

王剑锋论文链接:

https://megvii-my.sharepoint.cn/personal/wangjianfeng_megvii_com/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fwangjianfeng_megvii_com%2FDocuments%2Fevidence%2F_NeurIPS2020__Label_Assignment_Distillation_for_Object_Detection%2Epdf&parent=%2Fpersonal%2Fwangjianfeng_megvii_com%2FDocuments%2Fevidence&originalPath=aHR0cHM6Ly9tZWd2aWktbXkuc2hhcmVwb2ludC5jbi86YjovZy9wZXJzb25hbC93YW5namlhbmZlbmdfbWVndmlpX2NvbS9FZndlRWtLUms0Ukp2YkdkVmhxWHdhd0JpNTRwcXpJZFlHQVNPamZOcExTTlZBP3J0aW1lPU0xcVFJM3Q3MlVn

arxiv抄袭论文链接:

https://arxiv.org/abs/2109.07843

3、抄袭者的回应:
首先,抄袭者通过邮件回复了王剑锋,

可以看到,主要意图是:

(1)承认是自己提交的arxiv

(2)否认是故意抄袭

(3)将责任推给第一作者

(4)希望王剑锋撤回举报了事。

王剑锋当然很不满意,难道arxiv也能“错误提交”?作为提交者,虽然不是第一作者(但是是共同第一作者),也应该负有主要责任。如果一字不差的全文照搬都不算抄袭,那么还有什么算抄袭?

论文下面角标显示张海伦为共同第一作者

后面抄袭者还在知乎上联系了王剑锋,基本意图没有什么改变。

(1)承认自己提交的

(2)否认是故意抄袭

共同第一作者居然说对文章的事情“不是很了解“,也是够绝了。

(3)将责任推给第一作者

(4)希望尽快了事

4、网传一作的回应:

有匿名用户称上面的截图是来自一作的回应,真实性待查。如果一作真的是“普通的打工仔”,“农村娃“,那这件事就更恐怖了:一个普通的不做这方面研究的研究者,是如何得到正在审稿的未公开文章的?

5、小评:细思极恐的事件

对于新手,如果说是一般性的错误甚至部分仿写,都可以理解。但是全文照抄属实说不过去,应当负有学术责任。何况这次是抄袭未发表未公开的文章。可以这么说,如果说王剑锋没有锤他的话,这篇文章的著作权将被他夺去,因为抄袭者是第一个公开的。这是非常恶劣的事件,研究者几个月乃至几年的工作,就被几个小时的ctrl+c,ctrl+v夺取,伤害的不仅是王剑锋本人,而且是其他认真做research的人的感情。抄袭者应当公开承认抄袭并道歉,而不是说“办事不周“”不了解情况“”希望不要留下污点“。幸亏这次是抄袭到了知乎大V,有几万粉丝的王剑锋,如果是抄袭的一般人,可能很难引起关注。

这几件事越来越启发导师们,应当首先对学生进行必要的学术诚信教育,划清底线。不然留下了案底,就很难在学术道路上走远了。

然而这件事情远非简单的抄袭事件,更加值得深思的是:抄袭者是怎么得到还在审稿的未公开论文的?抄袭者显然还不具备作为审稿人的资质,那么抄袭者是否和某个见过这篇文章的审稿人存在着利益交易?更进一步,是不是有某个交易平台,出售未发表的论文?这让我们每个做AI研究的研究者都细思极恐。这也是抄袭者应该被追查的事情。有一种可能性:是不是抄袭者购买的稿件,以为是原创的,所以上传arxiv?

非常好笑的是这个回答之后,有个叫“学术期刊“的私信我问我需要什么帮助,点进去一看都是一些代发论文的广告(头像也是),是不是这个抄袭者正是购买了这样的服务,然后当成是自己的原创呢?

评论区有些网友不知道Neurips的公开规则,这里声明一下:

2021年之前用的是Microsoft CMT系统进行投稿,对于接受稿件会在官网公开全文和审稿意见,被拒绝的稿件是不会被公开的(也没这功能)。事发的Neurips2020就是用的Microsoft CMT。

Neurips 2020 CMT 界面

2021年用的是open review,对于接受稿件都会公开(全文+审稿意见+决定),但是对于被拒绝稿件,是可以选择是否公开的。

B. 在arxiv上看到自己的投稿署了别人的名字是什么体验?

https://zhuanlan.zhihu.com/p/411800486

前言

图比较多,希望大家谅解。文章提到的所有证据和截图都已经在以下两个链接中存档,可随时查阅:

https://drive.google.com/drive/folders/1Wwekucy1BqE93cvVgoGbkH2y7x6Nn8GU?usp=sharing

https://megvii-my.sharepoint.cn/personal/wangjianfeng_megvii_com/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fwangjianfeng_megvii_com%2FDocuments%2Fevidence&originalPath=aHR0cHM6Ly9tZWd2aWktbXkuc2hhcmVwb2ludC5jbi86ZjovZy9wZXJzb25hbC93YW5namlhbmZlbmdfbWVndmlpX2NvbS9FbDRFX2d6MzQ4UkdyUVR3V2hjTWswQUJSMkRyelpLaEJUeWd6TkdPSklTcU9RP3J0aW1lPXZvdG9xSDE3MlVn

起因

昨天(2021 年 9 月 17 日),我们在 arxiv 上发现了一篇刚刚挂出的文章:

Label Assignment Distillation for Object Detection

arxiv.org/abs/2109.07843

这篇文章厉害在哪里呢?厉害在文章内容与我们 NeurIPS 2020 的投稿高度一致。我们的投稿,被泄露并被抄袭挪用了 。

以下是我们当初投稿的 pdf:

https://megvii-my.sharepoint.cn/personal/wangjianfeng_megvii_com/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fwangjianfeng_megvii_com%2FDocuments%2Fevidence%2F_NeurIPS2020__Label_Assignment_Distillation_for_Object_Detection%2Epdf&parent=%2Fpersonal%2Fwangjianfeng_megvii_com%2FDocuments%2Fevidence&originalPath=aHR0cHM6Ly9tZWd2aWktbXkuc2hhcmVwb2ludC5jbi86YjovZy9wZXJzb25hbC93YW5namlhbmZlbmdfbWVndmlpX2NvbS9FZndlRWtLUms0Ukp2YkdkVmhxWHdhd0JpNTRwcXpJZFlHQVNPamZOcExTTlZBP3J0aW1lPVVOYVY0bjE3MlVn

先放个对比。下图中,左图是 arxiv 文章,右图是我们的投稿文章:

标题完全一致,摘要几乎完全一致

图片完全一致,观察原文件可以发现左图文件对应图片的分辨率较低,是截图所致

表格数据完全一致

我们只截图了一部分雷同之处,因为如果要把所有雷同之处都截图,需要截图整整 8 页(论文共 8 页)。作者们主要修改了部分措辞,并采用了 CVPR 2021 的 latex 模板,这一过程完全是主观刻意的。我们要强调一点,arxiv 文章中没有任何一个配图、表格、公式是新的,完全没有做额外的实验。

自证

我们首先需要自证该文章确实是我们 NeurIPS 2020 的投稿。比如投稿邮件记录:

比如 overleaf 历史记录:

你细心的话可以发现pipeline图我们改了好几个版本

比如实验数据记录:

因为公司保密制度打了些码,但至少可以看到时间、目录和公式;对,后来还改投过 AAAI 2021,desk-reject;不过 AAAI 版本和 NeurIPS 版本写法差距很大,我们确定泄露的是 NeurIPS 版本

比如带时间的聊天记录旁证:

比如带时间的专利申请记录:

overleaf 上的 latex 源码我已经放在文首的网盘链接里了,arxiv 对应的 latex 源码也

在。

我们在公司内部还形成了白皮书文档,并对其他组展示过这个工作(有 ppt 和视频为证),证人也非常多。

我们承认这篇文章的质量是比较一般,连续投 NeurIPS 2020 和 AAAI 2021 都跪了之后,我们就没有再在上面花精力了。但从法律上讲,这篇文章依旧是我们的学术成果,我们拥有对其的著作权。从学术上讲,做这篇文章的过程直接孵化了我们中稿 CVPR 2021 的工作(见),对我们来讲是有很大价值的。

查证 + 投诉

我们的投稿文章是怎么泄露出去并被剽窃挪用的呢?我们能做的并不多,但还是有一些。最可疑的当然是我们的审稿人,但双盲机制使我们无从知晓审稿人是谁。arxiv

文章的作者有 3 位,且没有在论文中放联系方式,我们只知道三个作者分别来自北京理工大学和河海大学。我们依据英文名检索,几乎检索不到任何信息,可见 3 位作者在学术圈并不知名;我们冒昧推测这 3 位中并没有审稿人级别的人,所以泄露给他们的另有其人。

没有联系方式,连沟通的渠道都没有;幸好 arxiv 本身是可以查到上传者邮箱的。

根据邮箱前缀的学号,我们定位到了排序第二位的共同一作(以下简称二作)是北京理工大学自动化学院智能信息处理与控制方向 2020 级硕士生张海伦。

由于我们证据完善,底气非常足,对方的剽窃手段又非常粗陋,远不如前些日子爆出的洗稿事件高明,我们首先保持了克制。考虑到当事人中有人躺枪背黑锅的可能性,我们先私下请北京理工大学的朋友去联系对方的学院寻找当事人和其余的当事人,并寻求一个说法。

与此同时,我们保存并初步整理了证据,通过 CMT 系统和 NeurIPS 2020 官网,向 NeurIPS 2020 组委会发邮件做了初步投诉。我们的关注点主要在于是否存在审稿人泄露、传播、挪用投稿的情况,这也是我们身边知道这件事的伙伴们最关心的问题——我们还能不能放心投稿了?

我们等到第二天(2021 年 9 月 18 日),我们的朋友一直在与对方沟通,并没有什么进展;同时,我们在知识星球上看到了外界对该文章的介绍。于是我们决定进一步向北京理工大学、河海大学发了举报信,其内容与昨天的投诉基本一致。后又将类似内容正式邮件了二作。

在此声明,起初我们通过 arxiv 文章的 latex 文件内的 submission ID 推测已经提交到 CVPR 2021,后续我们发现 submission ID 属于其他文章,该 arxiv 文章没有被提交;此外后续我们发现一作 Minghao Gao 不是北京理工

大学的学生

在正式邮件了二作后,二作首先通过邮件回复了我:

这个回复中,“参与了部分代码和实验”的说法使我们很不满,前面已经强调过,arxiv 文章中没有任何一个配图、表格、公式是新的,我不明白有什么实验可以做的。

过了一会儿又在知乎上联系了我:

请注意,对方的话中存在非常多的疑问:

二作此时改口声称只是帮助上传了 arxiv,这与其邮件中的说法不符,也与其共同一作的地位不符

作者撤回 CVer 的理由是“pdf 上传错误”,不承认自己的行为属于剽窃

二作希望我们撤销举报,并把主要责任推给了一作,但对于提供其他作者的信息非常消极

我们直到现在对三作仍一无所知

至少我们现在知道了一作中文名高明豪,不是北京理工大学的学生,现已毕业,目前无工作单位。

接下来我们收到了一作的邮件,但该邮件彻底激怒了我们及身边所有人,这也是我们在保持了一段时间克制后最终仍决定写下这篇知乎专栏的直接导火索:

从邮件内容来看,其一,“pdf上传错误”、“初次涉猎相关事务”,当事人们仍没有真正认识到这件事属于剽窃,是严重的学术不端行为,试图蒙混过关;其二,“审稿留下当学习资料”暗示了存在投稿被不当泄露乃至传播的情况。

我们根据邮箱用户名查到了其 github,一作疑似山东科技大学的学生:

注意一作已经试图隐去了介绍中的学校;目前 github 中已经看不到右侧表明疑似学校的 repository

后续证实,一作是山东科技大学计算机科学与工程学院网络工程专业 2017 级本科生高明豪,现已毕业。三作是河海大学常州校区物联网学院计算机科学与技术专业 2017 级本科生晏艺格,现已毕业。



至当前,我们只进行了上述提及的投诉和举报,与当事人沟通,以及写下了这篇知乎专栏,并没有其他行为。截至当前,NeurIPS 2020 组委会、北京理工大学、河海大学尚无官方回复。我们尚不能彻底确定一作的毕业学校。我们仍然不知道投稿是如何被泄露并挪用的,泄露的责任人是谁。我们也已经咨询了公司法务。后续我们将继续与多方沟通。

思考

我们目前仍不知道这件事的影响范围有多大,我们只知道当事人们没有给我们满意的答复,没有讲清楚事情的来龙去脉,没有找到投稿的泄露源头;当事人们的说法前后矛盾,我们目前并不能全然相信当事人们的表态:

它可能仅仅是一起偶然的投稿泄露事件,被当事人们偶然拿来并产生了投机想法;

也可能是一个长期存在的现象,已经有了无数的投稿被剽窃,甚至有组织地剽窃。

目前我们只能猜测。但我们知道的是,

投稿被泄露甚至挪用这一事件,破坏了投稿人和审稿人双方之间的信任,对当前的双盲审稿机制是具有很大破坏性的;

剽窃他人的工作,不经掩饰地公开发表,是性质极其恶劣的学术不端事件,对所有努力工作的人而言都是极大的伤害。

我们犹豫过是否要公开曝光这件事,尤其是我本人,在身边朋友一边倒的态度下在努力保持克制,因为我们知道当事人可能是学术新人,这件事可能对当事人造成不可逆的影响。但一方面这不是我一个人的工作,所有人的态度都很重要;另一方面事实证明私下的沟通是没有用的,我们的目的也不仅仅限于撤回 arxiv 文章本身。身边朋友的一句话触动了我们,“犯错的成本不应该这么低”。但我们必须要强调,曝光这件事更重要的意义在于让大家警惕并重视投稿泄露挪用这一现象。

最后,提醒大家平时注意留存证据。每篇学术文章无论是否中稿,背后都是数个人少则几个月、多则几年的心血。我的前leader曾在我投稿不中时安慰我说,“每一篇工作都有属于自己的价值和去处”,我相信没有人愿意让自己辛勤工作的去处是这般模样。

--- 未完待续 ---

希望抄袭者尽快正面回应,不要在编故事了,这个事件真的很恶劣;另外希望每个人都要尊重科研、尊重他人和工作、也要尊重自己。


相关推荐

评论列表
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~
关闭

用微信“扫一扫”