被斯坦福AI团队套壳 面壁智能公开回应
在日益激烈的AI大模型竞逐中,又一家国产大模型“出圈了”。近日,斯坦福AI团队主导的 Llama3-V 开源模型,被证实“套壳”抄袭了我国清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5,此事在社交媒体引发了广泛的关注与热烈的讨论。6月4日凌晨,此事迎来“终局”——Llama3-V 团队的两位作者 悉达多·夏尔马(Siddharth Sharma) 和阿克什·加尔格( Aksh Garg)在社交媒体 X 平台上发文,向面壁 MiniCPM 团队道歉, 表示将 Llama3-V 模型悉数删除。
6月4日,面壁智能向媒体记者发布了官方回应。面壁智能CEO李大海表示:“技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。我们希望团队的好工作被更多人关注与认可,但不是以这种方式。”与此同时,李大海公开呼吁,“共建开放、合作、有信任的社区环境。加油合作,让世界因 AGI (通用人工智能)的到来变得更好!”
就在前一日,面壁智能首席科学家、清华大学长聘副教授刘知远在知乎平台发布长文指出:“这次事件也算侧面反映了我国的创新成果一直受到国际关注。”
记者综合社交媒体平台信息梳理了事件的时间线。5月29日,Llama3-V 团队在网络上高调宣传,只需要500美元即可训练出一个超越GPT-4V的SOTA多模态大模型。需要指出的是,该团队核心成员共有3人,其中悉达多·夏尔马 和阿克什·加尔格是来自斯坦福大学计算机科学系的2名本科学生。在模型发布后不久,就被业内人士发现,该项目使用的模型结构和代码与面壁智能不久前发布的 MiniCPM-Llama3-V2.5呈现出高度的相似,仅修改了部分变量名。
6月2日深夜,清华&面壁智能团队证实Llama3-V 开源模型确实“套壳”抄袭了该公司的“小钢炮”开源模型。刘知远在长文中介绍,“比较有意思的证据”是MiniCPM-Llama3-V 2.5在研发时内置了一个彩蛋,即对“清华简”(指清华大学收藏的战国竹简)的识别能力,这是清华&面壁团队花费数月从清华简逐字扫描并人工标注的数据集,并未对外公开,而Llama3-V展现出了一模一样的清华简识别能力,连做错的样例都一样,由此证实了抄袭事实。
6月4日凌晨1点,Llama3-V 团队的两位作者悉达多·夏尔马和阿克什·加尔格在X 上向面壁 MiniCPM 团队发文正式道歉, 并将删除所有对 Llama3-V 模型的引用。值得注意的是,夏尔马、加尔格在发文中均提到了团队另一位代码作者穆斯塔法·阿尔贾德里(Mustafa Aljadery)此前并未就模型的原创性作出说明。
针对此事件,斯坦福人工智能实验室主任克里斯托弗·曼宁(Christopher Manning)发文谴责了这一抄袭行为,并对中国MiniCPM开源模式表示了赞扬,谷歌DeepMind研究员卢卡斯·拜耶(Lucas Beyer)也公开发声,称“中国开源大模型拥有像MiniCPM这样好的模型,却没有得到与技术实力相当的国际关注”。
刘知远在长文中感慨从2006年到2024年十几年国内在AI领域的科研变化,尤其提到2020年OpenAI发布1700亿级参数的GPT-3,到2022年年底推出的ChatGPT,让从业者认识到与国际顶尖成果的差距,让大众真切感受到AI领域国内外的差距,特别是2023年Meta公司的Llama等国际开源模型发布后,开始有“国外一开源、国内就自研”说法;而到了2024年的今天,我们也应该看到国内大模型团队如清华&智谱AI、阿里通义千问、DeepSeek(深度求索)和清华&面壁智能等正在通过持续的开源共享,在国际上受到了广泛的关注和认可。
记者观察到,关于中国AI与国际尤其是美国的对比一直是业界乃至大众关注度较高的问题。上海人工智能研究院副总工程师沈灏提到,差距还存在的,我国在努力追赶。与沈灏类似,多名从业者在接受记者采访时也普遍提到,要正视与美国顶尖AI科研及工程成果的差距,但也要基于国内市场的特征与优势走出差异化的道路。一年多以来,国内各类大模型平台、工具及产品层出不穷,市场竞争日益白热化,大模型的商业化尚在摸索,而激烈的价格战也在不断压缩商业化空间,大模型厂商都在面临艰巨的挑战与考验。
刘知远指出:“从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年的nobody,快速成长为人工智能科技创新的关键推动者。面向即将到来的AGI时代,我们应该更加自信积极地投身其中。”